基于区块链的企业数据治理方法及系统

文献发布时间：2023-06-19 16:04:54

技术领域

本发明涉及数据治理技术领域，具体为基于区块链的企业数据治理方法及系统。

背景技术

数字经济全面推进的时代背景下，培育发展数据要素市场需要充分发挥数据作为关键生产要素的价值。由于当前普遍存在的数据难管理、难流通、易泄露等情况，数据治理成为释放数据要素价值的重要路径，这也对各行业各领域数据治理能力提出了较高要求，数据治理的最终目标是提升数据的价值；

现有的企业数据管理系统无法对企业数据进行治理分析，使得企业数据易出现数据冲突、异常和可疑等，导致企业数据不准确唯一和数据质量不高。

发明内容

本发明的目的就在于为了解决现有系统无法的对企业数据进行治理分析，使得企业数据易出现冲突、异常和可疑的数据，导致企业数据不准确唯一和数据质量不高问题，而提出一种基于区块链的企业数据治理方法及系统。

本发明的目的可以通过以下技术方案实现：基于区块链的企业数据治理方法，该方法包括：

步骤一：对企业数据进行识别分类以得到数据元以及数据元对应的企业内容，再将企业内容划分为文字内容和数字内容；

步骤二：对数据元对应的企业内容进行整合处理，具体为：

S21：对文字内容进行整合处理：调取数据元对应的整合词库，提取数据元对应企业内容的词语，将词语与整合词库内的预设词组进行匹配，将企业内容的词语标记为第一词语；

S22：当预设词组内包括第一词语时，判定该第一词语是否包括冲突词组，当冲突词组内包括该第一词语时，将冲突词组内其余的所有词语与该企业内容中的所有词语进行匹配，若企业内容中匹配到冲突词组内词语时，将匹配到的词语与第一词语标记为冲突词语；

S23：当预设词组内没有第一词语时，将第一词语与预设词组内词语进行补全系数分析得到第一词语的补全系数，当补全系数大于设定系数阈值时，将预设词组内与第一词语重复度最大的词语标记为第一词语的补全词语；

S24：当补全系数小于或等于设定系数阈值时，提取第一词语的拼音，将其与预设词组内所有词语的拼音进行匹配，当匹配到对应的拼音时，将该第一词语标记为可疑词语；当未匹配到对应的拼音时，将该企业内容的词语标记为异常词语；

步骤三：对数字内容进行整合处理：调取数据元对应预设数值范围和数值点组，将数字内容中的数值与对应的预设数值范围或数值点组进行比对，当数字内容中的数值不在预设数值范围内或数值点组内的预设数值中不包括数字内容中的数值时，将该数字内容中数值标记为异常数字；

步骤四：将冲突词语或补全词语或可疑词语或异常词语或异常数字标记为待处理内容并反馈；接收待处理内容对应的修正内容，将修正内容与企业数据中对应企业内容进行替换，将替换后的企业数据标记为整合数据；

步骤五：对整合数据进行二次加工，具体为：获取所有预设的自定义指标模型以及自定义指标模型所需要的参数，将参数中所需要的数据元与整合数据中的数据元进行匹配，当整合数据中企业内容对应数据元包括自定义指标模型中所有参数的数据元时，将整合数据中对应企业内容代入自定义指标模型中，通过自定义指标模型输出结果，将输出的结果与整合数据标记为加工数据；然后将加工数据进行数据上链存证。

作为本发明的一种优选实施方式，所述进行补全系数分析的具体过程为：将预设词组内包含有第一词语相同字的词语标记为初补词语，其中包含相同字的数量可以为一个、两个或多个；统计包含相同字数量最多的初补词语的数量并标记为M；M的取值为正整数，最小值为1；代入公式BQ=100/（M×kfM）得到第一词语的补全系数；kfM为包含相同字数量为多个的初补词语数量的权重系数。

基于区块链的企业数据治理系统，包括数据汇集模块、数据整合模块、异常处理模块和数据加工模块；

所述数据汇集模块用于汇总企业人员通过智能终端上传的企业数据并将其发送至数据整合模块；

所述数据整合模块用于对企业数据进行整合处理，具体整合处理过程为：

对企业数据进行识别分类以得到数据元以及对应的企业内容，再将企业内容分为文字内容和数字内容；

对文字内容进行整合处理：调取数据元对应的整合词库，提取数据元对应企业内容的词语，将词语与整合词库内的预设词组进行匹配，将企业内容的词语标记为第一词语；词语可以为两个字、三个字或多个字组成的词语、短句等；当预设词组内包括第一词语时，判定该第一词语是否包括冲突词组，当冲突词组内包括该第一词语时，将冲突词组内其余的所有词语与该企业内容中的所有词语进行匹配，若企业内容中匹配到冲突词组内词语时，将匹配到的词语与第一词语标记为冲突词语；当预设词组内没有第一词语时，将第一词语与预设词组内词语进行补全系数分析得到第一词语的补全系数，当补全系数大于设定系数阈值时，将预设词组内与第一词语重复度最大的词语标记为第一词语的补全词语；当补全系数小于或等于设定系数阈值时，提取第一词语的拼音，将其与预设词组内所有词语的拼音进行匹配，当匹配到对应的拼音时，将该第一词语标记为可疑词语；当未匹配到对应的拼音时，将该企业内容的词语标记为异常词语；

对数字内容进行整合处理：调取数据元对应预设数值范围和数值点组，将数字内容中的数值与对应的预设数值范围或数值点组进行比对，当数字内容中的数值不在预设数值范围内或数值点组内的预设数值中不包括数字内容中的数值时，将该数字内容中数值标记为异常数字；数值点组由若干个预设数值构成；

将冲突词语或补全词语或可疑词语或异常词语或异常数字标记为待处理内容，将待处理内容发送至异常处理模块；接收异常处理模块反馈的修正内容，将修正内容与企业数据中对应企业内容进行替换，将替换后的企业数据标记为整合数据并发送至数据加工模块；

所述数据加工模块对整合数据进行二次加工以得到加工数据，然后将加工数据进行数据上链存证。

作为本发明的一种优选实施方式，所述数据加工模块对整合数据进行二次加工的具体过程为：获取所有预设的自定义指标模型以及自定义指标模型所需要的参数，将参数中所需要的数据元与整合数据中的数据元进行匹配，当整合数据中企业内容对应数据元包括自定义指标模型中所有参数的数据元时，将整合数据中对应企业内容代入自定义指标模型中，通过自定义指标模型输出结果，将输出的结果与整合数据标记为加工数据；其中，自定义指标模型包括文字加密模型和公式计算模型。

作为本发明的一种优选实施方式，所述异常处理模块用于接收待处理内容并进行处理，具体处理过程为：

获取待处理内容对应上传的企业人员，向该企业人员的智能终端发送内容修正请求，并在预设时间范围内接收企业人员通过智能终端反馈的请求处理结果；

当在预设时间范围内未接收到反馈的请求处理结果时，向该企业人员对应管理人员的智能终端发送内容修正请求以及企业人员的工号并接收管理人员通过智能终端反馈的已传指令，当接收到已传指令后，停止向管理人员的智能终端发送，否，则定时发送内容修正请求以及企业人员的工号至该企业人员对应管理人员的智能终端。

作为本发明的一种优选实施方式，所述监控分析的具体过程为：统计第一发送及处指令的第一时刻以及发送总次数，将第一时刻与系统当前时刻进行时刻差计算得到发送总时长，提取发送总时长和预设间隔时长的数值，以两者的数值为直角边建立直角三角形，选取直角三角形斜边的中点，再以该中点为起始点作垂于该斜边的直线段，且直线段的方向为远离两直角边交点的方向，直线段的长度数值等于发送总次数的数值；将直线段的结束点分别连接两直角边的直角边中点得到直线段对应两侧的段斜边，通过直线段对应两侧的段斜边与两直角边构建的封闭四边形，提取封闭四边形面积的数值并将该数值标记为提醒数值，当提醒数值大于设定提醒阈值时，向该企业人员对应管理人员的智能终端发送内容修正请求以及企业人员的工号。

与现有技术相比，本发明的有益效果是：

1、本发明通过对企业数据进行识别分类，然后对数据进行冲突、异常、可疑和缺失感知补全，从而减少企业数据的出现错误的几率，进而提高企业数据的质量；将整合处理后的数据进行二次加工，然后上链存证，方便企业数据的存证和溯源；

2、本发明通过异常处理模块对待处理内容信息进行处理，以便于提醒对应的企业人员及时对待处理内容进行检查和修正，确保企业数据的真实可靠，进而提高数据质量。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的原理框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，基于区块链的企业数据治理系统，用于区块链平台中，区块链平台内设置有数据存储模块、数据汇集模块、数据整合模块、异常处理模块和数据加工模块；

数据存储模块内存储有企业人员的人员信息、预设的自定义指标模型、数据元对应的整合词库、预设数值范围和数值点组；其中，企业人员的人员信息包括人员的姓名、工号、智能终端通信号码、所属管理人员的工号以及对应的智能终端通信号码等；

企业人员通过智能终端上传企业数据到数据汇集模块，数据汇集模块将接收到的企业数据进行汇总并将其传输给数据整合模块；

数据整合模块对企业数据进行整合处理，具体为：

对企业数据进行识别分类以得到数据元以及对应的企业内容，再将企业内容分为文字内容和数字内容；

将预设词组内包含有第一词语相同字的词语标记为初补词语，其中包含相同字的数量可以为一个、两个或多个；统计包含相同字数量最多的初补词语的数量并标记为M；M的取值为正整数，最小值为1；代入公式BQ=100/（M×kfM）得到第一词语的补全系数；kfM为包含相同字数量为多个的初补词语数量的权重系数；其中M为最小值时，补全系数最大，即预设词组内仅有一个与第一词语相同字多的词语；

当补全系数大于设定系数阈值时，将预设词组内与第一词语重复度最大的词语标记为第一词语的补全词语，其中重复度由重复相同的字数以及重复文字对应位置一致数量因素构成，相同的字数越多，重复文字对应的位置一致数量越多，重复度越大，如第一词语为ABCDE；补全词语为ABCDGF、ABHCDG；ABCDGF与ABCDE之间的相同的字数为4，重复文字对应的位置一致数量为4；ABDCDG与ABCDE之间的相同的字数为4，重复文字对应的位置一致数量为2；ABCDGF的重复度大于ABDCDG的重复度；

当补全系数小于或等于设定系数阈值时，提取第一词语的拼音，将其与预设词组内所有词语的拼音进行匹配，当匹配到对应的拼音时，将该第一词语标记为可疑词语；当未匹配到对应的拼音时，将该企业内容的词语标记为异常词语；

将冲突词语或补全词语或可疑词语或异常词语或异常数字标记为待处理内容，将待处理内容发送至异常处理模块；接收异常处理模块反馈的修正内容，将修正内容与企业数据中对应企业内容进行替换，将替换后的企业数据标记为整合数据并传输给数据加工模块。

数据加工模块对整合数据进行二次加工，获取所有预设的自定义指标模型以及自定义指标模型所需要的参数，将参数中所需要的数据元与整合数据中的数据元进行匹配，当整合数据中企业内容对应数据元包括自定义指标模型中所有参数的数据元时，将整合数据中对应企业内容代入自定义指标模型中，通过自定义指标模型输出结果，将输出的结果与整合数据标记为加工数据；其中，自定义指标模型包括文字加密模型和公式计算模型；将加工数据进行数据上链存证；如数据元为企业总收入，当文字加密模型中包括企业总收入时，则将企业总收入对应的数额通过文字加密模型进行加密得到加密后的数据，将加工后的数据标记为加工数据。

异常处理模块接收待处理内容并进行处理，具体处理过程为：

当在预设时间范围内接收到反馈的请求处理结果时，对请求处理结果进行分析，具体为：当请求处理结果为接收确认指令时，将待处理内容发送至该企业人员的智能终端并进行提醒操作，提醒操作为：提取待处理内容对应的数据元，获取数据元对应的预设间隔时长，将发送待处理内容的时刻与系统当前时刻进行时长计算，当计算的时长等于预设间隔时长，且未接收到待处理内容对应的修正内容时，生成及处指令并反馈到对应企业人员的智能终端并进行监控分析，具体为：统计第一发送及处指令的第一时刻以及发送总次数，将第一时刻与系统当前时刻进行时刻差计算得到发送总时长，提取发送总时长和预设间隔时长的数值，以两者的数值为直角边建立直角三角形，选取直角三角形斜边的中点，再以该中点为起始点作垂于该斜边的直线段，且直线段的方向为远离两直角边交点的方向，直线段的长度数值等于发送总次数的数值；将直线段的结束点分别连接两直角边的直角边中点得到直线段对应两侧的段斜边，通过直线段对应两侧的段斜边与两直角边构建的封闭四边形，提取封闭四边形面积的数值并将该数值标记为提醒数值，当提醒数值大于设定提醒阈值时，向该企业人员对应管理人员的智能终端发送内容修正请求以及企业人员的工号；

当请求处理结果为核查指令和通信号码时，将待处理内容发送至该通信号码对应的智能终端上并进行提醒操作；

当在预设时间范围内未接收到反馈的请求处理结果时，向该企业人员对应管理人员的智能终端发送内容修正请求以及企业人员的工号并接收管理人员通过智能终端反馈的已传指令，当接收到已传指令后，停止向管理人员的智能终端发送，否，则定时发送内容修正请求以及企业人员的工号至该企业人员对应管理人员的智能终端；

通过异常处理模块对待处理内容信息进行处理，以便于提醒对应的企业人员及时对待处理内容进行检查和修正，确保企业数据的真实可靠，进而提高数据质量。

本发明在使用时，首先对企业数据进行识别分类以得到数据元以及数据元对应的企业内容，再将企业内容划分为文字内容和数字内容，然后对数据元对应的企业内容进行整合处理，对文字内容进行整合处理：调取数据元对应的整合词库，提取数据元对应企业内容的词语，将词语与整合词库内的预设词组进行匹配，将企业内容的词语标记为第一词语；当预设词组内包括第一词语时，判定该第一词语是否包括冲突词组，当冲突词组内包括该第一词语时，将冲突词组内其余的所有词语与该企业内容中的所有词语进行匹配，若企业内容中匹配到冲突词组内词语时，将匹配到的词语与第一词语标记为冲突词语；当预设词组内没有第一词语时，将第一词语与预设词组内词语进行补全系数分析得到第一词语的补全系数，当补全系数大于设定系数阈值时，将预设词组内与第一词语重复度最大的词语标记为第一词语的补全词语；当补全系数小于或等于设定系数阈值时，提取第一词语的拼音，将其与预设词组内所有词语的拼音进行匹配，当匹配到对应的拼音时，将该第一词语标记为可疑词语；当未匹配到对应的拼音时，将该企业内容的词语标记为异常词语；其次对数字内容进行整合处理：调取数据元对应预设数值范围和数值点组，将数字内容中的数值与对应的预设数值范围或数值点组进行比对，当数字内容中的数值不在预设数值范围内或数值点组内的预设数值中不包括数字内容中的数值时，将该数字内容中数值标记为异常数字；再次将冲突词语或补全词语或可疑词语或异常词语或异常数字标记为待处理内容并反馈；接收待处理内容对应的修正内容，将修正内容与企业数据中对应企业内容进行替换，将替换后的企业数据标记为整合数据；最后对整合数据进行二次加工，具体为：获取所有预设的自定义指标模型以及自定义指标模型所需要的参数，将参数中所需要的数据元与整合数据中的数据元进行匹配，当整合数据中企业内容对应数据元包括自定义指标模型中所有参数的数据元时，将整合数据中对应企业内容代入自定义指标模型中，通过自定义指标模型输出结果，将输出的结果与整合数据标记为加工数据；然后将加工数据进行数据上链存证。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：钟晓;王剑;孙康峰;
专利申请人：江苏荣泽信息科技股份有限公司;