一种基于知识图谱的企业数字化成熟度指标筛选方法

文献发布时间：2023-06-19 19:27:02

技术领域

本发明涉及一种数据处理系统，特别是涉及一种适用于对企业数字化成熟度指标进行筛选的数据处理方法。

背景技术

现有指标筛选方法主要分为主成分分析法、熵权法、二次权重分配法等方法，主要针对在大规模选取指标后的筛选工作，对于前期的指标筛选工作，即选取合理指标进行筛选这一过程没有合理方法，在第一次指标筛选的过程中常出现大量相似或相同指标的现象，提高了后续其他指标筛选方法的工作量。

在专利CN202210543866.1中设计了一种客观理论与主观经验相结合的指标筛选方法，在降低指标体系冗杂度的情况下保证指标信息包含量最大化，防止指标过度筛选情况；在专利CN111080108中设计了一种指标筛选方法，采用聚类分析、相关性分析对指标样本间的统计特征进行分析降低指标体系间的冗杂度。在这两种指标筛选方法中指标初步选择还是依赖于传统评价指标，虽然这两种筛选方法可以降低信息冗杂程度同时保留指标大量信息但一次指标筛选选取的传统评价体系无法反映行业特色且会提高后续指标筛选工作量。

在专利CN202111482376.7中提出了一种城市体检指标知识图谱构建方法及系统，提高了指标检索效率，便于指标推荐，去除了指标实体间的冗余关系，极大提高图数据库关系搜索效率。但该专利并未对后续指标筛选进行设计。

发明内容

本发明提供了一种基于知识图谱的企业数字化成熟度指标筛选方法，以至少解决现有技术中的问题。

本发明提供了一种基于知识图谱的企业数字化成熟度指标筛选方法，包括：

S1.建立指标库；

S2.对指标进行多重筛选，确定筛选后指标的各个权重；

S3.完成指标筛选过程；

所述多重筛选不少于两次筛选，且其中至少一次对各个指标进行分析，并去除相似指标。

进一步地，所述S1.建立指标库包括：

S101.基于行业信息，建立关键词数据库；

S102.对关键词数据库中的信息进行分类预处理；

S103.提取关键词中指标信息；

S104.基于指标信息进行指标字典构建；

S105.将指标字典输出，建立指标数据库；

更进一步地，所述S101.基于行业信息，建立关键词数据库具体为：

基于行业信息，进行检索，获取行业相关文件，从行业相关文件中提取关键词，并建立关键词数据库；所述行业相关文件至少包括行业相关文献、企业报告中至少一种。

更进一步地，所述S2.对指标进行多重筛选包括：

S201.指标一次筛选，所述指标一次筛选用于确定指标体系数据库，并进行一次指标选取；

S202.指标二次筛选，所述指标二次筛选用于对各个指标进行分析，并去除相似指标，进行二次指标选取；

S203.指标三次筛选，所述指标三次筛选用于确定各个指标权重。

更进一步地，S201.指标一次筛选包括：

S2011.基于指标数据库，构建知识图谱节点；

S2012.确定指标知识图谱边界；

S2013.构建指标体系数据库；

S2014.进行一次指标选取。

更进一步地，所述S2014.进行一次指标选取具体为：

选取关键域、一级指标、二级指标，完成一次指标选取。

更进一步地，所述S202.指标二次筛选包括：

S2021.去除关联程度较大指标；

S2022.进行二次指标选取。

更进一步地，所述S2021.去除关联程度较大指标具体采用粗糙集理论，去除关联程度极大的指标。

更进一步地，所述S203.指标三次筛选包括：

S2031.基于当前指标，进行重要性确定及补充过程；

S2032.对指标进行权重赋值；

S2033.去除权重较低的指标；

S2034.若符合导出要求，则停止筛选。

更进一步地，所述S2032.对指标进行权重赋值包括：

S20321.采用层次分析法，根据S2031构建各层指标对应的判断矩阵Bi；

S20322.求解各判断矩阵取最大特征值时的特征向量W，将特征向量归一化得到相对重要性权重向量W，W内的元素即为对应指标的相对权重；

S20323.通过递推得到各指标实际权重，排除权重占比极小指标。

本发明相对于现有技术，采用不少于两次筛选的多重筛选，对各个指标进行分析，并去除相似指标，解决一次指标筛选重复率高、所选指标无法全面反映行业特色的问题。

附图说明

图1为本发明实施例流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。

传统指标筛选方法主要通过人力统计相关文献关键词确定所选指标，再通过二次三次指标筛选对重复指标进行排除，但在一次筛选中所选指标往往由于人为因素无法全面准确的反映行业特点且指标重复率较高。

本发明提供了一种基于知识图谱的企业数字化成熟度指标筛选方法，如图1所示，包括：

S1.建立指标库；

其中，对本行业进行相关信息的获取，基于信息情况建立指标库；

S2.对指标进行多重筛选，确定筛选后指标的各个权重；

其中，所述多重筛选不少于两次筛选，且其中至少一次对各个指标进行分析，并去除相似指标；

S3.完成指标筛选过程；

其中，若S2获得的指标符合预期，则完成指标筛选过程，并导出。

本发明实施例采用不少于两次筛选的多重筛选，对各个指标进行分析，并去除相似指标，解决一次指标筛选重复率高、所选指标无法全面反映行业特色的问题。

可选的，所述S1.建立指标库包括：

S101.基于行业信息，建立关键词数据库；

S102.对关键词数据库中的信息进行分类预处理；

S103.提取关键词中指标信息；

S104.基于指标信息进行指标字典构建；

S105.将指标字典输出，建立指标数据库；

特别的，所述S101.基于行业信息，建立关键词数据库具体为：

其中，通过检索行业相关文献与企业报告建立关键词数据库，将关键词信息进行分类预处理，提取关键词中指标信息，构建指标字典，最终将指标字典中的内容输出建立指标数据库。

特别的，所述S2.对指标进行多重筛选包括：

S201.指标一次筛选，所述指标一次筛选用于确定指标体系数据库，并进行一次指标选取；

S202.指标二次筛选，所述指标二次筛选用于对各个指标进行分析，并去除相似指标，进行二次指标选取；

S203.指标三次筛选，所述指标三次筛选用于确定各个指标权重。

本发明实施例通过三次对指标的筛选，从多个角度对指标进行调整，确保筛选后的指标与企业相关性相符合。

特别的，S201.指标一次筛选包括：

S2011.基于指标数据库，构建知识图谱节点；

其中，根据单篇文献与报告中所包含的指标内容，寻找各指标之间的关联点，对单条指标建模，使用自然语言处理工具，使其成为结构化数据，构建知识图谱节点；

S2012.确定指标知识图谱边界；

其中，对指标、属性、单篇文献或报告中涉及的关键词、指标间关系、指标间属性关系等进行建模，构成知识图谱中节点与边界结构；并建立知识图谱中指标的数理逻辑及知识推理算法，归纳指标库中重复关系，修正指标互斥关系，扩充指标间未发现的潜在关联节点；

S2013.构建指标体系数据库；

其中，确定各指标的图谱边界及包容关系，将构建的指标图数据库更新为指标体系知识图谱，构建指标体系数据库

S2014.进行一次指标选取。

所述S2014.进行一次指标选取具体为：

选取关键域、一级指标、二级指标，完成一次指标选取。

其中，S2014按层次选择互不相关或有轻微关联的关键域(要求能完整反映企业数字化成熟度，即所选各层指标能占据数据库全体内容的80％)、一级指标、二级指标，完成一次筛选工作。

本发明实施例在一次筛选时可以通过知识图谱选择无关且能对行业特点进行全方位表征的指标，以解决一次指标筛选重复率高、所选指标无法全面反映行业特色的问题，从而降低二次三次指标筛选的工作量及指标筛选重复次数，提高指标选取的科学性和准确性。

特别的，所述S202.指标二次筛选包括：

S2021.去除关联程度较大指标；

S2022.进行二次指标选取。

本发明实施例通过对关联程度的分析，去除关联程度较大指标，实现对指标的精简，降低指标数量。

特别的，所述S2021.去除关联程度较大指标具体采用粗糙集理论，去除关联程度极大的指标。

其中，粗糙集理论具体为：将各指标原始数据利用知识图谱节点关系进行聚类处理得到条件属性集C与决策属性集D，各指标构成对象集；设置A为各一级指标下各二级指标所构成的集合，C-{Ci}为在条件属性集C中去除条件属性Ci之后的集合；通过计算D对于各C-{Ci}、C的正域(pos(C-{Ci})(D)、posC(D))，对照排除pos(C-{Ci})(D)与posC(D)相同时的{Ci}，得到二次筛选过后的指标。

本发明实施例通过调查统计相关行业文献与企业报告关键词，利用知识图谱构建行业指标数据库，从数据库中选择合理不重复指标，再通过粗糙集理论对指标进行二次筛选，实现对指标的精简化。

特别的，所述S203.指标三次筛选包括：

S2031.基于当前指标，进行重要性确定及补充过程；

其中，可向专家发放调查问卷查看各指标相对重要性及是否需要再次补充指标；

S2032.对指标进行权重赋值；

其中，利用问卷结果通过层次分析法(AHP)计算各指标相对权重；

S2033.去除权重较低的指标；

S2034.若符合导出要求，则停止筛选。

其中，重复第三次筛选的步骤直到满足指标体系的构建要求，并输出，完成指标筛选工作。

本发明实施例根据筛选所得指标构建指标体系，最终进入到指标体系的应用过程，即对企业数字化成熟度进行评估。

特别的，所述S2032.对指标进行权重赋值包括：

S20321.采用层次分析法，根据S2031构建各层指标对应的判断矩阵Bi；

其中，层次分析法具体为：根据问卷数据构建各层指标对应的判断矩阵Bi；

S20322.求解各判断矩阵取最大特征值时的特征向量W，将特征向量归一化得到相对重要性权重向量W，W内的元素即为对应指标的相对权重；

S20323.通过递推得到各指标实际权重。

其中，在完成S2033后，再次发放调查问卷，直到问卷调查专家通过率达到80％，完成筛选，若不达到80％，则重复S203。

本发明实施例通过基于知识图谱结合模糊集理论与层次分析法的方法，对相关行业数字化成熟度评估进行指标筛选。此外，本发明实施例降低了进入二次筛选的指标数量以及三次筛选中向专家发放调查问卷的循环次数且通过知识图谱可以直观看出所选指标占比情况以及具有行业特色的指标数量，故大幅度降低了二次、三次指标筛选的工作量，提高了指标选择的科学性与准确性，建立的指标数据库也可以对企业数字化成熟度进行全面的体现，同时选择的指标也体现了企业的行业特点。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，技术人员阅读本申请说明书后依然可以对本发明的具体实施方式进行修改或者等同替换，但这些修改或变更均未脱离本发明申请待批权利要求保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：薛磊;李强;郑宇明;张静宇;张海波;高玮;王超;
专利申请人：国网山西省电力公司经济技术研究院;

上一篇：一种快速清理混凝土顶管模具的装置
下一篇：一种晶片切割自动换刀装置及其换刀方法