掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识图谱的前瞻因子筛选方法及其系统

文献发布时间:2023-06-19 12:22:51


一种基于知识图谱的前瞻因子筛选方法及其系统

技术领域

本发明涉及前瞻因子筛选技术,具体涉及一种基于知识图谱的前瞻因子筛选方法及其系统。

背景技术

在预测上市公司业绩时,往往需要用到宏观、行业数据,市场上可以采购到的宏观、行业数据指标数量级庞大(几十万条,甚至上百万条),传统人工筛选的方法需要消耗大量的人力,并且需要筛选的人员对上市公司业务情况及宏观、行业指标有非常深入的研究和了解,但受限于人注意力和精力有限,因此在筛选时往往可能漏掉很多高价值的宏观、行业先行指标;或者随着时间推移和上市公司经营范围的变化,上市公司经营业绩的先行指标也会发生变化,因此需要一种新型的利用计算机高效、相对准确的筛选上市公司经营业绩预测先行指标的筛选方法。完全基于数学计量的时间序列相关性检验,只考虑了数学特征,并没有考虑上市公司具体经营内容与宏观、行业数据指标之间的逻辑关联,从而导致筛选出的宏观、行业指标中含有大量无法解释的指标,对于金融投资没有实质性支撑作用,因此需要创新一种能够在宏观、行业指标与上市公司经营活动之间建立可解释的评判方法,更准确地找到高价值的先行指标。

发明内容

本发明的目的在于,提供一种利用计算机高效、相对准确的筛选上市公司经营业绩预测先行指标的筛选技术。

为实现上述目的,一方面,本发明提供了一种基于知识图谱的前瞻因子筛选方法,该方法包括以下步骤:

通过第一企业信息获得企业产业链图谱,所述产业链图谱包括:企业原材料和主营产品;

对当前产业链图谱中的节点进行扩展,扩展出原材料生成企业及其相关的原材料和主营产品;扩展主营产品需求企业及其相关的原材料和主营产品;

将扩展的企业产业链图谱中原材料和主营产品节点提取,作为关键词,该关键词反映了企业产业链上下游原材料和主营产品关系;

通过将关键词与指标进行模糊匹配,获得候选指标列表;

通过第二企业信息和指标对应的指标值进行相关性计算,获得指标相关性,指标在列表中的位置反应了指标与第二企业信息的相关程度;

通过将指标相关性进行去共线性计算,获得企业前瞻因子。

另一方面,本发明提供了一种基于知识图谱的前瞻因子筛选系统,该系统包括:

第一处理单元,用于通过第一企业信息获得企业产业链图谱,所述产业链图谱包括:企业原材料和主营产品;

第二处理单元,用于对当前产业链图谱中的节点进行扩展,扩展出原材料生成企业及其相关的原材料和主营产品;扩展主营产品需求企业及其相关的原材料和主营产品;

第三处理单元,用于将扩展的企业产业链图谱中原材料和主营产品节点提取,作为关键词,该关键词反映了企业产业链上下游原材料和主营产品关系;

第四处理单元,用于通过将关键词与指标进行模糊匹配,获得候选指标列表;

第五处理单元,用于通过第二企业信息和指标对应的指标值进行相关性计算,获得指标相关性,指标在列表中的位置反应了指标与第二企业信息的相关程度;

第六处理单元,通过将指标相关性进行去共线性计算,获得企业前瞻因子。

本发明通过将企业对应的产业链知识图谱中原材料和产品提取作为关键词,对数据库中的宏观指标和产业指标进行模糊匹配,得到企业对应的候选前瞻因子列表,通过相关性计算,得到企业前瞻因子列表,进一步通过去共线性计算得到企业前瞻因子。

附图说明

图1为本发明实施例提供的一种基于知识图谱的前瞻因子筛选方法流程示意图;

图2为图1所示方法涉及的产业链知识图谱示例;

图3为图1所示方法基于知识图谱的前瞻因子筛选结构示意图;

图4为本发明实施例提供的一种基于知识图谱的前瞻因子筛选系统结构示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

图1为本发明实施例提供的一种基于知识图谱的前瞻因子筛选方法流程示意图。如图1所示,该方法包括以下步骤:

步骤一、通过企业名称获得企业产业链图谱(如图2所示,以浙江龙盛为例,给出了原材料和产品图谱),产业链图谱中包括了企业原材料和主营产品,由于企业主营业务可能会发生变化,因此企业产业链图谱会定期更新,以便正确反映企业经营情况。

步骤二、获得的企业产业链图谱所得到的是原材料和产品,为了反映整个产业链上的企业之间的关系,需要针对当前产业链图谱中的节点(如,石油化工)进行扩展,扩展出原材料生成企业及其相关的原材料和主营产品;扩展主营产品需求企业及其相关的原材料和主营产品。

步骤三、将扩展的企业产业链图谱中原材料和主营产品节点提取,作为关键词,该关键词反映了企业产业链上下游原材料和主营产品关系。

步骤四、通过将关键词与指标进行模糊匹配,获得候选指标列表。

具体地,所述模糊匹配是指无论关键词的位置怎样,只要出现该关键词即可,模糊匹配会自动拆分关键词为单元概念,将拆分的单元组成的向量与指标拆分组成的向量进行逻辑与运算,根据运算结果确定候选指标。以上拆分的原则是拆分的最小单元为已有的金融领域关键词列表中的关键词。候选列表中只包含候选指标所在的行业和候选指标的名字信息。

步骤五、提取企业营业收入和指标对应的指标值进行相关性计算,获得指标相关性;指标包括宏观指标和行业指标,指标在列表中的位置反应了指标与企业营业收入的相关程度。指标值是时间序列数据,这些指标已经存储在了数据库里,通过数据库操作提取。

具体地,本发明实施例利用皮尔森(Pearson Correlation Coefficient,简称Pearson)相关系数进行相关性计算,计算公式如下:

其中X,Y为代分析的两个时间序列,N为时间序列长度。

步骤六、通过将候选指标进行去共线性计算,获得企业的前瞻因子,图3为知识图谱的前瞻性因子筛选结构示意图,以浙江龙盛为例,获得的相关指标及其对应的指标,及其对应的关键词、指标相关性和前瞻性,如表格中的因子数据、数据量、关键实体、数学相关、领先性和正相关/负相关)。

具体地,本发明实施例利用单因素方差分析也称为F检验进行去共线性计算,检验统计量是F统计量,用于比较样本之间的均方误差(MS

其中:

k是分组数量,n

本发明方法实施例通过将企业对应的产业链知识图谱中原材料和产品提取作为关键词,对数据库中的宏观指标和产业指标进行模糊匹配,得到企业对应的候选前瞻因子列表,通过相关性计算,得到企业前瞻因子列表,进一步通过去共线性计算得到企业前瞻因子。

相应地,本发明实施例提供了一种基于知识图谱的前瞻因子筛选系统。

图4为本发明实施例提供的一种基于知识图谱的前瞻因子筛选系统结构示意图。如图4所示,该系统40包括:第一处理单元41、第二处理单元42、第三处理单元43、第四处理单元44、第五处理单元45和第六处理单元46。

第一处理单元41,用于通过第一企业信息获得企业产业链图谱,所述产业链图谱包括:企业原材料和主营产品;

第二处理单元42,用于对当前产业链图谱中的节点进行扩展,扩展出原材料生成企业及其相关的原材料和主营产品;扩展主营产品需求企业及其相关的原材料和主营产品;

第三处理单元43,用于将扩展的企业产业链图谱中原材料和主营产品节点提取,作为关键词,该关键词反映了企业产业链上下游原材料和主营产品关系;

第四处理单元44,用于通过将关键词与指标进行模糊匹配,获得候选指标列表;

第五处理单元45,用于通过第二企业信息和指标对应的指标值进行相关性计算,获得指标相关性,指标在列表中的位置反应了指标与第二企业信息的相关程度;

第六处理单元46,通过将指标相关性进行去共线性计算,获得企业前瞻因子。

具体地,第四处理单元44具体用于拆分关键词为单元概念,并进行逻辑与运算;拆分原则是拆分的最小单元为已有的金融领域关键词列表中的关键词;所述候选列表中只包含候选指标所在的行业和候选指标的名字信息。

具体地,第五处理单元45具体用于利用皮尔斯相关系数进行相关性计算,计算公式如下:

其中X,Y为代分析的两个时间序列,N为时间序列长度。

具体地,第六处理单元46具体用于利用单因素方差分析也称为F检验进行去共线性计算,检验统计量是F统计量,用于比较样本之间的均方误差(MS

其中:

k是分组数量,n

本发明实施例,通过将企业对应的产业链知识图谱中原材料和产品提取作为关键词,对数据库中的宏观指标和产业指标进行模糊匹配,得到企业对应的候选前瞻因子列表,通过相关性计算,得到企业前瞻因子列表,进一步通过去共线性计算得到企业前瞻因子。

显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

相关技术
  • 一种基于知识图谱的前瞻因子筛选方法及其系统
  • 一种基于深度学习的前瞻因子筛选方法
技术分类

06120113270104