掌桥专利:专业的专利平台
掌桥专利
首页

构建产业链与行业之间映射关系的方法、设备和存储介质

文献发布时间:2023-06-19 19:30:30


构建产业链与行业之间映射关系的方法、设备和存储介质

技术领域

本申请涉及信息处理技术领域,更具体地说,它涉及一种构建产业链与行业之间映射关系的方法、设备和计算机可读存储介质。

背景技术

目前,现有的产业链的叶子节点通常没有关联到国民经济4级行业,导致产业链缺乏行业属性,从而增加了产业链关联企业相关信息的难度。如果通过人工进行关联,则存在人工效率低下的问题;如果通过设置关联规则使产业链自动关联企业相关信息,则存在关联规则复杂度高,难以实现的问题。因此,如何高效率且易实现地构建产业链与行业之间的映射关系,是本领域技术人员亟待解决的问题。

发明内容

为了至少解决上述技术问题,本申请提供一种构建产业链与行业之间映射关系的方法,其基于语言模型和分类器,实现了自动构建产业链与国民经济行业之间的映射关系。

第一方面,本申请提供一种构建产业链与行业之间的映射关系的方法,所述产业链包括多个叶子节点,包括以下步骤:构建分类模型,所述分类模型包括语言模型和分类器;构建行业标签字典,所述行业标签字典用于存储行业标签,所述行业标签用于表征行业属性;将用于描述所述叶子节点的文本序列转换为特征向量,并输入语言模型,以生成叶子标签;将所述叶子标签输入所述分类器,所述分类器根据所述叶子标签和所述行业标签字典得到所述叶子节点与行业之间的映射关系,所述映射关系即产业链数据与行业之间的映射关系。

通过采用上述技术方案,将用于描述叶子节点的文本序列通过语言模型转换为叶子标签,再通过分类器在行业标签字典中寻找与叶子标签匹配的行业标签,从而可以实现叶子标签与行业标签的对应,最终实现了构建产业链与行业之间的映射关系,无需人工标注的重复劳作,同时提高了效率。

可选的,所述构建产业链与行业之间的映射关系的方法还包括:对所述语言模型进行对比学习训练。

可选的,所述对语言模型进行对比学习训练包括以下步骤:获取具有叶子节点描述信息的训练样本;将所述训练样本转化为可输入所述拟训练的语言模型的特征向量样本;将所述特征向量样本重复两次输入到所述拟训练的语言模型;通过预设的损失函数进行监督训练;迭代所述拟训练的语言模型以得到所述语言模型。

通过采用上述技术方案,可以使语言模型的输出结果更准确。

可选的,所述语言模型包括多层Transformer模型,每一层所述Transformer模型的输出直接作为下一层Transformer模型的输入;最后一层Transformer模型的输出端连接所述分类器的输入端。

通过采用上述技术方案,可以使叶子节点的文本序列经多层Transformer模型处理,从而使生成的叶子标签的特征更明确,更容易被分类器精确分类。

可选的,所述构建产业链与行业之间的映射关系的方法还包括获取所述产业链数据的树状结构,以获取所述叶子节点。

通过采用上述技术方案,可以变换数据库中存储的产业链数据的数据结构,以便于快速获取叶子节点。

可选的,所述将叶子节点的文本序列转换为特征向量包括:将所述文本序列开头插入第一标注符号,结尾插入第二标注符号,使得每条文本序列以第一标注符号开头,以第二标注符号结尾。

通过采用上述技术方案,使文本序列符合语言模型的要求。

可选的,所述行业标签为数字标签。

可选的,所述叶子标签为数字标签。

通过采用上述技术方案,可以使叶子标签与行业标签之间更容易匹配。

第二方面,本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法的步骤。

第三方面,本申请提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。

综上所述,本申请可以将用于描述叶子节点的文本序列通过语言模型转换为叶子标签,再通过分类器预测与叶子标签匹配的行业标签,从而自动建立了叶子节点与行业标的对应关系,最终实现了构建产业链与行业之间的映射关系,无需人工逐一关联,提高了效率,进一步地,还降低了产业链关联企业相关行业信息的难度。

附图说明

图1示出了本申请其中一实施例的产业链节点关联行业的方法的流程图;

图2示出了本申请其中一实施例的语言模型的结构示意图;以及

图3示出了本申请其中一实施例的对语言模型进行对比学习训练的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-附图3及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

本发明实施例提供的一种应用环境至少包括分类终端,本说明书实施例中,分类终端可以包括台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然,分类终端并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软件。具体地,例如,分类终端可以提供给用户的网页页面。分类终端可以包括一个或多个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器可以包括有网络通信单元、处理器和存储器等等。本领域技术人员可以理解,上述应用环境仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比上述应用场景中更多或更少的终端设备,具体此处不作限定。

图1示出了本申请其中一实施例的构建产业链与行业之间映射关系的方法的流程图。如图1所示,本申请提供一种构建产业链与行业之间的映射关系的方法,其中产业链以树状结构存储时,其包括多个叶子节点。由于产业链数据在数据库中的存储方式通常不是树状结构,因此,在一个实施场景中,需要首先获取前述产业链数据的树状结构,从而可以获取上述叶子节点。如表2所示。

表2树状结构的产业链数据

上述构建产业链与行业之间的映射关系的方法可以包括步骤S101-S104。在步骤S101处,构建分类模型,所述分类模型可以包括语言模型和分类器。如图2所示,在一个实施方式中,该语言模型可以是BERT模型,并且可以包括12层或者24层串联的Transformer模型,该Transformer模型可以包括用于获取序列特征的多头注意力层、用于非线性变换的前馈网络层、两个残差连接,以及两个标准化层。其中前馈网络层用于精调特征向量,使特征向量更适合分类任务,残差连接可以防止信息丢失。每一层所述Transformer的输出直接作为下一层Transformer的输入;最后一层Transformer的输出端连接所述分类器的输入端。在一个应用场景中,在所述多头注意力层和前馈网络层后各接一个标准化层,并使用残差连接,所述前馈网络层位于多头注意力层之后。

由于BERT模型为预训练模型,因此需要对该语言模型进行对比学习训练。在一个应用场景中,具体可以包括步骤S201-S204,在步骤S201处,获取具有叶子节点描述信息的训练样本。在步骤S202处,将所述训练样本转化为可输入所述拟训练的语言模型的特征向量样本。在步骤S203处,将所述特征向量样本重复两次输入到所述拟训练的语言模型。在步骤S204处,通过预设的损失函数进行监督训练。其中预设的损失函数分为两部分,分别为第一损失和第二损失,第一损失是常规的交叉熵,第二损失是两个模型之间的对称KL散度。

在步骤S205处,迭代拟训练的语言模型以得到所述语言模型。对比学习在常规交叉熵的基础上,加了一项强化模型鲁棒性正则项,通过增加一个正则项,使得不同的Dropout下模型的输出基本一致,因此能降低不一致性,促进“模型平均”与“权重平均”的相似性,从而使得简单关闭Dropout的效果等价于多Dropout模型融合的结果,提升语言模型的最终性能。

同时,为了使分类器的分类更加准确,可以用预设的具有准确标注的叶子标签训练样本对通用分类器进行训练,从而得到适用于前述构建产业链与行业之间的映射关系的方法的分类器。

在步骤S102处,构建行业标签字典,该行业标签字典用于存储行业标签,其中行业标签用于表征行业属性(例如行业名称)。在实际应用场景中,为了便于分类,可以将行业标签转化为数字标签。行业分类可以是国民经济行业分类,也可以是自行制定的行业分类。如表1所示的行业标签字典,每一个行业标签分别对应自行分类的5级行业中的一个行业。

表1行业标签字典

在步骤S103处,将上述叶子节点的文本序列转换为特征向量,并输入语言模型,以生成叶子标签。例如,在前述文本序列的开头插入第一标注符号,例如[CLS],结尾插入第二标注符号,例如[SEP],使得每条文本序列以第一标注符号[CLS]开头,以第二标注符号[SEP]结尾。然后将处理后的文本序列转换为可以输入模型的特征向量,具体地,对文本序列数据进行embedding向量化表示,得到CLS特征向量。在一个实施方式中,还可以将前述文本序列截断为预设长度的多条文本,例如长度为256字节。在一个实施方式中,前述叶子标签为数字标签。

在步骤S104处,将上述叶子标签输入前述分类器,该分类器在上述行业标签字典中预测与该叶子标签对应的行业标签,从而预测该叶子节点与行业之间的映射关系,该映射关系即产业链数据与行业之间的映射关系。如表3所示。分类器将产业链叶子节点划分国民经济行业第5级,一共有例如1943个行业。一个叶子节点分类成一个5级行业,一条产业链对应多个5级行业(图中只示出了第4级和第5级)。

/>

表3产业链数据与行业之间的映射关系

以上结合图1-3对产业链节点关联行业的方法进行了示例性的描述,本领域技术人员应该理解的是,图1-3中所示的方法是示例性的而非限制性的,本领域技术人员可以根据需要对该方法的步骤进行调整。

同时,本申请还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的方法的步骤。该计算机设备可以是电脑、智能手机等客户端,其中,存储器可以通过通信总线与处理器通信连接,通信总线,可以为地址总线、数据总线、控制总线等。另外,存储器可以包括随机存取存储器(RAM),也可以包括非易失性存储器(NVM),例如至少一个磁盘存储器。并且处理器可以是通用处理器,包括中央处理器(CPU)、网络处理器(NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

另外,本申请还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,其中相同的零部件用相同的附图标记表示。故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

相关技术
  • 地址映射关系反馈方法、装置、设备及可读存储介质
  • 医疗映射关系库建立方法、装置、计算机设备和存储介质
  • 一种存储系统的构建方法、装置、设备及存储介质
  • 激光雷达与相机之间的标定方法、装置、设备及存储介质
  • 集群之间数据同步方法、装置、设备及其存储介质
  • 电力行业产业链模型生成方法、装置、存储介质和设备
  • 产业链构建方法、设备及存储介质
技术分类

06120115929113