导航：首页> 给水；排水>一种中文短文本实体链接方法

一种中文短文本实体链接方法

文献发布时间：2024-04-18 19:59:31

技术领域

本发明属于自然语言处理领域，尤其针对中文短文本的实体链接。

背景技术

在知识库(Knowledge Base,KB)中，更多的知识是以文本的形式呈现的，这些文本中包含了大量命名实体(Entity)，例如：人、地点和组织，每个实体都有对应的属性和描述，这些实体是知识库的基本元素。在自然语言中出现的实体被称为实体指称，简称指称(Mention)。在许多情况下，这些指称的含义非常模糊，特别是在一句话中，命名实体频繁出现的情况下，一个命名实体可以有多个指称，一个指称也可以表示多个不同的命名实体。实体链接的目的除了增强计算机对自然语言的理解，同时可以帮助大规模知识库的建设和维护，丰富知识库包含实体，有关实体的信息以及实体之间的信息。

传统的实体链接方法依赖于强大的有监督数据，例如别名表、结构化数据，用于特征工程或表示学习，也依赖于复杂的特征工程，包含手工特征和统计特征，并且制定了一系列基于语言体系的规则。但是现有的实体链接模型仅关注指称和候选实体之间的相似性，而忽略了候选实体之间的相关关系。并且随着以短文本为体裁的应用不断兴起，对短文本实体链接的需求也井喷式增长。

相对于长文本，一些短文本甚至缺失上下文信息，并伴有大量噪声，这导致一些模型很难学到短文本中的上下文特征。此外，与英文不同，中文单词可以由多个字符组成，并且字符或词语之间不存在空格，所以中文实体链接技术不可避免地需要解决分词问题。除此之外，目前还没有完全可访问的高质量中文知识库，导致中文实体链接系统发展滞后。目前中文短文本应用场景广泛但中文短文本实体链接的研究较少，并且构建指称和实体的嵌入方法较为单一，不能兼顾上下文语义和序列位置信息。

发明内容

本发明提出一种中文短文本实体链接方法和装置，融合BERT语义相似度和基于规则的文本相似度，得到候选实体集合，并通过PET对遮挡语言模型进行微调得到指称和实体嵌入表示，再利用对比学习的思想进行训练，得到嵌入表示的相似度得分，进行实体链接。

本发明提供一种中文短文本实体链接方法，包括以下步骤：

1)使用BERT生成词嵌入计算指称与候选实体名称的嵌入相似度；

2)基于所述嵌入相似度，计算候选实体描述之间的相似度得分，利用两部分相似度得分计算得到最后的相似度得分，得到候选实体集合；

3)基于模板训练方法，将指称和候选实体名称分别使用特殊遮挡标识[MASK]进行遮挡；所述预测特殊遮挡标识[MASK]位置的词嵌入作为指称、实体表示，得到指称嵌入和候选实体名称嵌入；

4)将所述指称嵌入和实体名称嵌入作为正样本对，随机指称样本对作为负样本进行一次训练，将所述候选实体作为负样本进行二次训练，得到实体链接模型。

进一步地，所述行为依赖候选实体集合构建、PET的方法和对比学习的思想，包括：

a)候选实体生成是指通过给定一个实体指称项，然后根据知识、规则等信息找到实体指称项对应的候选实体列表。候选实体集合的质量主要由两个因素决定：(1)是否包含目标实体；(2)候选实体的数目；

b)多种粒度的分词模式下的字符串匹配是指将指称字符串与实体名称和实体别名进行基于相似度的检索，得到相似度得分记为S

c)PET的方法通过将遮挡住的词语进行预测的方法，对上下文和实体文本编码为嵌入表示，既能够准确表达指定位置的指称和实体字段，也能够充分利用上下文中的语义信息；

d)基于模板开发训练的对比学习模型训练要能在在正负样本间学习知识库中所有实体的相关关系，挖掘出实体间的潜在语义联系。在一个批次Batch＝{

e)在对比学习中，有一个重要的参数，温度系数，它的作用是让模型更关注与并没有远离的负样本，而非已经足够远的样本，对于本文中，预训练模型所输出的嵌入矩阵y

其中，

个样本的标签值，在一个批次中，有n个候选实体样本。进一步地，步骤1)中将语料中的符号编码和语言编码进行了统一，保留了可识别的文本内容。例如，形如“{′predicate′：′首播时间′，′object′：′2018年2月7日′}，{′predicate′：′摘要′，′object′：′《圣途》是由李阳执导的五集大型纪录片。'}”的原始数据内容，经过预处理阶段，被处理为如下文本：“首播时间,2018年2月7日,摘要,《圣途》是由李阳执导的五集大型纪录片。”；

进一步地，步骤1)中针对短文本口语化严重，错别字过多，如“冬奥”被误写为“冬奥”，“美国”被改写为“米国”等问题，考虑了三种匹配模式，包括拼音全拼匹配、拼音首字母缩写匹配和多种粒度的分词模式下的字符串匹配；

进一步地，步骤2)中为了增加模型的准确率，本文使用两种负样本构造方式，进行二次训练，两次训练中，负样本分别为随机样本对，和<指称，候选实体>样本对，对指称和实体描述的句嵌入之间的匹配程度进行训练，得到最后的实体链接模型。

一种中文短文本实体链接装置，包括：

嵌入相似度计算模块，用于计算指称与候选实体名称的嵌入相似度；

候选实体集合获取模块，用于所述嵌入相似度和候选实体描述之间的相似度计算得到最后的相似度得分，得到候选实体集合；

嵌入获取模块，用于构建指称嵌入和实体名称嵌入；

模型训练模块，用于将指称嵌入和实体名称嵌入作为正样本对，随机指称样本对和得到的候选实体集合分别作为负样本进行两次训练，得到实体链接模型。

一种电子设备，其特征在于，包括存储器和处理器，所述存储器还存储有可由所述处理器执行的计算机指令，所述计算机指令被执行时，实现所述如权利要求1至3任一项所述的处理方法。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，实现所述如权利要求1至3任一项所述的一种中文短文本实体链接方法对应的操作。

利用本发明的方法可以更好地进行对中文短文本的实体链接，与现有技术相比，本申请的有益效果为：

1、根据本发明的中文短文本实体链接方法和装置，该方法不仅考虑到指称和候选实体之间的匹配程度，更构建了指称和实体，实体和实体之间的多元相关关系，建立知识库中实体间的潜在关系；本发明中，候选实体集合获取建立链接目标实体和其他实体之间的相关关系，从而学习上下文为了学习上下文表示和不同候选者之间的区别，构建指称，实体之间的潜在关系图，学习知识库中的实体分布，该分布反映了上下文中的潜在语义信息和候选者之间的关系，这有助于发现相似或相近的候选实体之间的差异；嵌入获取使用基于模板开发训练的方法编码指称和实体，得到语义嵌入，利用对比学习的方法，增强模型对短文本的理解能力，提高模型链接的准确度；模型训练时采用了二次训练的方法，增强了模型的理解能力，显著提升了模型效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1为本申请实施例1提供的候选实体生成阶段相似度得分计算的流程图。其中相似度得分来自BERT生成词嵌入计算和一系列规则相似度计算方法。

图2为本申请实施例2提供的中文短文本实体链接模型的候选实体排名阶段的流程图，本质是消除实体指称的歧义。

图3为正样本对的构建。对于每个指称，构建了<指称嵌入，实体嵌入>作为正样本对进行训练。

图4为百度中文短文本数据集上的各模型表现。

图5为不同预训练模型下，Base方法和本文方法结果对比。Base方法表示使用标注数据作为正样本，候选实体集合中的其他候选实体作为负样本，以交叉熵损失函数进行二分类任务训练MLM。

具体实施方式

为使本申请实施例的上述特点和优点更明显易懂，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例设计的实体链接方法基于对比学习，主要针对中文短文本。该方法主要针对候选实体生成和候选实体排名两个阶段进行了算法设计，在候选实体生成阶段，除了基于BERT的语义相似性以外，设计了基于规则的相似性计算方法。在候选实体排名阶段，通过基于预训练模型的模板开发训练的方法编码指称和实体文本，得到指称表示和实体表示，并利用对比学习思想构造正负样本，并针对不同方式产生出的负样本进行二次训练。

参照图1，为本申请实施例1提供的中文短文本实体链接方法中的候选实体生成阶段相似度得分的流程示意图，其主要步骤包括：

步骤101、对于知识库中实体的各种属性，每个属性都拥有一个属性字段和一个属性值，然后按照<属性字段，属性值>的二元组形式进行拼接，最后将二元组列表进行串联，得到实体的描述文本；

步骤102、基于预训练BERT的语义嵌入相似度利用BERT对上下文和实体描述分别编码，得到上下文中的指称表示和实体表示，再利用点积计算得分；

步骤103、在多种匹配模式下，计算BM25的检索相似度得分，并将得分进行加权，得到最终的基于规则的相似度得分，计算公式如下：

其中，S

本实施例中，通过学习实体间的相关关系，无需复杂的特征构建，也不需要进行统计计算，展示出模型简洁性和通用性。

参照图2，为本申请实施例2提供的中文短文本实体链接方法中的候选实体排名阶段的流程示意图，其主要步骤包括：

步骤201、将上下文中的指称、实体描述中的实体命名进行遮挡，用特殊遮挡标识符[MASK]进行替换，并且计算保存[MASK]标识的位置替换后，对于同一个拼接序列，得到两个带有不同位置的[MASK]的遮挡序列，将这两个遮挡序列输入到预训练语言模型中，对部分网络层的参数进行微调。微调完成后，利用训练后的模型对[MASK]进行预测，得到指称嵌入和实体名称嵌入；

步骤202、对于每个指称，本文构建了<指称嵌入，实体嵌入>，作为正样本对进行训练；

步骤203、针对构造出的正负样本对，设计融合对比学习的思想损失计算方法，让正样本之间相互靠近，互为负样本的嵌入表示相互远离；

步骤204、本文设计对比损失函数，将该问题视为多分类问题，对每一个样本的正样本进行预测，利用交叉熵损失函数计算模型损失，反向传播；

步骤205、为了增强模型的理解能力，针对每个指称及其上下文，选择<指称，链接目标实体>作为正样本对，利用候选实体生成步骤中的其他候选实体，构建<指称，候选实体>作为负样本对，将其作在第一次训练结果的基础上进行二次训练。

本实施例中，使用基于模板开发训练的方法编码指称和实体，无需复杂的特征构建，得到语义嵌入，并利用对比学习的方法，建立链接目标实体和其他实体之间的相关关系，从而学习上下文为了学习上下文表示和不同候选者之间的区别，且增强模型对短文本的理解能力，提高模型链接的准确度。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本领域的技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求书、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：国家电网有限公司信息通信分公司;北京邮电大学;国网江苏省电力有限公司信息通信分公司;

上一篇：三元过渡金属硫族化合物及其在太赫兹探测器中的应用
下一篇：凉水塔循环水框架逆序施工方法