掌桥专利:专业的专利平台
掌桥专利
首页

一种知识联合抽取模型训练方法

文献发布时间:2023-06-19 11:32:36


一种知识联合抽取模型训练方法

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种知识联合抽取模型训练方法。

背景技术

大数据时代提供了丰富的语料信息,然而也带来了严重的挑战,大部分数据信息是未经过标注的,在构建特定领域知识图谱中,往往需要标注大量的特定领域数据信息,而这会花费大量的时间与劳动力,然而,在实际应用中,有标注的语料数量也相对稀少。

知识图谱当中信息抽取可细分为命名实体识别、实体关系抽取2个子任务,其中通过实体识别和实体关系抽取来获取语义三元组,是构建知识图谱、理解自然语言的重要前提。而在传统的信息抽取任务中,往往把实体识别和关系抽取分开为两个不同的独立任务,忽略了他们之间的联系。

发明内容

本申请提供了一种知识联合抽取模型训练方法,用于解决现有技术需要大量的人力进行语料标注,且将实体识别和关系抽取分别作独立任务完成,导致实际操作耗费人力的同时还忽略了信息抽取过程中的关联性的技术问题。

有鉴于此,本申请第一方面提供了一种知识联合抽取模型训练方法,包括:

S1:采用初始种子训练集训练预置联合抽取模型,得到更新联合抽取模型,所述初始种子训练集包括第一标签,所述预置联合抽取模型用于实体识别和关系抽取;

S2:通过无标注测试集对所述更新联合抽取模型进行测试,得到测试结果;

S3:基于最大熵原理对所述测试结果进行评估分析,得到评估置信度;

S4:在所述评估置信度小于置信度阈值时,将添加第二标签后的所述无标注测试集加入所述初始种子训练集中,并执行步骤S1-S3。

优选地,所述预置联合抽取模型包括字符嵌入层、Bi-LSTM层、自注意力机制层和Bi-GCN层;

相应的,步骤S1,包括:

通过所述字符嵌入层对所述初始种子训练集进行词向量提取,并提取所述词向量对应的字符特征向量;

通过所述Bi-LSTM层对所述字符特征向量进行上下文特征提取,得到上下文特征向量;

通过所述自注意力机制层根据所述上下文特征向量进行强关系捕捉,得到增强上下文特征向量;

通过所述Bi-GCN层根据所述增强上下文特征向量进行实体识别和关系抽取。

优选地,所述通过所述字符嵌入层对所述初始种子训练集进行词向量提取,并获取所述词向量对应的字符特征向量,包括:

通过所述字符嵌入层采用预置Word2vec对所述初始种子训练集中的文本进行词向量提取,得到词向量表示;

通过预置字符提取算法提取所述词向量表示中的词向量对应的字符特征向量。

优选地,步骤S3,包括:

基于最大熵原理计算所述测试结果对应的熵值;

根据所述熵值进行不确定度分析,并计算所述测试结果的评估置信度。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请中,提供了一种知识联合抽取模型训练方法,包括:S1:采用初始种子训练集训练预置联合抽取模型,得到更新联合抽取模型,初始种子训练集包括第一标签,预置联合抽取模型用于实体识别和关系抽取;S2:通过无标注测试集对更新联合抽取模型进行测试,得到测试结果;S3:基于最大熵原理对测试结果进行评估分析,得到评估置信度;S4:在评估置信度小于置信度阈值时,将添加第二标签后的无标注测试集加入初始种子训练集中,并执行步骤S1-S3。

本申请提供的知识联合抽取模型训练方法,开始仅用少量带标签的初始种子训练集训练预置联合抽取模型,然后用无标注的测试集测试模型训练效果,接着通过对测试结果进行评估,用评估结果反馈影响模型的训练,反馈的方式是将该部分无标注测试集标注后加入初始种子训练集中,继续训练模型,直至更新联合抽取模型能够对无标注测试集预测出符合条件的结果。逐步添加标注训练集的方式能够减少人工标注工作,缓解人工标注压力,而预置联合抽取模型融合了实体识别和关系抽取操作,通过网络层将实体识别与关系抽取关联起来,提升了预测可靠性。因此,本申请能够解决现有技术需要大量的人力进行语料标注,且将实体识别和关系抽取分别作独立任务完成,导致实际操作耗费人力的同时还忽略了信息抽取过程中的关联性的技术问题。

附图说明

图1为本申请实施例提供的一种知识联合抽取模型训练方法的流程示意图;

图2为本申请实施例提供的预置联合抽取模型的网络层级结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为了便于理解,请参阅图1,本申请提供的一种知识联合抽取模型训练方法的实施例,包括:

步骤101、采用初始种子训练集训练预置联合抽取模型,得到更新联合抽取模型,初始种子训练集包括第一标签,预置联合抽取模型用于实体识别和关系抽取。

初始种子训练集是小部分的标注数据集,先用标注的小数据集训练模型,后续逐步完善训练。预置联合抽取模型融合了实体识别和关系抽取两个任务,在网络层中将实体识别与关系抽取关联起来,使得预测结果更加准确可靠。

进一步地,预置联合抽取模型包括字符嵌入层、Bi-LSTM层、自注意力机制层和Bi-GCN层;

相应的,步骤101,包括:

通过字符嵌入层对初始种子训练集进行词向量提取,并提取词向量对应的字符特征向量;

通过Bi-LSTM层对字符特征向量进行上下文特征提取,得到上下文特征向量;

通过自注意力机制层根据上下文特征向量进行强关系捕捉,得到增强上下文特征向量;

通过Bi-GCN层根据增强上下文特征向量进行实体识别和关系抽取。

预置联合抽取模型将实体识别与关系抽取融合在一起,具体是通过四个主要网络层实现的。请参阅图2,除了几个主要网络层,还包括输入层和输出层,输入层主要是初始种子训练集中的文本数据,即c1,c2,c3,c4和c5,总的初始种子训练集可以表达为c={c1,c2,......,cn},经过字符嵌入层的处理,得到的字符特征向量表示为X={X1,X2,......,Xn}。Bi-LSTM层即为长短时记忆网络层(Bi-directional Long Short-Term Memory,Bi-LSTM),主要是前向LSTM和后向LSTM组合得到,词语在文本中存在前后顺序关系,而LSTM网络层能够充分考虑到上下文语义之间的联系,对从前至后,从后至前的信息进行编码,实现语义信息的特征提取。

LSTM主要有输入门、遗忘门和输出门构成。输入门用于选择记忆信息,具体可以采用如下公式进行计算:

i

其中,h

其中,f

遗忘门用于选择遗忘信息,具体可以用公式表示为:

f

输出门用于输出处理结果,具体可以表达为:

o

h

其中,o

由于文本长度越长,捕捉依赖关系的能力就越低,因此,每一个递归都伴随着信息的耗损,此时可以引入自注意力机制捕获关键序列信息,用于增强需要关注的信息的依赖关系的捕捉能力。针对一个关键句子,可以计算每一个词与该句子中的所有词的自注意力参数,目的是学习句子中词的依赖关系,捕获句子内部结构。通过自注意力机制层处理后,可以得到深层的上下文特征序列,也就是增强上下文特征向量。具体的自注意力机制层(Self-Attention层)的自注意力计算可以表达为:

其中,Q、K、V分别为查询矩阵、键矩阵和值矩阵;

请参阅图2,通过Bi-GCN层进行实体识别和关系抽取存在两个操作,一个实体识别,一个是关系抽取;其中关系抽取是建立在预测实体之间关联的基础上,所以首先进行实体类别标注,采用条件随机场(Conditional Random Fields,CRF)划分全局最优标注序列输出结果。实体类型识别实质是概率标签序列,具体标记序列概率可以采用如下公式计算:

其中,M为自注意力特征序列,输出标记序列为Y,Y'为可能的标号序列,f(M)为所有可能的标号序列集合。

由于字符的实体标签信息可以对关系抽取产生一定的影响,Bi-GCN层可以进行关系推理,而GCN的本质是通过对邻近节点的特征进行卷积,将节点的信息传播到其最近的邻居节点,从而提取GCN的节点特征。由于输入语句是一个序列,或者向量,没有固有的图结构,因此需要使用依赖解析器为输入语句创建依赖树;然后以依赖树作为输入语句的邻接矩阵,以字符为节点,并使用GCN提取区域依赖特征,由于字符依存关系具有方向的特性,因此可以利用Bi-GCN实现,具体表达公式如下:

其中,

进一步地,步骤通过字符嵌入层对初始种子训练集进行词向量提取,并获取词向量对应的字符特征向量,包括:

通过字符嵌入层采用预置Word2vec对初始种子训练集中的文本进行词向量提取,得到词向量表示;

通过预置字符提取算法提取词向量表示中的词向量对应的字符特征向量。

具体的字符嵌入层需要对初始种子训练集中的文本进行词向量提取和字符提取操作,首先采用预置Word2vec工具提取文本数据的词向量,得到词向量表示,然后进一步提取词向量表示中的字符特征向量,可以根据实际情况选取预置字符提取算法,在此不作限定。

步骤102、通过无标注测试集对更新联合抽取模型进行测试,得到测试结果。

无标注测试集没有添加标签,直接输入更新联合抽取模型中进行测试,得到的测试结果是预测的实体类型和预测关系,根据其实际的实体类型和关系可以对测试结果进行分析,并初步衡量出更新联合抽取模型的性能。

步骤103、基于最大熵原理对测试结果进行评估分析,得到评估置信度。

最大熵原理用于表示不确定度的度量,不确定度越大,熵值越大,反之,熵值越小。置信度则可以直接定量分析测试结果的准确度,也是反映测试结果可靠度。

进一步地,步骤103,包括:

基于最大熵原理计算测试结果对应的熵值;

根据熵值进行不确定度分析,并计算测试结果的评估置信度。

采用公式表达最大熵原理的模型为:

其中,

其中,f

针对训练模型输出的结果进行最大熵评估,分析转化为置信度与系统所设阈值进行对比,熵越大表示该样本分类的不确定性越高。评估置信度的计算公式为:

其中,conf

步骤104、在评估置信度小于置信度阈值时,将添加第二标签后的无标注测试集加入初始种子训练集中,并执行步骤101-103。

当评估置信度大于所设置信度阈值时,将无标注测试集添加第二标签,然后加入到初始种子训练集当中构成新的种子训练样本集,继续模型训练;当评估置信度小于置信度阈值时,说明训练模型的测试结果确定性较好,可以完成模型的训练,也可以继续完善训练集,再进行模型训练。未标注数据以及置信度低的数据将通过主动学习的方式进行学习标注,最后将标注的数据信息加入到训练样本集合进行更新,如此循环更新迭代,逐步优化模型。

本申请实施例提供的知识联合抽取模型训练方法,开始仅用少量带标签的初始种子训练集训练预置联合抽取模型,然后用无标注的测试集测试模型训练效果,接着通过对测试结果进行评估,用评估结果反馈影响模型的训练,反馈的方式是将该部分无标注测试集标注后加入初始种子训练集中,继续训练模型,直至更新联合抽取模型能够对无标注测试集预测出符合条件的结果。逐步添加标注训练集的方式能够减少人工标注工作,缓解人工标注压力,而预置联合抽取模型融合了实体识别和关系抽取操作,通过网络层将实体识别与关系抽取关联起来,提升了预测可靠性。因此,本申请实施例能够解决现有技术需要大量的人力进行语料标注,且将实体识别和关系抽取分别作独立任务完成,导致实际操作耗费人力的同时还忽略了信息抽取过程中的关联性的技术问题。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种知识联合抽取模型训练方法
  • 一种文本抽取模型训练方法、文本抽取方法及装置
技术分类

06120112965259