一种基于特征对齐的专利多领域知识抽取方法及系统
文献发布时间:2024-04-18 19:58:26
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理和深度学习领域,尤其涉及一种基于特征对齐的专利多领域知识抽取方法及系统。
背景技术
随着我国科学技术的持续进步,我国专利申请受理量已经多年位居世界第一。国际专利分类法(International Patent Classification,IPC) 是目前惟一国际通用的专利文献分类和检索工具,其分类的主要依据是专利所属的技术领域主题,包括部、大类、小类、大组和小组共5个层级的分类。专利文档中记录的不同领域中的各种问题存在相似性,它们最终的解决方式也往往是相通的,即在面临一个特定领域的新问题时,设计人员可通过从其他领域中寻找利用相同的原理方法来解决类似问题的案例,从而激发创新灵感。然而传统的基于技术领域的知识抽取方式限制了跨学科、跨领域专利知识的获取。现有的专利领域的知识抽取一般通过无监督的领域词表、通用命名实体识别的方式实现,普遍存在新词和专业术语识别能力不足、领域知识抽取不准的缺陷。有监督的模型需要各领域的大量标记数据进行训练,而专利涵盖的领域众多,人工标注费事费力,导致经济成本和时间成本的现实可行性困难。因此,如何针对专利多领域的特定文本特点,融合深度学习的自然语言处理能力,面对专利领域无监督知识抽取效果欠佳和有监督模型对标注数据的需求之间的矛盾,如何实现精准高效的专利知识抽取已经成为目前的一项重要研究内容。
目前常见的知识抽取模型一般针对通用领域设计,应用于专利领域时,由于专业术语、应用领域、语用场景的不同,以专利为代表的专业文本中蕴含了大量的字面、语法和语义信息,如专业词汇、语义相似度、篇章结构关系等,同时专利领域的多样性问题引起的文本特征分布差异性大,导致通用知识抽取模型存在多领域适配性差的问题,目前尚缺少有效的针对专利多领域的自动知识抽取模型。
发明内容
本申请提供一种基于特征对齐的专利多领域知识抽取方法及系统,旨在解决现有技术知识抽取模型多领域适配性差的问题。
第一方面,一种基于特征对齐的专利多领域知识抽取方法,所述方法包括模型训练阶段以及模型应用阶段;
在所述模型训练阶段中包括S1领域及任务配置、S2模型设计、S3执行训练、S4特征映射四个步骤,其具体包括:
S1领域及任务配置,获取进行专利多领域知识抽取的全部专利文本,以全部专利文本为基础,通过IPC分类对应的领域进行划分,根据专利数据选择源域和目标域,并设计源任务和辅助任务;保存并生成领域信息以及任务配置信息,作为后继模型训练输入;
S2模型设计,基于生成的领域及任务配置信息,分别设计源任务和目标任务的模型架构、辅助任务模型输出层结构以及源任务到目标任务模型特征的特征映射神经网络结构;
S3执行训练,分别针对选定的源任务和目标任务准备源域和目标域上的训练数据,对源域上的源任务和目标任务、目标域上的源任务执行模型训练,在训练过程中加入了特征对齐和辅助任务微调;
S4特征映射,利用源域上的训练数据对源任务模型特征到目标任务模型特征的特征映射神经网络执行有监督的训练;
在所述模型应用阶段中,具体包括通过特征映射生成目标域上目标任务的模型特征,进而通过目标任务模型实现知识推理,将输出的知识存储到知识库。
可选地,所述S1领域及任务配置包括:
S11,获取进行专利多领域知识抽取的全部专利文本,以全部专利文本为基础,将专利按照IPC分类体系中的技术领域进行划分,选择具有标注数据的领域作为源域,在目标任务下无标注数据的待抽取知识所属的领域作为目标域;其中,将A、B分别表示选取的源域和目标域;源域和目标域下的专利文本将作为后续模型训练过程的输入数据,用X
S12,选择与目标任务相近的任务作为源任务,其中,目标任务至少包括专利知识抽取任务;用T
S13,选择与源任务和目标任务共同关联的任务作为辅助任务,并利用T
可选地,所述S2模型设计具体包括:
S21,根据源任务的配置信息设计源任务的模型架构;对于源任务IPC分类,选用BERT+Softmax模型架构,BERT模型作为编码层用于实现文本编码,Softmax分类器作为输出层,根据BERT模型输出的CLS编码向量实现专利分类;其中,利用E
S22,根据目标任务的配置信息设计目标任务的模型架构;对于目标任务知识抽取,选用BERT+CRF模型架构,BERT模型作为编码层,以序列标注的方式输出编码结果,CRF模型作为输出层,通过概率无向图结构对BERT输出的编码向量进行综合计算,输出知识标记结果;其中,利用E
S23,根据辅助任务的配置信息设计辅助任务的模型输出层结构;对于辅助任务摘要生成,选用Transformer的Decoder部分作为辅助任务模型的输出层,根据源任务和目标任务中BERT编码层的输出特征生成专利摘要;其中,利用D
S24,根据源任务和目标任务模型编码层的输出特征形式确定特征映射神经网络的结构;通过使用双向LSTM神经网络实现源任务编码层输出特征到目标任务编码层输出特征的映射;其中,利用G
可选地,所述S3执行训练具体包括:
S31根据源任务及其模型结构确定源任务模型训练的损失函数L
对于源任务,使用源任务在源域上的标注数据
;
S32,根据目标任务及其模型结构确定目标任务模型训练的损失函数L
对于目标任务,使用目标任务在源域上的标注数据
;
S33,通过最小化范数差异比对损失函数L
;
S34,在模型训练中引入辅助任务T
,/>
;
S35将所得到的四部分损失函数的计算结果相加,得到模型训练过程的整体损失函数Loss=Loss
可选地,所述S4特征映射具体包括:
使用源域上的输入数据X
可选地,所述模型应用阶段具体包括:
特征生成,通过特征映射将目标域上源任务的输出特征转化为目标任务的模型特征,该特征用于目标域上目标任务的求解;
使用目标域上的标注样本X
知识推理,利用目标任务模型特征和目标任务模型的输出层对目标任务执行推理过程,得到知识抽取结果。
可选地,所述知识推理具体过程包括使用特征生成操作得到的目标域上目标任务的模型特征
第二方面,一种基于特征对齐的专利多领域知识抽取系统,所述系统包括模型训练模块以及模型应用模块;
在所述模型训练模块中包括领域及任务配置子模块、模型设计子模块、执行训练子模块、特征映射子模块,其具体包括:
任务配置子模块,用于获取进行专利多领域知识抽取的全部专利文本,以全部专利文本为基础,通过IPC分类对应的领域进行划分,根据专利数据选择源域和目标域,并设计源任务和辅助任务;保存并生成领域信息以及任务配置信息,作为后继模型训练输入;
模型设计子模块,用于基于生成的领域及任务配置信息,分别设计源任务和目标任务的模型架构、辅助任务模型输出层结构以及源任务到目标任务模型特征的特征映射神经网络结构;
执行训练子模块,用于分别针对选定的源任务和目标任务准备源域和目标域上的训练数据,对源域上的源任务和目标任务、目标域上的源任务执行模型训练,在训练过程中加入了特征对齐和辅助任务微调;
特征映射子模块,用于利用源域上的训练数据对源任务模型特征到目标任务模型特征的特征映射神经网络执行有监督的训练;
在所述模型应用模块中,具体包括通过特征映射生成目标域上目标任务的模型特征,进而通过目标任务模型实现知识推理,将输出的知识存储到知识库。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的基于特征对齐的专利多领域知识抽取方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的基于特征对齐的专利多领域知识抽取方法。
相比现有技术,本申请至少具有以下有益效果:
本申请通过源领域、目标领域上源任务、目标任务特征间的映射和对齐,实现了目标域上无需标注数据的专利知识抽取,有效解决了现有的无监督模型准确率低和有监督模型缺乏标注数据的难题,实现了精准高效的多领域专利知识自动抽取。该方法只需要源域上有限的标注数据,无需众多目标域上的标注数据,在保证现有模型准确率的情况下,有效减少了大量标注数据的经济成本和时间成本。
附图说明
图1为本申请实施例提供的整体流程图;
图2为本申请实施例提供的特征迁移框架;
图3为本申请实施例提供的整体模型训练框架;
图4为本申请实施例提供的特征映射模型训练框架;
图5为本申请实施例提供的模型应用框架;
图6为本申请一个实施例提供的基于特征对齐的专利多领域知识抽取系统的模块架构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请的描述中:术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本发明构思进一步的优化方案所增加的步骤或单元。
目前常见的知识抽取模型一般针对通用领域设计,应用于专利领域时,由于专业术语、应用领域、语用场景的不同,以专利为代表的专业文本中蕴含了大量的字面、语法和语义信息,如专业词汇、语义相似度、篇章结构关系等,同时专利领域的多样性问题引起的文本特征分布差异性大,导致通用知识抽取模型存在多领域适配性差的问题,目前尚缺少有效的针对专利多领域的自动知识抽取模型。
针对专利多领域的精准高效的自动知识问题,本发明提供了一种基于特征对齐的专利多领域知识抽取方法,以IPC分类划分的领域专利文本为基础构建多领域训练语料,设计基于深度学习的命名实体识别(NER)模型实现专利知识抽取任务,通过专利辅助任务(摘要生成),通过领域间特征对齐、任务间辅助训练的方式训练目标领域中目标任务的模式,实现专利多领域知识抽取。其中,源领域为的知识抽取任务通过有标注的监督模型实现,目标领域的知识抽取为无监督的模式实现。源领域中源任务和目标任务在有标签数据集上执行有监督的模型训练。目标领域中的源任务在有标签数据集上执行有监督的模型训练,目标领域中的目标任务在无标签的数据集上执行无监督的模型训练。
在一个实施例中,如图1所示,提供了一种基于特征对齐的专利多领域知识抽取方法,该方法可以应用于服务器中,方法包括模型训练阶段以及模型应用阶段;在所述模型训练阶段中包括S1领域及任务配置、S2模型设计、S3执行训练、S4特征映射四个步骤,其具体包括:
S1领域及任务配置,获取进行专利多领域知识抽取的全部专利文本,以全部专利文本为基础,通过IPC分类对应的领域进行划分,根据专利数据选择源域和目标域,并设计源任务和辅助任务;保存并生成领域信息以及任务配置信息,作为后继模型训练输入。
在本申请实施例中,领域及任务配置包括S11源域和目标域选取、S12源任务和目标任务设计以及S13辅助任务设计这三部分操作。源域和目标域选取阶段输出源域和目标域的领域配置信息,源任务设计阶段输出源任务的配置信息和目标任务的配置信息,辅助任务设计阶段输出辅助任务的配置信息。
S11源域和目标域选取,以全部专利文本为基础,将专利按照IPC分类体系中的技术领域进行划分,选择具有标注数据的领域作为源域,在目标任务下无标注数据的待抽取知识所属的领域作为目标域,用A、B分别表示选取的源域和目标域。源域和目标域下的专利文本将作为后续模型训练过程的输入数据,用X
S12源任务和目标任务设计,选择与目标任务(专利知识抽取)相近的任务作为源任务,这里源任务的选择需要确保在源域和目标域上执行源任务时无需人工标注数据。用T
S13辅助任务设计,选择与源任务和目标任务共同关联的任务作为辅助任务,这里辅助任务的设置是为了对源任务所生成的特征加以扩充,使提取出的特征更加丰富,有助于实现不同任务下的特征对齐。用T
本申请选取中医药领域和化学领域分别作为源域和目标域,选取IPC分类任务作为源任务,由于每个专利都有对应的分类号,源任务在源域和目标域上可视为有标注数据。考虑到摘要生成任务无需人工标注数据,且该任务与IPC分类任务和知识抽取任务均存在一定的关联性,本申请将摘要生成作为辅助任务参与模型训练。
S2模型设计,基于生成的领域及任务配置信息,分别设计源任务和目标任务的模型架构、辅助任务模型输出层结构以及源任务到目标任务模型特征的特征映射神经网络结构。
在本申请实施例中,模型设计包括S21源任务模型架构设计、S22目标任务模型架构设计、S13辅助任务模型输出层设计和S24特征映射神经网络结构设计这四部分操作,这里的模型架构包含编码层和输出层。源任务模型架构设计阶段的输入为源任务的配置信息,输出源任务模型架构。目标任务模型架构设计阶段的输入为目标任务的配置信息,输出目标任务模型架构。辅助任务模型输出层设计阶段的输入为辅助任务的配置信息,输出辅助任务模型输出层结构。特征映射神经网络结构设计阶段的输入为源任务和目标任务的模型架构,输出特征映射神经网络的结构。
S21源任务模型架构设计,根据源任务的配置信息设计源任务的模型架构。对于源任务IPC分类,选用BERT+Softmax模型架构,BERT模型作为编码层用于实现文本编码,Softmax分类器作为输出层,根据BERT模型输出的CLS编码向量实现专利分类。利用E
S22目标任务模型架构设计,根据目标任务的配置信息设计目标任务的模型架构。对于目标任务知识抽取,选用BERT+CRF模型架构,BERT模型作为编码层,以序列标注的方式输出编码结果,CRF模型作为输出层,通过概率无向图结构对BERT输出的编码向量进行综合计算,输出知识标记结果。利用E
S23辅助任务模型输出层设计,根据辅助任务的配置信息设计辅助任务的模型输出层结构。对于辅助任务摘要生成,选用Transformer的Decoder部分作为辅助任务模型的输出层,根据源任务和目标任务中BERT编码层的输出特征生成专利摘要。利用D
S24特征映射神经网络结构设计,特征映射是指将源域上源任务的输出特征通过某种关系函数映射到目标任务对应的特征,该映射关系通常通过神经网络结构实现,因此需要根据源任务和目标任务模型编码层的输出特征形式设计特征映射神经网络的具体结构。考虑到原始专利文本具有语序特征,BERT模型的输出特征存在顺序关系,本发明选择长短期记忆网络(LSTM)实现源任务编码层输出特征到目标任务编码层输出特征的映射。为了更加完整地捕获源任务特征向量间的位置关系,本发明使用双向LSTM神经网络,将源任务中编码层输出的特征序列映射到目标任务中对应的特征序列,以实现不同任务之间的特征转换。用G
S3执行训练,分别针对选定的源任务和目标任务准备源域和目标域上的训练数据,对源域上的源任务和目标任务、目标域上的源任务执行模型训练,在训练过程中加入了特征对齐和辅助任务微调。
在本申请实施例中,执行训练是指基于标注数据对上述源任务模型和目标任务模型执行有监督的模型训练,具体包括S31源任务执行、S32目标任务执行、S33特征对齐、S34辅助任务微调以及S35损失函数优化这五部分操作。源任务执行阶段的输入为源任务在源域上的标注数据
S31源任务执行,首先根据源任务及其模型结构确定源任务模型训练的损失函数L
S32目标任务执行,首先根据目标任务及其模型结构确定目标任务模型训练的损失函数L
S33特征对齐,为了使源任务模型在源域和目标域上计算出的特征尽可能相似,使用范数差异比对(Norm Discrepancy Alignment,NDA)损失函数L
。
S34辅助任务微调,为了实现不同任务之间的特征对齐,在模型训练中引入辅助任务T
S35损失函数优化,将上述四部分损失函数的计算结果相加,得到模型训练过程的整体损失函数Loss=Loss
S4特征映射,利用源域上的训练数据对源任务模型特征到目标任务模型特征的特征映射神经网络执行有监督的训练。
在本申请实施例中,特征映射是源任务到目标任务特征映射神经网络G
在模型应用阶段中,具体包括通过特征映射生成目标域上目标任务的模型特征,进而通过目标任务模型实现知识推理,将输出的知识存储到知识库。
具体地,模型应用是对目标域中的原始专利文本实现知识抽取,并将结果保存到知识库,其中知识抽取包含特征生成和知识推理两个操作。特征生成阶段的输入为目标域上的标注样本、执行训练步骤得到的源任务编码层以及训练好的特征映射神经网络,输出生成的目标域上目标任务的模型特征。知识推理阶段的输入为生成的目标域上目标任务的模型特征和执行训练步骤得到的目标任务输出层,输出知识抽取结果。
特征生成,在目标域上生成目标任务模型的特征,具体通过特征映射将目标域上源任务的输出特征转化为目标任务的模型特征,该特征用于目标域上目标任务的求解。使用目标域上的标注样本X
知识推理,利用目标任务模型特征和目标任务模型的输出层对目标任务执行推理过程,得到知识抽取结果。具体知识推理过程为使用上述特征生成操作得到的目标域上目标任务的模型特征
针对于上述关于源域和目标域,源任务、目标任务和辅助任务对于专利多领域知识抽取的具体过程,以下给出另一个实施例:
在本实施例中,源域是中医药领域,目标域是化学领域,需要收集中医药领域和化学领域的专利文本,对应到本申请中,X
在本实施例中,源任务是专利IPC分类,辅助任务是专利摘要生成,目标任务在专利中已经设定为知识抽取任务,不同的任务自然对应着不同的任务结果,比如IPC分类任务的输出结果应该是专利分类号,知识抽取任务的输出结果应该是包含关键信息的专利文本片段(简称知识片段),摘要生成任务的输出结果应该是专利的摘要。
其中已知数据是源域上源任务的真实结果、目标域上源任务的真实结果、源域上目标任务的真实结果、源域上辅助任务的真实结果、目标域上辅助任务的真实结果,本实施例目标是预测目标域上目标任务的结果。具体地:
现在已知的数据是中医药领域的专利文本X
执行训练步骤的目标是训练E
在模型训练部分的特征映射过程具体如图4所示,特征映射中的“映射”也可以视为一个模型,这个模型和之前执行训练步骤所训练的模型是不同的,它也有它的输入和输出,它也需要训练数据来进行模型训练,而特征映射这一步,所要做的就是训练这个“映射”。在本申请中将这个“映射”记为G
本申请“映射”的训练需要数据,而数据需要通过之前训练的模型计算得到。
“映射”的输入和输出都是前面提到的“输出特征”,所以这一步称为特征映射。具体来说,它所输入的“输出特征”就是
特征映射的目的是因为需要通过D
如图5,给出了模型应用框架,其过程具体包括了:
首先,把化学领域的专利文本X
然后,把
最后,把
综上可以看出,本发明提供了一种基于特征对齐的专利多领域知识抽取方法,以专利IPC分类为基础划分领域,有针对性的选择源领域、目标领域及其对应的源任务、目标任务,设计基于深度学习的特征表示任务模型结合特征对齐、特征映射机制,结合辅助微调下游任务强化各任务间的特征表示,将源域上的标注数据特征迁移到目标域上的目标任务特征,以无监督的方式实现了目标域上无需标注数据的专利知识的精准高效抽取。
在一个实施例中,如图6所示,提供了一种基于特征对齐的专利多领域知识抽取系统,系统包括模型训练模块以及模型应用模块;
在所述模型训练模块中包括领域及任务配置子模块、模型设计子模块、执行训练子模块、特征映射子模块,其具体包括:
任务配置子模块,用于获取进行专利多领域知识抽取的全部专利文本,以全部专利文本为基础,通过IPC分类对应的领域进行划分,根据专利数据选择源域和目标域,并设计源任务和辅助任务;保存并生成领域信息以及任务配置信息,作为后继模型训练输入;
模型设计子模块,用于基于生成的领域及任务配置信息,分别设计源任务和目标任务的模型架构、辅助任务模型输出层结构以及源任务到目标任务模型特征的特征映射神经网络结构;
执行训练子模块,用于分别针对选定的源任务和目标任务准备源域和目标域上的训练数据,对源域上的源任务和目标任务、目标域上的源任务执行模型训练,在训练过程中加入了特征对齐和辅助任务微调;
特征映射子模块,用于利用源域上的训练数据对源任务模型特征到目标任务模型特征的特征映射神经网络执行有监督的训练;
在所述模型应用模块中,具体包括通过特征映射生成目标域上目标任务的模型特征,进而通过目标任务模型实现知识推理,将输出的知识存储到知识库。
其中各模块具体实现内容可以参见上文中对于基于特征对齐的专利多领域知识抽取系统方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,该计算机设备通过加载运行计算机程序以实现上述一种专利多领域知识抽取方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,涉及上述实施例方法中的全部或部分流程。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
- 一种老年健康领域知识问答系统构建方法
- 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
- 基于特征领域知识自动获取的数值特征发现方法及系统
- 基于特征领域知识自动获取的数值特征发现方法及系统