掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多层级图网络的事件联合抽取方法及装置

文献发布时间:2023-06-19 10:32:14


一种基于多层级图网络的事件联合抽取方法及装置

技术领域

本发明涉及深度学习和自然语言处理技术领域,尤其涉及一种基于多层级图网络的事件联合抽取方法及装置、电子设备、存储介质。

背景技术

信息抽取是自然语言处理的基础任务,事件抽取作为其中的一个分支,具有极大的应用潜能。事件抽取分为事件触发词识别和事件要素识别两个子任务,触发词识别是检测出句子中最能代表事件发生的词,事件要素识别是提取出句子中事件发生的时间、地点、参与者等要素。事件抽取是信息抽取的重要组成部分,从非结构化的文本中抽取出用户感兴趣的事件,然后用结构化或半结构化的形式描述出来,供用户浏览、查询或者进一步分析利用。事件抽取具有更实用的价值和落地的可能。

现有的事件抽取方法,包括基于管道方法以及基于端到端的深度学习的方法,其中以基于端到端的深度学习方法最为普遍。在基于深度学习的事件抽取中,Bi-LSTM+CRF的方法较为直观,并且已经取得了一定的精度,该方法使用双向循环神经网络进行上下文特征提取,CRF模型约束序列标签的预测。然而,该类方法仍然存在着一些不足:在特征嵌入层,使用预训练的词向量,不能很好的区分一词多义问题。没有考虑到句子内部词和词之间的依存关系。没有充分地利用文档级别的信息。

发明内容

(一)要解决的技术问题

针对于现有的技术问题,本发明提供一种基于多层级图网络的事件联合抽取方法及装置、电子设备、存储介质,用于至少部分解决以上技术问题。

(二)技术方案

本发明一方面提供一种基于多层级图网络的事件联合抽取方法,包括:基于预训练语言模型,对输入的至少一个句子进行编码;基于编码后句子的依存句法树构建句子级的图网络,其中,句子级的图网络中的每一节点表示一个词,节点为第一节点;针对于每一个词,基于句子级的图网络,将当前词对应的节点周围的邻居节点代表的词的特征信息融入当前词的特征信息中,得到当前词新的特征信息;以句子为第二节点,根据不同句子之间的共现特征运算获取上下文句子的全局信息;将上下文句子的全局信息与当前词新的特征信息进行融合;基于融合了上下文句子的全局信息与当前词新的特征信息的词,识别事件触发词,根据触发词识别事件要素,对事件触发词和事件要素进行联合抽取。

可选地,对输入的至少一个句子进行编码,包括:构建BERT预训练语言模型;将至少一个句子输入BERT预训练语言模型进行双向编码。

可选地,采用基于自然语言处理工具Stanfordnlp构建的依存句法树;采用邻接矩阵来计算第一节点的特征信息。

可选地,识别事件触发词,包括:使用至少两个全连接层及条件随机场作为分类器,对句子进行序列标注。

可选地,句子包括实体,根据触发词识别事件要素,包括:将实体的特征与触发词的特征进行首尾拼接,通过全连接层进行角色分类,进而识别事件要素。

可选地,共现特征包括句子中的实体和/或动词的共现特征。

可选地,将上下文句子的全局信息与当前词新的特征信息进行融合,包括:基于注意力机制将上下文句子的全局信息与当前词新的特征信息进行融合。

本发明另一方面提供一种基于多层级图网络的事件联合抽取装置,包括:编码模块,用于基于预训练语言模型,对输入的至少一个句子进行编码;图网络构建模块,用于构建句子级的图网络和文档级的图网络,其中:构建句子级的图网络,包括:以句子中的词为第一节点,基于句子的依存句法树构建句子级的图网络,将当前词对应的节点周围的邻居节点代表的词的特征信息融入当前词的特征信息中,得到当前词新的特征信息;构建文档级的图网络,包括:以句子为第二节点,根据不同句子之间的共现特征运算获取上下文句子的全局信息;融合模块,用于将上下文句子的全局信息与当前词新的特征信息进行融合;识别与抽取模块,用于基于融合了上下文句子的全局信息与当前词新的特征信息的词,识别事件触发词,根据触发词识别事件要素,对事件触发词和事件要素进行联合抽取。

本发明另一方面还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述基于多层级图网络的事件联合抽取方法。

本发明另一方面还提供一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现上述基于多层级图网络的事件联合抽取方法。

(三)有益效果

本发明提供一种基于多层级图网络的事件联合抽取方法及装置、电子设备、存储介质,基于自然语言处理工具得到的表示句子语法结构的依存句法树,利用图卷积神经网络进行树节点的更新,可以将当前词对应的节点周围的邻居节点代表的词的特征信息融入当前词的特征信息中,丰富词的上下文语义表示。

对于事件抽取任务来说,通过获取上下文句子的全局信息,将上下文句子的全局信息与当前词新的特征信息进行融合,可以丰富词的全局信息,再通过全连接层和条件随机场对句子进行序列标注,识别事件触发词及事件要素,实现了对触发词和事件要素的精准联合抽取。

使用预训练语言模型BERT用于词的特征表征,可以很好地丰富词的语义信息。

附图说明

图1示意性示出了本发明实施例的基于多层级图网络的事件联合抽取方法流程图;

图2示意性示出了本发明实施例的句子J1的依存句法树结构图;

图3示意性示出了本发明实施例的句子J1的邻接矩阵图;

图4示意性示出了本发明实施例的句子J1的句子级的图网络结构图;

图5示意性的示出了本发明实施例的文档级的图网络结构图;

图6示意性示出了本发明实施例的文档级信息的融合过程图;

图7示意性示出了本发明实施例的基于多层级图网络的事件联合抽取装置结构图;

图8示意性示出了本发明实施例的电子设备的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。说明书中示例的各个实施例中的技术特征在无冲突的前提下可以进行自由组合形成新的方案,另外每个权利要求可以单独作为一个实施例或者各个权利要求中的技术特征可以进行组合作为新的实施例,且在附图中,实施例的形状或是厚度可扩大,并以简化或是方便标示。再者,附图中未绘示或描述的元件或实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。

除非存在技术障碍或矛盾,本发明的上述各种实施方式可以自由组合以形成另外的实施例,这些另外的实施例均在本发明的保护范围中。

虽然结合附图对本发明进行了说明,但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明,而不能理解为对本发明的一种限制。附图中的尺寸比例仅仅是示意性的,并不能理解为对本发明的限制。

虽然本发明总体构思的一些实施例已被显示和说明,本领域普通技术人员将理解,在不背离本总体发明构思的原则和精神的情况下,可对这些实施例做出改变,本发明的范围以权利要求和它们的等同物限定。

图1示意性示出了本发明实施例的基于多层级图网络的事件联合抽取方法流程图,如图1所示,方法包括:

S101,基于预训练语言模型,对输入的至少一个句子进行编码。

根据本发明的实施例,构建BERT预训练语言模型,使用BERT(Transformers双向编码表示)作为词嵌入表示,将至少一个句子输入BERT预训练语言模型进行双向编码。作为一个词向量(Word2Vec)的替代者,其在自然语言处理(NLP)领域的11个方向大幅刷新了精度。BERT使用了Transformer作为算法的主要框架,Transformer能更彻底的捕捉语句中的词的上下文双向关系,Transformer采用的自注意力机制在对一个词进行编码时,会考虑这个词上下文中的所有词和这些词对最终编码的贡献,再根据得到的信息对当前词进行编码;同时BERT使用了遮盖语言模型(MLM)和预测下个句子(Next Sentence Prediction)的多任务训练目标。BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,在以后特定的自然语言处理(NLP)任务中,可以利用BERT强大的表示能力作为该任务的词嵌入特征。

根据本发明的实施例,例如可以对下述五个句子进行事件提取:

J1:超商(A1)凌晨(A2)遭到了歹徒(A3)持刀抢劫(E1)。

J2:拿着刀他靠近店员,当然他的目标就是收银机。

J3:这名歹徒(A3)在店(A4)里头搜刮了长达半个小时才离去(E2)。

J4:仔细看看收银机旁,他离开时把水果刀给留下。

J5:这么笨的歹徒(A3)也难怪不到10分钟(A5)就被警察(A6)在附近的草丛里给逮捕(E3)。

上述五个句子来源于同一篇文档。本实施例中,存在的事件如下表1:

表1

S102,基于编码后句子的依存句法树构建句子级的图网络,其中,句子级的图网络中的每一节点表示一个词,节点为第一节点。针对于每一个词,基于句子级的图网络,将当前词对应的节点周围的邻居节点代表的词的特征信息融入当前词的特征信息中,得到当前词新的特征信息。

根据本发明的实施例,基于词和词之间的依赖关系,构建邻接矩阵,同时根据邻接矩阵构建句子级的图网络。每个结点代表一个单词,结点与结点之间的连线代表词与词之间的依赖关系。对每个结点,获取其周围邻居结点的特征信息。计算公式如下:

g

h

其中:σ是sigmoid函数,V

图2示意性示出了本发明实施例的句子J1的依存句法树的结构图。

根据本发明的实施例,以句子J1为例,如图2所示,采用基于自然语言处理工具Stanfordnlp构建句子J1的依存句法树,获得一个句子中的词和词之间的依赖关系。

图3示意性示出了本发明实施例的句子J1的邻接矩阵图,即词和词之间存在依赖关系的位置标1,否则标0。

根据本发明的实施例,如图3所示,可以通过句子J1的邻接矩阵计算得到句子J1中的各个词(包含标点符号)的特征信息。

图4示意性示出了本发明实施例的句子J1的句子级的图网络结构图,每个结点代表一个单词,结点之间的连线代表词之间存在依赖关系。

根据本发明的实施例,如图4所示,以“遭到”结点为例,代入上述公式(1)和公式(2),通过加权求和邻居结点(“超商”,“持”,“了”,“凌晨”,“。”)的特征信息,获得更新后的“遭到”结点的特征。

S103,以句子为第二节点,根据不同句子之间的共现特征运算获取上下文句子的全局信息。

根据本发明的实施例,对于事件抽取任务来说,文档级别的全局信息对于触发词以及事件要素的分类具有重要的意义。为了获得文档级别的信息,我们设计构建了文档级的图网络来整合文档信息。具体地,如果两个句子中存在相同的动词,或者相同的实体(例如人名,地名,组织机构名等),我们认为这两个句子具有较强的相关性。据此,我们构建文档级的图网络,文档级的图网络的结点代表句子,结点与结点之间的连线,代表两个句子之间存在相关性。与句子级的图网络类似,通过多次图卷积运算,获得上下文句子全局信息。

图5示意性的示出了本发明实施例的文档级的图网络结构图。每个结点代表一个句子,句子之间的连线代表句子之间存在依赖关系,句子之间依赖关系的判定以句子之间存在相同的实体或者动词为条件。

根据本发明的实施例,以句子J1为例,句子J1和句子J2存在相同的实体“刀”,与句子J3和J5存在相同的实体“歹徒”,因此,第二结点J1与J2,J3,J5之间有连线,句子J1与J4之间没有相同的实体或者动词,所以第二结点J1与J4没有连线。与句子级的图网络类似,基于上述公式,通过多次图卷积运算,获得上下文句子全局信息。

S104,将上下文句子的全局信息与当前词新的特征信息进行融合。

根据本发明的实施例,用注意力机制将上下文句子全局信息和当前句子信息,即当前词新的特征信息,进行融合,丰富词的全局语义信息。将S103获得的上下文句子的全局信息,通过注意力机制,为每个上下文句子特征分配不同的权重,并进行加权求和,融合成文档级信息,随后拼接在当前要分类的句子中每个单词的后面,丰富词的文档语义表示。计算公式如下:

z

h

图6示意性示出了本发明实施例的文档级信息的融合过程图。

S105,基于融合了上下文句子的全局信息与当前词新的特征信息的词,识别事件触发词,根据触发词识别事件要素,对事件触发词和事件要素进行联合抽取。

根据本发明的实施例,识别事件触发词,例如包括:使用至少两个全连接层及条件随机场作为分类器,对所述句子进行序列标注。句子中包括实体,根据触发词识别事件要素,例如包括:将实体的特征与触发词的特征进行首尾拼接,通过全连接层进行角色分类,进而识别事件要素。

根据本发明的实施例,通过注意力机制,为每个上下文句子特征分配不同的权重,将文档级特征h

根据本发明的实施例,事件触发词识别阶段,全连接层的输出是每一个事件类型标签的预测分值,例如句子J1中的“抢劫”,对于所有的事件类型标签都有一个预测的概率分分值,将这些分值作为条件随机场的输入。条件随机场的作用在于为最后预测的标签添加一些约束来保证预测的标签是合法的。这些约束可以是:

1:句子中第一个词总是以标签“B-”或“O”开始,而不是“I”(序列标注任务中,B代表开始,I代表中间,O代表其他)。

2:标签“B-label1 I-label2 I-label3 I-…”,label1,label2,label3应该属于同一类。例如,“B-攻击I-攻击”是合法的序列,但是“B-攻击I-逮捕”是非法标签序列。

3:标签序列“O I-label”是非法的。首个标签应该是“B-”,而非“I-”,换句话说,有效的标签序列应该是“O B-label”。

有了这些约束,标签序列预测中非法序列出现的概率将会大大降低。

根据本发明的实施例,事件要素识别阶段,将识别出的事件触发词特征表示和实体特征标签进行拼接,送入全连接层,进行事件要素角色的分类。例如,句子J1中,为了分类“歹徒”所扮演的角色,将事件触发词“抢劫”和实体“歹徒”的特征拼接在一起,通过全连接层,判断“歹徒”属于“攻击者”角色。

综上所述,本发明实施例提出一种基于多层级图网络的事件联合抽取方法。通过对输入的至少一个句子进行编码,基于编码后句子的依存句法树构建句子级的图网络,融入邻居节点代表的词的特征信息到当前词的特征信息中得到当前词新的特征信息,再根据不同句子之间的共现特征运算获取上下文句子的全局信息,将上下文句子的全局信息与当前词新的特征信息进行融合,基于融合了上下文句子的全局信息与当前词新的特征信息的词,识别事件触发词,根据触发词识别事件要素,对事件触发词和事件要素进行联合抽取。通过这种方法,能够实现对触发词和事件要素的精准联合抽取。

图7示意性示出了本发明实施例的基于多层级图网络的事件联合抽取装置结构图。如图7所示,该事件联合抽取装置700,包括:

编码模块710,用于基于预训练语言模型,对输入的至少一个句子进行编码。

图网络构建模块720,用于构建句子级的图网络和文档级的图网络,其中:构建句子级的图网络,包括:以句子中的词为第一节点,基于句子的依存句法树构建句子级的图网络,将当前词对应的节点周围的邻居节点代表的词的特征信息融入当前词的特征信息中,得到当前词新的特征信息;

构建文档级的图网络,包括:以句子为第二节点,根据不同句子之间的共现特征运算获取上下文句子的全局信息。

融合模块730,用于将上下文句子的全局信息与当前词新的特征信息进行融合。

识别与抽取模块740,用于基于融合了上下文句子的全局信息与当前词新的特征信息的词,识别事件触发词,根据触发词识别事件要素,对事件触发词和事件要素进行联合抽取。

需要说明的是,装置部分的实施例方式与方法部分的实施例方式对应类似,并且所达到的技术效果也对应类似,在此不再赘述。

根据本发明的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,编码模块710、图网络构建模块720、融合模块730及识别与抽取模块740中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块编码模块710、图网络构建模块720、融合模块730及识别与抽取模块740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,编码模块710、图网络构建模块720、融合模块730及识别与抽取模块740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

图8示意性示出了本发明实施例的电子设备的框图。图8示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示,电子设备800包括处理器810、计算机可读存储介质820。该电子设备800可以执行根据本发明实施例的方法。

具体地,处理器810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器810还可以包括用于缓存用途的板载存储器。处理器810可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质820,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。

计算机可读存储介质820可以包括计算机程序821,该计算机程序821可以包括代码/计算机可执行指令,其在由处理器810执行时使得处理器810执行根据本发明实施例的方法或其任何变形。

计算机程序821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序821中的代码可以包括一个或多个程序模块,例如包括821A、模块821B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器810执行时,使得处理器810可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例,编码模块710、图网络构建模块720、融合模块730及识别与抽取模块740中的至少一个可以实现为参考图8描述的计算机程序模块,其在被处理器810执行时,可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于多层级图网络的事件联合抽取方法及装置
  • 一种基于多层级图网络的事件联合抽取方法及装置
技术分类

06120112587290