掌桥专利:专业的专利平台
掌桥专利
首页

一种事件抽取方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:08:20


一种事件抽取方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种事件抽取方法、装置、设备及存储介质。

背景技术

事件抽取是信息抽取和情报分析中的重要组成部分。事件表示一个动作的发生或状态的变化,在一个事件中,由表示动作的动词或名词作为动作或状态的触发词,还包括参与该动作行为的主要论元角色(又称论元,如时间、地点、人物等)。

因此,从文本中抽取出事件触发词和事件论元,是实现事件抽取的关键。常规的事件抽取方法通常是分步骤地、先后从文本中分别抽取事件触发词和事件论元,从而得到事件抽取。上述常规的事件抽取方法的处理流程繁琐,事件抽取效率不高。

发明内容

基于上述需求,本申请提出一种事件抽取方法、装置、设备及存储介质,能够从文本中抽取出事件触发词和事件论元,从而实现事件抽取。

本申请提出的技术方案具体如下:

一种事件抽取方法,包括:

将待抽取文本输入预先训练的事件抽取模型,得到所述待抽取文本中的各个文本单元的类别标签,作为事件抽取结果;

所述事件抽取模型,以文本序列作为训练样本,以所述文本序列的事件触发词位置标签,以及所述文本序列的每一文本单元的类别标签作为第一类型样本标签,训练得到,其中,文本单元的类别标签包括文本单元所属的事件触发词类型和事件论元类型的标签。

可选的,文本单元的类别标签为类别标签序列,所述类别标签序列包含所有的事件触发词类型和事件论元类型各自对应的序列元素,在文本单元的类别标签序列中,文本单元所属的事件触发词类型和事件论元类型对应的序列元素的值,为设定的有效值。

可选的,在训练所述事件抽取模型时,还以所述文本序列中的事件触发词和论元的序列标注结果作为第二类型样本标签。

可选的,对所述事件抽取模型的训练过程,包括:

将训练样本输入所述事件抽取模型,得到所述事件抽取模型输出的事件抽取结果;所述事件抽取模型输出的事件抽取结果包括第一类型结果和第二类型结果,所述第一类型结果中包括对所述训练样本的触发词位置的标注结果,以及对所述训练样本的每一文本单元的类别标签标注结果,所述第二类型结果中包括对所述训练样本的事件触发词和事件论元的序列标注结果;

根据所述事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签和所述第二类型样本标签,计算确定所述事件抽取模型的事件抽取损失值;

根据所述事件抽取模型的事件抽取损失值,对所述事件抽取模型的运算参数进行调整;

重复以上处理,直至所述事件抽取模型的事件抽取损失值小于设定值。

可选的,所述根据所述事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签和所述第二类型样本标签,计算确定所述事件抽取模型的损失值,包括:

根据所述事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签,计算得到所述事件抽取模型的第一事件抽取损失值;

根据所述事件抽取模型输出的事件抽取结果,以及所述第二类型样本标签,计算得到所述事件抽取模型的第二事件抽取损失值;

根据所述第一事件抽取损失值和所述第二事件抽取损失值,计算确定所述事件抽取模型的事件抽取损失值。

可选的,所述事件触发词位置标签为编码序列,所述编码序列的元素与所述文本序列的各个文本单元一一对应,其中,所述文本序列的事件触发词对应的编码序列元素的值为设定值,其余编码序列元素的值为非设定值。

可选的,所述事件抽取模型对待抽取文本进行处理得到所述待抽取文本中的各个文本单元的类别标签,包括:

对所述待抽取文本进行触发词识别处理,确定所述待抽取文本中的触发词位置;

根据所述待抽取文本中的触发词位置,确定所述待抽取文本中的各个文本单元的类别标签,所述文本单元的类别标签,包括文本单元所属的事件触发词类型和事件论元类型的标签。

可选的,所述对所述待抽取文本进行触发词识别处理,确定所述待抽取文本中的触发词位置,包括:

根据所述待抽取文本,生成初始编码序列,其中,所述初始编码序列的序列元素与所述待抽取文本的各个文本单元一一对应,所述初始编码序列的各个序列元素的值均为设定的初始值;

将所述待抽取文本以及所述初始编码序列输入触发词抽取模块,以使所述触发词抽取模块对所述待抽取文本中的触发词进行识别,并输出触发词标记编码序列;

其中,所述触发词标记编码序列由所述触发词抽取模块将所述初始编码序列中的、与所述待抽取文本中的事件触发词对应的元素的值设置为设定值而得到。

可选的,所述根据所述待抽取文本中的触发词位置,确定所述待抽取文本中的各个文本单元的类别标签,包括:

将所述待抽取文本以及所述触发词标记编码序列,输入论元抽取模块,确定所述待抽取文本中的各个文本单元的类别标签。

一种事件抽取装置,包括:

事件抽取处理单元,用于将待抽取文本输入预先训练的事件抽取模型,得到所述待抽取文本中的各个文本单元的类别标签,作为事件抽取结果;

所述事件抽取模型,以文本序列作为训练样本,以所述文本序列的事件触发词位置标签,以及所述文本序列的每一文本单元的类别标签作为第一类型样本标签,训练得到,其中,文本单元的类别标签包括文本单元所属的事件触发词类型和事件论元类型的标签。

一种事件抽取设备,包括:

存储器和处理器;

其中,所述存储器用于存储程序;

所述处理器,用于通过运行所述存储器中的程序,实现上述的事件抽取方法。

一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的事件抽取方法。

本申请实施例提出的事件抽取方法,借助预先训练的事件抽取模型对待抽取文本进行事件抽取,能够分别标注得到待抽取文本中的各个文本单元的类别标签,即标注得到待抽取文本中的各个文本单元所属的事件触发词类型和事件论元类型的标签,从而从待抽取文本中确定出事件触发词和事件论元,得到事件抽取结果。

进一步的,基于上述事件抽取模型的上述特定训练方式,该事件抽取模型不仅能够实现端到端的事件触发词和事件论元抽取,减小模型规模和模型消耗,提高事件抽取效率,还能够将事件触发词抽取用于辅助事件论元抽取,从而保证事件抽取时的触发词与论元之间的对应关系,提高事件抽取准确度。而且,该事件抽取模型还能够全面地识别文本在事件中的多重角色,从而保证事件抽取的完整性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本申请实施例提出的一种事件抽取方法的流程示意图;

图2是本申请实施例提供的类别标签序列的示意图;

图3是本申请实施例提供的文本序列标注结果的示意图;

图4是本申请实施例提供的事件抽取模型的训练过程示意图;

图5是本申请实施例提供的事件抽取模型的结构示意图;

图6是本申请实施例提供的一种事件抽取装置的结构示意图;

图7是本申请实施例提供的一种事件抽取设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于从文本中抽取事件的应用场景,采用本申请实施例技术方案,能够从文本中确定出事件触发词和事件论元,从而实现事件抽取。并且,本申请实施例能够通过一次信息抽取,从文本中同时确定出事件触发词和事件论元,具有更高的事件抽取效率。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提出一种事件抽取方法,参见图1所示,该方法包括:

S101、获取待抽取文本。

上述的待抽取文本,只是需要从中抽取事件的文本,其具体可以是任意语种、任意领域、任意长度的文本。

S102、将待抽取文本输入预先训练的事件抽取模型,得到所述待抽取文本中的各个文本单元的类别标签,作为事件抽取结果。

上述的事件抽取模型,以文本序列作为训练样本,以该文本序列的事件触发词位置标签,以及该文本序列的每一文本单元的类别标签作为第一类型样本标签,训练得到。

其中,文本单元的类别标签包括文本单元所属的事件触发词类型和事件论元类型的标签。

具体的,本申请实施例将文本中的各个文本单元的类别标签,作为事件抽取结果。上述的文本单元的类别标签,包括文本单元所属的事件触发词类型的标签,以及文本单元所属的事件论元类型的标签。

上述的文本单元,可以是文本中的字符、词、词组、片段等能够作为一个独立内容单元的文本内容。例如,文本中的动词、名词、人名、时间、地点等内容,均可以作为一个文本单元。这些文本单元,或许作为事件的触发词,或许作为事件的论元,从而,由作为事件触发词的文本单元和作为事件论元的文本单元,可以构成事件。

可以理解,当分别确定文本中的各个文本单元的类别标签时,也就确定了文本中的各个文本单元是属于事件触发词还是属于事件论元,以及可以分别确定每个文本单元的所属的触发词类型和论元类型。当确定了上述信息时,也就分别确定了文本中的事件触发词和事件论元,即得到了事件抽取结果。

相应的,在上述的事件抽取模型训练过程中,以文本序列为训练样本,以文本序列的每一文本单元的类别标签为训练样本标签,进行训练。

文本单元的类别标签,包括文本单元所属的事件触发词类型标签和文本单元所属的事件论元类型的标签。

其中,上述的文本单元所属的事件触发词类型,是指文本单元作为事件触发词时,其所属的触发词类型,例如可以是动词、名词等。上述的文本单元所属的事件论元类型,是指文本单元作为事件论元时,其所属的论元类型,例如可以是时间、地点、人物等。

在某些情况下,一段文本中的某一文本单元,可能既作为事件触发词,又作为事件论元,或者既作为A类型的事件论元,又作为B类型的事件论元。

例如,在文本“11月24日,美国发生自杀性爆炸,导致三个自杀人员和2个平民死亡”中,“自杀人员”既是攻击者论元角色,又是受害者论元角色。此时,“自杀人员”对应的事件论元类型标签中,应当同时包含攻击者论元标签和受害者论元标签。

为了能够全面而准确地表示文本单元所属的事件角色,本申请实施例在为文本序列的各个文本单元标注类别标签时,同时标注文本单元所属的事件触发词类型标签,以及该文本单元所属的事件论元类型标签。也就是,对应同一个文本单元,其类别标签包含两部分内容,一部分是表示该文本单元所属的事件触发词类型的标签内容,另一部分是表示该文本单元所属的事件论元类型的标签内容。并且,表示该文本单元所属的事件触发词类型的标签,与表示该文本单元所属的事件论元类型的标签的数量,可以依据该文本单元所充当的事件角色的具体数量而确定。

因此,在本申请实施例中,对应同一文本单元的类别标签,可以包括多个事件触发词类型标签和多个事件论元类型标签,由此可以在一个文本单元同时充当多种事件角色(触发词和/或论元)时,能够利用该文本单元的类别标签,准确而全面地表示该文本单元所充当的事件角色。

示例性的,如果文本序列中的某一文本单元只作为该文本序列中的事件触发词,那么,可以为该文本单元标注事件触发词类型标签,此时,该文本单元的类别标签数量,可以依据其作为事件触发词的具体类型而定,具体可以是一个或多个,而该文本单元的事件论元类型标签可以标注为空;如果某一文本单元只作为该文本序列中的事件论元,那么,可以为该文本单元标注事件论元类型标签,此时,该文本单元的类别标签数量,可以依据其作为事件论元的具体类型而定,具体可以是一个或多个,而该文本单元的事件触发词类型标签可以标注为空;如果某一文本单元既作为该文本序列中的事件触发词,又作为该文本序列中的事件论元,那么,既要为该文本单元标注事件触发词类型标签,又要为该文本单元标注事件论元类型标签,此时,该文本单元的事件触发词类型标签数量,以及事件论元类型标签数量,均可以依据该文本单元作为事件触发词的具体类型以及作为事件论元的具体类型而定,具体可以是一个或多个。

通常情况下,事件触发词和事件论元之间具有对应关系,比如,某些表示动作的触发词,只能由人来执行,那么可以确定,该触发词应该是与人物论元角色相对应的,而并不能与动物论元角色或物品论元角色相对应;或者,某些动作触发词只能是以物品作为执行对象的,那么该触发词应该是与物品论元角色对应的,即以物品论元角色作为执行对象,而不能将人物论元角色作为执行对象。

而且,事件通常是由触发词来驱动的,因此,事件触发词抽取,应当作为事件抽取的首要任务,当确定了事件触发词时,可以以此为依据,进一步抽取与该触发词对应的论元角色,从而得到事件抽取结果。将事件触发词作为事件论元抽取的参考,有利于更准确地确定事件论元,保证抽取得到的事件触发词与事件论元之间的正确对应关系,提高事件抽取的准确性和效率。

但是,基于本申请实施例对文本序列中的文本单元类别标签的标注方式,在一个文本序列中,可能有多个文本单元均作为事件触发词,或者,有一个或多个文本单元作为多种不同类型的事件触发词。而最终作为该文本序列中的事件触发词的,可能只是其中的某一个文本单元。

因此,为了能够从文本序列的各个文本单元中明确最终作为事件触发词的文本单元,从而能够将事件触发词用于事件论元识别,本申请实施例还对文本序列中的事件触发词的位置进行标注,将其作为事件触发词位置标签,作为训练样本标签的一部分。

在模型训练过程中,事件抽取模型在对文本序列样本进行事件抽取时,先从文本序列中抽取事件触发词,也就是从文本序列中识别事件触发词并进行标签标注,然后,判断样本标签中所表示的事件触发词位置处的文本单元,是否被标记为事件触发词,若否,则可以确定触发词抽取失败,需要校正参数重新抽取事件触发词;若是,则继续后续的事件抽取,即参考该事件触发词位置处的文本单元,也就是该事件触发词位置处的、作为事件触发词的文本单元,从该文本序列中抽取事件论元,以便从文本序列中抽取出与事件触发词对应的、正确的事件论元。

可见,本申请实施例在对事件抽取模型进行训练时,将文本序列的事件触发词位置标签,以及该文本序列的每一文本单元的类别标签,共同作为该文本序列的样本标签,在本申请实施例中,将该样本标签命名为第一类型样本标签。可以理解,该第一类型样本标签,包含文本序列样本的事件触发词位置标签,以及文本序列样本的每一文本单元的类别标签。其中,文本单元的类别标签包括文本单元所属的事件触发词类型和事件论元类型的标签。

基于上述的第一类型样本标签对事件抽取模型进行训练,一方面,事件抽取模型能够一次性输出对文本序列中的事件触发词和事件论元的标注结果,即利用一个模型实现端到端的文本事件抽取,其事件抽取效率较高。并且,基于该事件抽取模型对文本单元的类别标签标注方式,对于文本序列中的同一文本单元同时充当多重事件角色的情况,该事件抽取模型也能够通过一次事件抽取,同时标注出同一文本单元的多重事件角色,即能够更加全面地识别文本中的事件触发词和事件论元,保证事件抽取的全面性。

另一方面,在该事件抽取模型从文本序列中抽取事件触发词和事件论元时,能够以事件触发词作为事件论元抽取的依据,即以事件触发词抽取辅助事件论元抽取,从而保证事件触发词和事件论元的对应关系,提高事件抽取的准确性和效率。

在此基础上,当对待抽取文本进行事件抽取时,将待抽取文本输入经过上述训练得到的事件抽取模型,即可得到对该待抽取文本中的各个文本单元的类别标签标注结果,即得到对该待抽取文本的事件抽取结果。

基于上述介绍可见,本申请实施例借助预先训练的事件抽取模型对待抽取文本进行事件抽取,能够分别标注得到待抽取文本中的各个文本单元的类别标签,即标注得到待抽取文本中的各个文本单元所属的事件触发词类型和事件论元类型的标签,从而从待抽取文本中确定出事件触发词和事件论元,得到事件抽取结果。

进一步的,基于上述事件抽取模型的上述特定训练方式,该事件抽取模型不仅能够实现端到端的事件触发词和事件论元抽取,减小模型规模和模型消耗,还能够将事件触发词抽取用于辅助事件论元抽取,从而保证事件抽取时的触发词与论元之间的对应关系,提高事件抽取准确度。而且,该事件抽取模型还能够全面地识别文本在事件中的多重角色,从而保证事件抽取的完整性。

示例性的,本申请实施例以类别标签序列的方式,为文本序列的各个文本单元标注类别标签。

参见图2所示,本申请实施例设置的类别标签序列中的序列元素,分别对应所有的事件触发词类型和事件论元类型,即,该类别标签序列包含所有的事件触发词类型和事件论元类型各自对应的序列元素。

假设在事件抽取领域共有M种事件触发词类型,以及N种事件论元类型,则在文本单元对应的类别标签序列中,共有M+N个序列元素I

基于上述方式设置的类别标签序列,在某一文本单元对应的类别标签序列中,该文本单元所属的事件触发词类型和事件论元类型对应的序列元素的值,为设定的有效值,该类别标签序列中的对应其他事件触发词类型和事件论元类型对应的序列元素的值不是上述的设定的有效值。

例如,在文本单元的类别标签序列中,该文本单元所属的事件触发词类型和事件论元类型对应的序列元素的值为1,企业序列元素的值为0。

对于某一文本单元来说,假设该文本单元在文本序列中仅作为事件触发词,并且是作为第3种类型的事件触发词,则在该文本单元的类别标签序列中的第3个序列元素I

可见,基于上述的类别标签序列,对于任一文本单元,不论其在文本序列中充当何种事件角色,都能在同一个类别标签中进行表示。对于一个文本序列来说,将其包含的各个文本单元对应的类别标签进行组合,可以得到类别标签序列矩阵的形式。矩阵中的每一列分别对应本序列中的一个文本单元的类别标签序列,矩阵中的每一行分别对应一种事件触发词类型或事件论元类型。

基于上述训练,当利用上述的事件抽取模型对待抽取文本进行事件抽取时,得到的事件抽取结果也是矩阵形式,矩阵中的每一列分别对应待抽取文本中的一个文本单元的类别标签序列,矩阵中的每一行分别对应一种事件触发词类型或事件论元类型。当矩阵某一元素的值为设定的有效值(例如1)时,可以确定该元素对应的文本单元,作为该待抽取文本中的与该元素对应的事件触发词或事件论元。

作为一种优选的训练方式,本申请实施例在训练上述的事件抽取模型时,不仅以上述的第一类型样本标签作为训练样本标签,还以第二类型标签同时作为训练样本标签。

具体的,上述的第二类型标签,为训练样本中的事件触发词和事件论元的序列标注结果,也就是对作为训练样本的文本序列中的事件触发词和事件论元的序列标注结果。

对文本序列的序列标注结果如图3所示。在该序列标注结果中,对于文本序列的每一文本单元,确定其唯一的事件角色,即事件触发词或事件论元,将各个文本单元的事件角色标签按照文本单元在文本序列中的顺序进行排列,即得到与文本序列对应的序列标注结果。上述的序列标注结果中的各个元素的值,可以利用预先设定的数值或符号表示。

在文本序列的序列标注结果中,每个文本单元均有唯一的类别标签,即,要么作为事件触发词,要么作为事件论元,并且,文本单元作为事件触发词或事件论元时的具体触发词类型和论元类型也是唯一确定的。因此,文本序列的序列标注结果能够准确地界定文本序列中的事件触发词和事件论元,这对于从文本序列中区分出事件触发词和事件论元是有利的。

因此,将上述的第二类型样本标签用于模型训练,能够训练模型准确区分文本中的触发词和触发词之间、触发词和论元之间以及论元与论元之间的界限,从而有助于更准确地从文本中识别出事件触发词和事件论元。

基于上述的第一类型样本标签以及第二类型样本标签,如图4所示,本申请实施例对上述的事件抽取模型的训练过程如下:

S401、获取训练样本以及训练样本的第一类型样本标签和第二类型样本标签。

上述的训练样本,即包含事件的文本序列。该训练样本的第一类型样本标签,即为对该训练样本的每一文本单元的类别标签标注结果,以及对训练样本中的事件触发词位置标注结果,具体的类别标签标注结果内容,可参见上述实施例的介绍;该训练样本的第二类型样本标签,即为对该训练样本中的事件触发词和事件论元的序列标注结果,具体内容可参见上述实施例介绍。

S402、将训练样本输入上述事件抽取模型,得到所述事件抽取模型输出的事件抽取结果。

上述的事件抽取模型输出的事件抽取结果,包括两种结果:第一类型结果和第二类型结果。其中,第一类型结果即为对输入的训练样本中的每一文本单元的类别标签标注结果,文本单元的类别标签中,包含了事件触发词标注结果和事件论元标注结果,其具体内容和形式可参见上述实施例介绍。

同时,由于事件抽取模型可以识别到训练样本中的任意的可以作为事件触发词的文本单元,因此可能有多个文本单元被标注事件触发词类别标签,但是一个事件通常只有一个事件触发词,即,最终作为事件触发词的,通常只是文本序列中的某一个文本单元。因此,为了使事件抽取模型在全面识别训练样本中的事件触发词的同时,能够确定最终作为事件触发词的文本单元,上述的第一类型结果中,还包括对事件触发词位置的标注结果,也就是,对最终作为事件触发词的文本单元的位置标注结果。可见,上述的第一类型结果的形式和内容类型,与上述的第一类型标签的形式和内容类型相同。

上述的第二类型结果,即为对输入的训练样本中的事件触发词和事件论元的序列标注结果,其内容类型与上述的第二类型标签的内容类型相同。

作为可选的模型设置方式,上述的事件抽取模型,可以基于预训练语言模型进行训练得到。具体的,为了保障事件触发词抽取和事件论元抽取可以在一个模型中实现,并有效识别触发词抽取和论元抽取的不同,本申请实施例选用基于bert以及其衍生预训练语言模型进行训练,得到上述的事件抽取模型。

可以理解的是,上述的事件抽取模型在进行事件抽取时,是通过识别输入文本中的文本单元特征,来确定文本单元是事件触发词还是事件论元。在模型训练过程中,主要是训练模型在识别各种类型文本时,都能够准确地把握文本单元特征,从而实现准确的事件抽取。而模型输出结果,是基于模型对文本进行特征提取及识别的结果,而组织的符合事件抽取结果输出形式的输出结果。也就是说,上述的事件抽取模型输出的第一类型结果和第二类型结果,虽然具体内容和形式不同,但是都是基于模型对文本特征进行提取和识别而得出的。所以,不论利用上述的第一类型结果对模型进行训练,还是利用上述的第二类型结果对模型进行训练,都能使模型性能提升,达到训练效果。

由于上述不同类型结果对于事件抽取分别具有独特的作用,本申请实施例使上述的事件抽取模型同时输出上述两种类型的事件抽取结果,并基于该两种类型的事件抽取结果对模型进行训练,使得事件抽取模型输出的事件抽取结果同时具备上述不同类型结果各自的优点,从而使得模型能够更快速地取得更好的训练效果,即能够快速地达到全面而准确地抽取事件的性能。

基于上述思想,在将训练样本输入上述的事件抽取模型,得到该事件抽取模型输出的事件抽取结果后,执行如下步骤S403:

S403、根据所述事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签和所述第二类型样本标签,计算确定所述事件抽取模型的事件抽取损失值。

具体的,上述的事件抽取模型的事件抽取损失值,用于表示事件抽取模型对训练样本的事件抽取结果,与训练样本中包含的事件的差异,该差异能够反映事件抽取模型的事件抽取准确性。

由于上述的事件抽取模型输出的事件抽取结果中包含两种结果,因此,本申请实施例在计算事件抽取模型的事件抽取损失值时,依据该事件抽取模型输出的两种结果而计算。

首先,根据事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签,计算得到所述事件抽取模型的第一事件抽取损失值。

具体的,计算事件抽取模型输出的第一类型结果与训练样本的第一类型样本标签的差值,作为事件抽取模型的第一事件抽取损失值。

然后,根据事件抽取模型输出的事件抽取结果,以及所述第二类型样本标签,计算得到所述事件抽取模型的第二事件抽取损失值。

具体的,计算事件抽取模型输出的第二类型结果与训练样本的第二类型样本标签的差值,作为事件抽取模型的第二事件抽取损失值。

最后,根据上述的第一事件抽取损失值和上述的第二事件抽取损失值,计算确定事件抽取模型的事件抽取损失值。

具体的,将上述的第一事件抽取损失值和上述的第二事件抽取损失值进行求和,或加权求和,得到的计算结果,即可作为事件抽取模型的事件抽取损失值。

S404、判断上述事件抽取模型的事件抽取损失值是否小于设定值。

如果小于设定值,则执行步骤S405、结束训练过程。此时即可得到能够实现准确的事件抽取的事件抽取模型。

如果不小于设定值,则执行步骤S406、根据上述事件抽取模型的事件抽取损失值,对该事件抽取模型的运算参数进行调整。

然后,返回步骤S401,重新执行训练过程,即,重新获取训练样本以及相应的样本标签,对参数修改后的事件抽取模型进行训练。重复执行上述训练过程,直至在执行上述步骤S404时,判断确定事件抽取模型的事件抽取损失值小于设定值,此时,完整对事件抽取模型的训练。

可以理解,本申请实施例对事件抽取模型的训练过程,结合了模型对文本事件的序列标注结果,以及对文本单元的类别标签标注结果,基于事件抽取模型的上述两种事件抽取结果,分别计算事件抽取模型的损失函数,并用于对模型参数进行校正,使得事件抽取模型不仅可以具备对事件触发词和论元的准确区分性能,又能实现对事件触发词和事件论元的全面识别,对于一个文本单元同时充当多重事件角色的情况有较好的识别性能。

作为一种实例性的实现方式,本申请实施例通过编码序列来作为事件触发词位置标签。

作为文本序列的事件触发词位置标签,该编码序列的元素与文本序列的各个文本单元一一对应,即,该编码序列的长度与文本序列的长度相同。其中,该文本序列中的事件触发词对应的编码序列元素的值为设定值,其余编码序列元素的值为非设定值,这样,通过确定该编码序列中的设定值元素的位置,即可确定相应的文本序列中的事件触发词位置。

例如,将上述的编码序列记为segment_id,如文本序列为“A军2架战机进驻B地”,该文本序列包括5个文本单元,分别为“A军”、“2架”、“战机”、“进驻”、“B地”,其中,第4个文本单元“进驻”为事件触发词,则与该文本序列对应的segment_id的长度为5个元素,其中第4个元素对应该文本序列的事件触发词,因此该元素的值应为设定值,假设为1,其余元素的值为非设定值,假设为0,则最终可确定该segment_id为00010。根据该segment_id可见,由于第4个元素的值为设定值,则可以确定对应的文本序列的第4个文本单元为事件触发词。

可以理解,基于上述的编码序列的元素与文本序列的文本单元的一一对应关系,利用上述的编码序列中的设定值的元素,可以直观、准确地反映事件触发词在文本序列中的位置。

可选的,在本申请实施例中,上述的事件抽取模型的结构采用管道式模型结构,例如图5所示。

文本数据输入事件抽取模型后,先通过触发词抽取模块进行事件触发词抽取,然后事件触发词抽取结果和文本数据再进入论元抽取模块进行论元抽取,然后,论元抽取模块输出完整的事件抽取结果,即输出对文本数据的各个文本单元的类别标签标注结果。

基于上述的事件抽取模型结构,该事件抽取模型对待抽取文本进行处理得到待抽取文本中的各个文本单元的类别标签的具体处理过程,包括如下A1和A2两步骤处理:

A1、对待抽取文本进行触发词识别处理,确定待抽取文本中的触发词位置。

具体的,借助事件抽取模型的触发词抽取模块,即可实现对待抽取文本中的事件触发词识别,从而确定待抽取文本中的触发词位置。

该确定待抽取文本中的触发词位置的处理过程,包括如下A11和A12两步骤:

A11、根据待抽取文本,生成初始编码序列。

上述的初始编码序列,用于反映待抽取文本中的事件触发词位置。其中,该初始编码序列的序列元素与该待抽取文本的各个文本单元一一对应,也就是,该初始编码序列的长度与该待抽取文本的长度相同。该初始编码序列的各个序列元素的值,均为设定的初始值。

例如,上述的初始编码序列可以记为segment_id,其序列元素与待抽取文本中的各个文本单元一一对应,并且各序列元素的值均为初始值,例如为X。

A12、将上述的待抽取文本以及上述的初始编码序列输入触发词抽取模块,以使该触发词抽取模块对待抽取文本中的触发词进行识别,并输出触发词标记编码序列。

触发词抽取模块接收到待抽取文本后,对待抽取文本中的事件触发词进行识别,也就是从待抽取文本的各个文本单元中,识别出作为事件触发词的文本单元。

然后,触发词抽取模块将接收的初始编码序列中的、与该待抽取文本中的事件触发词对应的序列元素的值设置为设定值,将该初始编码序列中的其他序列元素的值设置为非设定值,并将得到的新的序列作为触发词标记编码序列输出。

A2、根据待抽取文本中的触发词位置,确定待抽取文本中的各个文本单元的类别标签。

具体的,将上述的待抽取文本,以及上述的触发词标记编码序列,输入论元抽取模块,由论元抽取模块根据触发词标记编码序列,对待抽取文本中的事件论元进行识别、抽取,也就是识别待抽取文本中的各个文本单元是否为事件论元,以及具体的事件论元类型。最后,论元抽取模块将基于触发词标记编码序列确定的触发词抽取结果,以及论元抽取结果,进行综合整理后,输出待抽取文本中的各个文本单元的类别标签。

基于上述介绍可见,本申请实施例提出的事件抽取模型对待抽取文本进行事件抽取的过程中,将待抽取文本中的事件触发词,作为从待抽取文本中抽取事件论元的参考,从而能够保证事件抽取过程中的事件触发词与事件论元的对应关系,保证了事件抽取准确率。

本申请实施例还提出一种事件抽取装置,参见图6所示,该装置包括:

事件抽取处理单元,用于将待抽取文本输入预先训练的事件抽取模型,得到所述待抽取文本中的各个文本单元的类别标签,作为事件抽取结果;

所述事件抽取模型,以文本序列作为训练样本,以所述文本序列的事件触发词位置标签,以及所述文本序列的每一文本单元的类别标签作为第一类型样本标签,训练得到,其中,文本单元的类别标签包括文本单元所属的事件触发词类型和事件论元类型的标签。

本申请实施例提出的事件抽取模型,借助预先训练的事件抽取模型对待抽取文本进行事件抽取,能够分别标注得到待抽取文本中的各个文本单元的类别标签,即标注得到待抽取文本中的各个文本单元所属的事件触发词类型和事件论元类型的标签,从而从待抽取文本中确定出事件触发词和事件论元,得到事件抽取结果。

进一步的,基于上述事件抽取模型的上述特定训练方式,该事件抽取模型不仅能够实现端到端的事件触发词和事件论元抽取,减小模型规模和模型消耗,还能够将事件触发词抽取用于辅助事件论元抽取,从而保证事件抽取时的触发词与论元之间的对应关系,提高事件抽取准确度。而且,该事件抽取模型还能够全面地识别文本在事件中的多重角色,从而保证事件抽取的完整性。

作为一种可选的实现方式,上述文本单元的类别标签为类别标签序列,所述类别标签序列包含所有的事件触发词类型和事件论元类型各自对应的序列元素,在文本单元的类别标签序列中,文本单元所属的事件触发词类型和事件论元类型对应的序列元素的值,为设定的有效值。

作为一种可选的实现方式,在训练所述事件抽取模型时,还以所述文本序列中的事件触发词和论元的序列标注结果作为第二类型样本标签。

作为一种可选的实现方式,对所述事件抽取模型的训练过程,包括:

将训练样本输入所述事件抽取模型,得到所述事件抽取模型输出的事件抽取结果;所述事件抽取模型输出的事件抽取结果包括第一类型结果和第二类型结果,所述第一类型结果中包括对所述训练样本的触发词位置的标注结果,以及对所述训练样本的每一文本单元的类别标签标注结果,所述第二类型结果中包括对所述训练样本的事件触发词和事件论元的序列标注结果;

根据所述事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签和所述第二类型样本标签,计算确定所述事件抽取模型的事件抽取损失值;

根据所述事件抽取模型的事件抽取损失值,对所述事件抽取模型的运算参数进行调整;

重复以上处理,直至所述事件抽取模型的事件抽取损失值小于设定值。

作为一种可选的实现方式,所述根据所述事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签和所述第二类型样本标签,计算确定所述事件抽取模型的损失值,包括:

根据所述事件抽取模型输出的事件抽取结果,以及所述第一类型样本标签,计算得到所述事件抽取模型的第一事件抽取损失值;

根据所述事件抽取模型输出的事件抽取结果,以及所述第二类型样本标签,计算得到所述事件抽取模型的第二事件抽取损失值;

根据所述第一事件抽取损失值和所述第二事件抽取损失值,计算确定所述事件抽取模型的事件抽取损失值。

作为一种可选的实现方式,所述事件触发词位置标签为编码序列,所述编码序列的元素与所述文本序列的各个文本单元一一对应,其中,所述文本序列的事件触发词对应的编码序列元素的值为设定值,其余编码序列元素的值为非设定值。

作为一种可选的实现方式,所述事件抽取模型对待抽取文本进行处理得到所述待抽取文本中的各个文本单元的类别标签,包括:

对所述待抽取文本进行触发词识别处理,确定所述待抽取文本中的触发词位置;

根据所述待抽取文本中的触发词位置,确定所述待抽取文本中的各个文本单元的类别标签,所述文本单元的类别标签,包括文本单元所属的事件触发词类型和事件论元类型的标签。

作为一种可选的实现方式,所述对所述待抽取文本进行触发词识别处理,确定所述待抽取文本中的触发词位置,包括:

根据所述待抽取文本,生成初始编码序列,其中,所述初始编码序列的序列元素与所述待抽取文本的各个文本单元一一对应,所述初始编码序列的各个序列元素的值均为设定的初始值;

将所述待抽取文本以及所述初始编码序列输入触发词抽取模块,以使所述触发词抽取模块对所述待抽取文本中的触发词进行识别,并输出触发词标记编码序列;

其中,所述触发词标记编码序列由所述触发词抽取模块将所述初始编码序列中的、与所述待抽取文本中的事件触发词对应的元素的值设置为设定值而得到。

作为一种可选的实现方式,所述根据所述待抽取文本中的触发词位置,确定所述待抽取文本中的各个文本单元的类别标签,包括:

将所述待抽取文本以及所述触发词标记编码序列,输入论元抽取模块,确定所述待抽取文本中的各个文本单元的类别标签。

具体的,上述的事件抽取装置的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。

本申请另一实施例还提出一种事件抽取设备,参见图7所示,该设备包括:

存储器200和处理器210;

其中,所述存储器200与所述处理器210连接,用于存储程序;

所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的事件抽取方法。

具体的,上述事件抽取设备还可以包括:总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:

总线可包括一通路,在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器,还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccess memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的事件抽取方法的各个步骤。

本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的事件抽取方法的各个步骤。

具体的,上述的事件抽取设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上述的事件抽取方法的各个实施例的内容,此处不再赘述。

对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种长文本事件抽取方法、装置、计算机设备及存储介质
  • 一种长文本事件抽取方法、装置、计算机设备及存储介质
技术分类

06120112810111