掌桥专利:专业的专利平台
掌桥专利
首页

一种文本事件元素提取方法

文献发布时间:2023-06-19 10:21:15



技术领域

本发明涉及计算机技术领域,具体涉及一种文本事件元素提取方法。

背景技术

事件元素提取是自然语言处理领域的基础任务之一,也是信息提取任务中一个重要的子任务。事件元素提取意在提取文本中最主要的事件元素,具体的主要工作是从一段文本中识别出发生的事件元素以及事件元素中的各个元素。例如提取一个文本中的触发词和事件元素,事件元素包括事件主体、事件客体、时间和地点等。

现有的事件元素提取方案主要是使用自定义触发词并基于机器学习的方式提取事件元素,将事件元素提取过程转换为分类问题,该方案需要使用大规模的标注语料,而且由于受到触发词的限制,当所使用的测试语料和训练语料来源相同时,系统的效果往往较高,但该方案不适用于来源不同的语料,系统的表现就会大打折扣,导致事件元素提取的准确率不高。

发明内容

为解决现有技术的不足,本发明实施例提供了一种文本事件元素提取方法,该方法包括以下步骤:

将文本输入训练过的第一序列标注BERT模型,得到多个触发词;

将所述多个触发词及所述多个触发词所在的文本输入训练过的第二序列标注BERT模型,得到所述多个触发词对应的事件元素,生成事件元素集合,其中,所述事件元素包括事件主体、事件客体、时间及地点。

优选地,在生成事件元素集合之后,所述方法还包括:

利用语言技术平台ltp模型,得到所述触发词与所述各个事件元素之间的句法依存关系;

根据所述句法依存关系,分别判断所述各个事件元素是否正确。

优选地,根据所述句法依存关系,分别判断所述各个事件元素是否正确包括:

当所述句法依存关系为主谓关系的主语,通过人工判断所述事件元素集合中相应的事件主体在所述文本中是否真的为事件主体,如果不是,则过滤所述事件元素。

优选地,根据所述句法依存关系,分别判断所述各个事件元素是否正确还包括:

当所述句法依存关系为动宾关系的主语,通过人工判断所述事件元素集合中相应的事件客体在所述文本中是否真的为事件客体,如果不是,则过滤所述事件元素。

优选地,所述序列标注BERT模型的训练过程包括:

将携带触发词标签的多个句子级文本作为训练数据输入序列标注BERT模型,对所述序列标注BERT模型进行训练,得到训练过的第一序列标注BERT模型。

优选地,所述第二序列标注BERT模型的训练过程包括:

将条件随机场CRF模型的CRF层添加至训练过的序列标注BERT模型,得到训练过的第二序列标注BERT模型。

优选地,所述序列标注BERT模型的训练过程包括:

将携带事件元素标签的多个句子级文本作为训练数据输入序列标注BERT模型,对所述序列标注BERT模型进行训练,得到训练过的第二序列标注BERT模型。

本发明实施例提供的文本事件元素提取方法,具有以下有益效果:

通过训练过的第一序列标注BERT模型预测触发词,通过训练过的第二序列标注BERT模型预测事件元素,适用于各种来源的语料,事件元素提取的准确率较高。

具体实施方式

以下结合具体实施例对本发明作具体的介绍。

本发明提供的实施例提供的文本事件元素提取方法,包括以下步骤:

S101,将文本输入训练过的第一序列标注BERT模型,得到多个触发词。

其中,第一序列标注BERT模型利用了Transformer模型的encoder结构。Transformer模型是一种注意力机制,可以学习文本中单词之间的上下文关系的。Transformer模型的原型包括两个独立的结构,一个是encoder结构,负责接收文本作为输入;一个decoder结构,负责预测任务的结果。

S102,将多个触发词及多个触发词所在的文本输入训练过的第二序列标注BERT模型,得到多个触发词对应的事件元素,生成事件元素集合,其中,事件元素包括事件主体、事件客体、时间及地点。

其中,提取事件元素的具体流程如下:

第二序列标注BERT模型的嵌入层将输入的文本转换成子词嵌入、位置嵌入和分割嵌入三个嵌入特征,在子词嵌入特征中把触发词的位置替换为1,编码层将基于嵌入层输出的子词的语义向量,为每个待分类的字构造代表其语义的向量表示。输出层将每个字对应的向量表示最后输入到一个全连接层进行多分类,取概率最大的类别作为该字的分类标记。

可选地,在生成事件元素集合之后,该方法还包括:

利用语言技术平台ltp模型,得到触发词与各个事件元素之间的句法依存关系;

根据句法依存关系,分别判断各个事件元素是否正确。

可选地,根据句法依存关系,分别判断各个事件元素是否正确包括:

当句法依存关系为主谓关系的主语,通过人工判断事件元素中相应的事件主体在文本中是否真的为事件主体,如果不是,则过滤这个事件元素。

可选地,根据句法依存关系,分别判断各个事件元素是否正确还包括:

当句法依存关系为动宾关系的主语,通过人工判断事件元素中相应的事件客体在文本中是否真的为事件客体,如果不是,则过滤这个事件元素。

作为一个具体的实施例,针对文本“北约联军在伊拉克集结了100多架飞机”,通过第一序列标注BERT模型预测“集结”为触发词,通过第一序列标注BERT模型预测“北约联军”为事件主体、“100多架飞机”为事件客体,再通过ltp模型,判断“集结”与“北约联军”的句法依存关系为主谓关系、与“飞机”的句法依存关系为动宾关系,则确认“北约联军”为事件主体、“100多架飞机”为事件客体。

可选地,序列标注BERT模型的训练过程包括:

将携带触发词标签的多个句子级文本作为训练数据输入序列标注BERT模型,对序列标注BERT模型进行训练,得到训练过的第一序列标注BERT模型。

可选地,第二序列标注BERT模型的训练过程包括:

将条件随机场CRF模型的CRF层添加至训练过的序列标注BERT模型,得到训练过的第二序列标注BERT模型。

其中,使用条件随机场CRF模型的CRF层来学习不同标签之间的关系,而不是进行独立地预测。

可选地,上述序列标注BERT模型的训练过程包括:

将携带事件元素标签的多个句子级文本作为训练数据输入序列标注BERT模型,对序列标注BERT模型进行训练,得到训练过的第二序列标注BERT模型。

作为一个具体的实施例,采用IOB标签将标注好的数据处理成序列标注的格式,标签I用于标识文本块中的字符,标签O用于标识文本块之外的字符,标签B用于标识该文本块前面续接的同一类型的文本块的第一个字符。

本发明实施例提供的文本事件元素提取方法,通过将文本输入训练过的第一序列标注BERT模型,得到多个触发词,将多个触发词及多个触发词所在的文本输入训练过的第二序列标注BERT模型,得到多个触发词对应的事件元素,生成事件元素集合,提高了适用性及事件元素提取的准确率。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 一种文本事件元素提取方法
  • 一种事件元素提取方法和装置
技术分类

06120112518556