掌桥专利:专业的专利平台
掌桥专利
首页

一种基于领域预训练的嵌套事件抽取方法

文献发布时间:2023-06-19 11:44:10


一种基于领域预训练的嵌套事件抽取方法

技术领域

本发明属于自然语言处理技术领域,具体来说涉及文本信息抽取技术领域,更具体地说,涉及提供了一种基于领域预训练的嵌套事件抽取方法。

背景技术

随着互联网信息量爆炸式的增长,在浩如烟海的信息源中快速、准确地获取所需信息的需求愈发迫切。事件抽取做作为信息抽取的深层次研究任务,其旨在从纯文本中抽取出用户感兴趣的事件,并以结构化的形式呈现给用户,进而供用户查询、分析利用,常见的重要下游应用,比如:构建知识图谱、智能问答和信息检索等。对文本进行事件抽取,尤其是多主体嵌套事件抽取,已成为当前文本挖掘技术领域的研究难点。

面对垂直领域文本,如新闻文本、生物医疗等领域,大量文本均存在多主体嵌套事件,对准确抽取文本信息提出了巨大挑战。当前运用较多基于模式匹配、基于机器学习等方法对于元事件抽取基本有较高的准确率。但当文本出现多主体嵌套事件时,上述方法难以准确全面高效地抽取信息,主要难点在于:1)事件属性分布在文本不同句子中;2)文本中多个嵌套事件之间存在事件论元属性重叠,从而导致信息抽取准确率下降。

近年来,随着预训练语言模型的出现将自然语言处理带入一个新时代,基于预训练语言模型诸多优点:1)在大规模无监督语料上预训练通用语言表示对下游任务效果提升明显;2)提供了更好的模型初始化参数,使在目标任务上有更好的泛化性能和更快的收敛速度;3)能够避免在小数据集上过拟合。但是,大多数预训练模型都在诸如Wikipedia的通用语料中训练,而在领域化的特定场景会受到限制。

综上所述,本交叉领域亟需设计一种新的多主体嵌套事件抽取方法来解决上述问题。

发明内容

有鉴于此,本发明提供了一种基于预训练模型的嵌套事件抽取方法。第一,解决将BERT直接迁移到垂直领域,在领域化的特定场景会受到限制,其性能效果会下降的问题。本发明提出一种预训练领域语言模型的方法,以新闻案件领域为例,提高领域语言处理能力;第二,多主体嵌套事件存在属性重叠、事件属性分散于各个不同句子等因素造成信息抽取效果差的问题。本发明提出一套基于分层抽取嵌套事件信息模版的嵌套事件分层抽取流程。

本发明的技术路线实现形式为:首先,从领域数据库中获取原始领域语料,并对其进行预处理;其次,改进通用BERT模型,并利用领域语料进行预训练,得到领域预训练语言模型CaseBERT;再次,通过梳理多主体嵌套事件的层次关系,对嵌套事件预定义分层抽取模版;最后,通过触发词和事件属性联合抽取模型,基于CaseBERT和嵌套事件抽取模板,进行多主体嵌套事件抽取,获得文本最终结构化信息。

本发明以新闻领域嵌套事件抽取为例,亦可用于其他领域文本的嵌套事件抽取。具体步骤为:

S1、获取领域语料,并数据预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽小部分数据进行人工标注得嵌套事件文本数据集;

S2、利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用预训练语言模型BERT内部增加案由类别分类预训练任务;

S3、定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;

S4、采用CaseBERT模型和预定义好的嵌套事件抽取模版,对嵌套事件文本数据集进行触发词和事件属性联合抽取。

进一步地,步骤S1包括:

S11、从领域语料数据库中抽取原始领域语料,包括:新闻领域嵌套文本及其对应的新闻类别;

S12、设定一个最小文本长度,将每条文本固定在这个长度之上,换言之小于该设定的文本长度就删除,目的是:尽可能过滤掉可能存在的单事件短文本;

S13、通过正则手段删除乱码文本,若语料均是复杂长文本,可省略此流程;

S14、利用相邻字凝固度对抽取的原始领域语料构建领域专业词表;

S15、抽取小部分数据,进行标注,构造有监督信号的嵌套事件文本数据集。

进一步地,步骤S2包括:

S21、在通用BERT模型的基础上,在MLM预训练任务中融入了新闻类别分类任务;

S22、利用领域语料和领域专业词表作为输入来预训练基于新闻案件领域特点改进的BERT语言模型;

S23、搭建得到新闻案件领域预训练语言模型CaseBERT,并得到训练好的模型参数。

进一步地,步骤S3包括:

S31、对新闻文本中的多主体嵌套事件,定义各事件的重要性,并按重要性排序;

S32、设置新闻文本中每类事件的触发词和对应触发词的事件属性;

S33、基于预定义多嵌套事件抽取模板所要结构化的信息,用嵌套事件文本信息按事件重要性分层进行对应的槽填充。

此步骤,不限于规定模板,面对不同特点的文本,可自定义设计嵌套事件信息抽取模板。

进一步地,步骤S4包括:

本发明提出触发词和事件属性联合抽取模型。

S41、事件触发词抽取模型用于抽取文本的所有事件触发词,模型结构为CaseBERT叠加开始位置与结束位置的指针网络,使用圆形损失函数对其进行优化。

S42、事件属性抽取模型用于抽取每个触发词对应的事件属性信息,其输入为文本以及触发词在文本中的位置,其结构为CaseBERT配合条件标准化层,叠加开始位置与结束位置的指针网络,也使用同样的圆形损失函数对其进行优化。

采用上述策略后,本发明的积极效果是:

(1)本发明针对预训练模型在领域化的特定场景会受到限制的问题,提出一种改进BERT模型MLM任务的领域语言模型预训练方法,提高了模型领域语言处理能力。

(2)本发明针对多主体嵌套事件抽取任务,提出了一套基于分层抽取嵌套事件信息模版的嵌套事件分层抽取方法,有效地解决了多主体嵌套事件存在论元属性重叠、事件属性分散于各个不同句子等因素造成信息抽取效果差的问题,提高了复杂信息抽取的准确率。

附图说明

图1是本发明基于领域预训练的嵌套事件抽取方法的原理示意图

图2是本发明基于领域预训练的嵌套事件抽取方法的流程示意图

图3是本发明方法中融入新闻类别分类任务的CaseBERT改进部分的模型结构示意图

图4是本发明方法中分层抽取嵌套事件信息模版实例示意图

图5是本发明方法中多主体嵌套事件分层抽取流程示意图

图6是本发明方法中触发词与事件属性联合抽取模型结构示意图

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,并使本发明的上述目的、技术方案和优点能够更加明显易懂,下面结合实施例及实施例附图对本发明作进一步详细说明。

请参见图1,图1是本发明实施例提供基于领域预训练的嵌套事件抽取方法的原理示意图。该方法包括:首先,从领域数据库中获取原始领域语料,并对其进行预处理;其次,改进通用BERT模型,并利用领域语料进行预训练,得到领域CaseBERT;再次,通过梳理嵌套事件的层次关系,对嵌套事件预定义分层抽取模版;最后,通过触发词和事件属性联合抽取模型,基于CaseBERT和嵌套事件抽取模板,进行多主体嵌套事件抽取,获得嵌套事件文本最终结构化信息。

请参见图2,图2是本发明基于领域预训练的嵌套事件抽取方法的流程示意图,具体步骤包括:

S1、获取领域语料,并数据预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽不少于7000条文本数据进行人工标注得嵌套事件文本数据集A。

S11、从领域数据库中抽取原始领域语料,原始领域语料包括:领域文本及其对应的文本类别;

S12、设定最小文本长度80字,筛选原始领域语料,过滤掉可能存在的单事件短文本;

S13、通过正则手段删除乱码文本与重复文本,得到140万条长度不小于80字的领域语料;

S14、利用相邻字凝固度对抽取的领域语料构建领域专业词表;

S15、随机抽不少于7000条文本数据,进行人工标注,构造有监督信号的嵌套事件文本数据集A。

S2、利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用预训练语言模型BERT内部增加新闻类别分类预训练任务。

S21、在通用BERT模型的基础上,在MLM预训练任务中融入了新闻类别分类任务。改进部分的示意图如图3所示。输入模型前在嵌套事件文本数据集A的首部加上特殊字符“[CLS]”,尾部加上特殊字符“[SEP]”,使用“[CLS]”处的向量作为类别信息的特征向量,输出最终的新闻类别;

S22、利用领域语料和领域专业词表作为输入来预训练基于新闻案件领域特点改进的BERT语言模型;

S23、搭建得到新闻案件领域预训练语言模型CaseBERT,并得到训练好的模型参数。

S3、定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系。

举例分析如图4所示。

S31、在处理新闻嵌套事件文本时,首先将新闻打架事件发生定义为最重要的事件;其次将参与人员信息等定义为次要事件;

S32、将滋事方式做为新闻打架事件的触发词,其他信息均归为新闻打架事件属性;同理,将参与人员姓名做为参与人事件的触发词,其他信息均归为参与人事件属性;

S33、基于预定义多主体嵌套事件抽取模板所要结构化的信息,用新闻嵌套事件文本信息按事件重要性分层进行对应的槽填充。具体流程如图5所示。此流程不限于示意图上的三层,可基于文本特点进行适当扩展;

此步骤,不限于规定模板,面对不同特点的文本,可自定义设计嵌套事件信息抽取模板。

S4、采用CaseBERT模型和预定义好的嵌套事件抽取模版,对嵌套事件文本数据集A进行触发词和事件属性联合抽取。

本发明提出触发词和事件属性联合抽取模型。模型结构图如图6所示。

S41、事件触发词抽取模型用于抽取文本的所有事件触发词,模型结构为CaseBERT叠加开始位置与结束位置的指针网络,使用圆形损失函数对其进行优化。圆形损失函数:

其中

S42、事件属性抽取模型用于抽取每个触发词对应的事件属性信息,其输入为文本以及触发词在文本中的位置,其结构为CaseBERT配合条件标准化层,叠加开始位置与结束位置的指针网络,使用同样的圆形损失函数对其进行优化。

上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

相关技术
  • 一种基于领域预训练的嵌套事件抽取方法
  • 一种基于预训练指导的多领域机器翻译系统构建方法
技术分类

06120113034277