掌桥专利:专业的专利平台
掌桥专利
首页

一种开放域下的事件抽取系统和方法

文献发布时间:2023-06-19 10:11:51


一种开放域下的事件抽取系统和方法

技术领域

本发明涉及事件抽取技术领域,具体为一种开放域下的事件抽取系统和方法。

背景技术

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务:触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

互联网应用的快速发展使得网络获取的数据量也大幅度的增加。如何快速、高效的从大规模数据中分析出真正有用的信息显得尤为重要而迫切。信息抽取这一研究领域在此背景下应运而生。而事件抽取作为信息抽取的一项子任务,不仅依赖于基础的自然语言处理技术,而且对分词、词性标注、命名实体识别、句法分析等结果也有所依赖。但不能单纯的理解为信息检索或浅层语义理解,而是需要去挖掘句子背后隐藏的真正含义。因此,作为信息抽取任务中一个至关重要的研究点,事件抽取技术方面的研究将变得任重而道远。传统的事件抽取研究所采用的语料大多都是面向限定域,而且必须事先给定事件类别,而后利用机器学习或者模式匹配算法进行事件类别识别以及事件元素识别工作。所以,传统的事件抽取方法在处理领域移植问题时的效果不佳。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种开放域下的事件抽取系统和方法,以解决上述背景技术中提出的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:一种开放域下的事件抽取系统,所述事件抽取系统包括事件抽取框架,领域规则模块和人机交互模块,所述事件抽取框架用于建立训练模型和框架对需求序列进行捕捉抽取,所述领域规则模块用于建立多种训练规则并融入训练模型,丰富事件抽取框架的抽取精度,所述人机交互模块用于反馈系统抽取信息和抽取状态信息。

优选的,所述事件抽取框架包括自注意力层和门卷积层,所述自注意力层用于对抽取需求进行捕捉和筛选,所述门卷积层利用卷积网络用于依据抽取需求序列在开放域下对需求序列进行提取。

优选的,所述卷积网络具体为门控卷积神经网络,所述门控卷积神经网络在每层卷积操作后设有一个输出卷积门限,控制信息流动。

优选的,所述领域规则模块包括有多种抽取规则,所述抽取规则有关键词抽取、相关词抽取、组合式抽取和自定义抽取。

优选的,所述组合式抽取包括关键词抽取、相关词抽取、自定义抽取之间任意两两结合进行抽取。

优选的,所述自定义抽取可依据开放域结构不同进行自定义抽取程序。

优选的,所述人机交互模块还包括有输入模块和输出模块,所述输入模块包括有输入设备以及生物识别装置,所述输出模块包括显示设备和音频输出模块。

优选的,所述抽取状态包括有抽取数据列表以及识别的关联数据。

一种开放域下的事件抽取方法:在开放域下的事件抽取系统中人机交互界面输入抽取需求,在事件抽取框架中生成抽取需求序列,依据抽取需求序列在开放域中对事件进行捕捉,捕捉后事件发送至人机交互界面进行反馈和交互,依据不同的开放域或者不同的抽取需求对抽取规则进行补充,包括有关键词抽取、相关词抽取、组合式抽取和自定义抽取,利用不同抽取方式对事件抽取框架进行补充,事件在抽取捕捉的同时对未识别的复杂事件进行收集后在人机交互界面进行反馈。

(三)有益效果

本发明提供了一种开放域下的事件抽取系统和方法,具备以下有益效果:采用预训练模型构建通用事件抽取框架,提高抽取效果,建立多种规则融入预训练模型提升领域事件抽取精度,自动推荐未能识别的复杂预警的文本,采用人机交互的方式实现复杂事件抽取,通过人工判断介入,提高复杂抽取的可行性,进而任何文本通过原建立的模型能达到60%以上,注入规则后能达到90%,辅助人机交互能达到95%以上,同时在抽取时借助卷积神经网络进行深度自主学习,通过多组数据模拟训练建模,并在卷积计算后加入输出门限,有效降低梯度弥散,同时保留了卷积神经网络的非线性变化能力。

附图说明

图1为本发明系统结构示意图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。

下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

如图1所示,本发明实施例提供一种开放域下的事件抽取系统,事件抽取系统包括事件抽取框架,领域规则模块和人机交互模块,事件抽取框架用于建立训练模型和框架对需求序列进行捕捉抽取,领域规则模块用于建立多种训练规则并融入训练模型,丰富事件抽取框架的抽取精度,人机交互模块用于反馈系统抽取信息和抽取状态信息。

事件抽取框架包括自注意力层和门卷积层,自注意力层用于对抽取需求进行捕捉和筛选,门卷积层利用卷积网络用于依据抽取需求序列在开放域下对需求序列进行提取,卷积网络具体为门控卷积神经网络,门控卷积神经网络在每层卷积操作后设有一个输出卷积门限,控制信息流动,领域规则模块包括有多种抽取规则,抽取规则有关键词抽取、相关词抽取、组合式抽取和自定义抽取,组合式抽取包括关键词抽取、相关词抽取、自定义抽取之间任意两两结合进行抽取,自定义抽取可依据开放域结构不同进行自定义抽取程序,人机交互模块还包括有输入模块和输出模块,输入模块包括有输入设备以及生物识别装置,输出模块包括显示设备和音频输出模块,抽取状态包括有抽取数据列表以及识别的关联数据。

一种开放域下的事件抽取方法:在开放域下的事件抽取系统中人机交互界面输入抽取需求,在事件抽取框架中生成抽取需求序列,依据抽取需求序列在开放域中对事件进行捕捉,捕捉后事件发送至人机交互界面进行反馈和交互,依据不同的开放域或者不同的抽取需求对抽取规则进行补充,包括有关键词抽取、相关词抽取、组合式抽取和自定义抽取,利用不同抽取方式对事件抽取框架进行补充,事件在抽取捕捉的同时对未识别的复杂事件进行收集后在人机交互界面进行反馈。

综上,采用预训练模型构建通用事件抽取框架,提高抽取效果,建立多种规则融入预训练模型提升领域事件抽取精度,自动推荐未能识别的复杂预警的文本,采用人机交互的方式实现复杂事件抽取,通过人工判断介入,提高复杂抽取的可行性,进而任何文本通过原建立的模型能达到60%以上,注入规则后能达到90%,辅助人机交互能达到95%以上,同时在抽取时借助卷积神经网络进行深度自主学习,通过多组数据模拟训练建模,并在卷积计算后加入输出门限,有效降低梯度弥散,同时保留了卷积神经网络的非线性变化能力。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 一种开放域下的事件抽取系统和方法
  • 一种父域站点下的多个子域站点的认证方法和系统
技术分类

06120112457078