掌桥专利:专业的专利平台
掌桥专利
首页

基于终身学习的金融领域事件抽取方法及装置

文献发布时间:2023-06-19 13:26:15


基于终身学习的金融领域事件抽取方法及装置

技术领域

本发明涉及人工智能领域,具体而言,涉及一种基于终身学习的金融领域事件抽取方法及装置。

背景技术

相关技术中,随着信息技术的快速发展,如何从大量新闻事件中快速提取关键有效的信息成为研究者面对的首要问题。在这样的需求指引下,信息抽取应运而生。信息抽取(Information Extraction)是指从非结构化来源中自动地抽取出结构化的信息,这些信息可以是实体、实体关系、实体属性等。事件抽取(Event Extraction)是一种更复杂的信息抽取形式,它能够提供更高层次的内容处理抽象能力,是自然语言处理中一个重要的研究方向,是信息抽取技术的子任务,旨在从文本中提取出可以描述事件的触发词和要素,在知识挖掘领域起着非常重要的作用。

相关概念包括:事件:某个特定的时间片段和地域范围内发生的,由一个或者多个角色参与,由一个或者多个动作组成的一件事情,一般来说是句子级的。事件触发词:表示事件发生的核心词,多为动词或名词;事件类型:预先定义的事件类型,例如:投资、判决、收购等;事件要素:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者;要素角色:事件要素在事件中充当的角色,例如投资人、被投资人等。

例如:运匠科技曾于2017年10月获得儒艺资本的天使轮投资。如表1所示:

表1

事件抽取是自然语言处理中一个重要的研究方向,是信息抽取技术的子任务,旨在从文本中提取出可以描述事件的触发词和要素,在知识挖掘领域起着非常重要的作用。特别是随着深度学习的发展,越来越多的神经网络模型在文本处理上表现出更好的有效性和准确率。从开放域自由文本中识别事件的发生并抽取事件的各要素的任务成为文本信息抽取与挖掘的研究难点。

事件抽取包括限定域事件抽取和开放域事件抽取。限定域事件抽取是指在进行抽取之前,预先定义好目标事件的类型及每种类型的具体结构(包含哪些具体的事件要素),通常会给出一定数量的标注数据。而开放域事件抽取是指在进行事件识别之前,可能的事件类型以及事件的结构都是未知的,因此该任务通常没有标注数据,主要基于无监督的方法和分布假设理论。

金融事件抽取是事件抽取技术在金融领域的应用,能够帮助投资者快速获取公司的主要事件,识别投资风险以及投资机会,对金融市场有更全面的了解,进而做出正确的投资决策等。但由于金融文本的数量呈指数级增长,相关文本时效性较高,行业术语复杂,文本中往往包含着大量噪声文本和无关金融实体,使得金融领域事件抽取的难度大大增加。传统的金融领域事件抽取方法需要针对不同的事件类型抽取不同的要素,类别之间无法共享信息,增加了事件抽取的难度和复杂性。

在相关技术进行时间抽取时,还存在以下缺陷:(1)在特定领域事件抽取的研究目前大多是针对特定的数据集,需要针对该领域不同的事件类型抽取不同的事件要素,不同的事件类别之间无法共享信息,增大了事件抽取的难度和复杂程度。(2)目前大部分金融领域事件抽取模型都是针对特定学习任务单独学习训练的,在特定任务中训练后的模型无法在新任务上有较好的表现,对于知识的记忆功能和迁移能力不够理想。(3)针对事件检测和事件要素抽取结果缺少反馈机制,难以及时纠正错误分类及要素抽取结果,事件抽取模板无法及时更新,无法实现模型的泛化性和可扩展性。

针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种基于终身学习的金融领域事件抽取方法及装置。

根据本申请实施例的一个方面,提供了一种基于终身学习的金融领域事件抽取方法,包括:配置初始事件抽取模板,其中,所述初始事件抽取模板包括多个事件类型,以及与每个所述事件类型对应的要素角色;采用样本文本信息训练所述初始事件抽取模板,输出目标事件抽取模板,其中,所述初始事件抽取模板包括事件检测模块和要素抽取模块。

进一步,采用样本文本信息训练所述初始事件抽取模板包括:针对所述样本文本信息中的每个描述文本,将所述描述文本输入所述事件检测模块,输出所述描述文本的事件类型信息,并训练所述事件检测模块;将所述事件类型信息和所述描述文本输入所述要素抽取模块,输出所述描述文本的要素角色信息,并训练所述要素抽取模块。

进一步,所述事件检测模块包括第一单词嵌入层,第一双向编码器表示BERT编码层,第一双向长短记忆模型BiLSTM层以及第一条件随机场CRF层,将所述描述文本输入所述事件检测模块,输出所述描述文本的事件类型信息,包括:将所述描述文本输入所述第一单词嵌入层,获取所述描述文本的文本向量;采用所述第一BERT编码层对所述文本向量进行嵌入编码,获得所述描述文本的单词向量矩阵;将所述单词向量矩阵输入所述第一BiLSTM层,输出所述描述文本的第一概率矩阵,其中,所述第一概率矩阵包括所述单词向量矩阵中每个单词映射到每个事件类型标签的概率;采用所述第一CRF层从所述概率矩阵中获取最优标记,并将所述最优标记确定为所述描述文本的所述事件类型信息。

进一步,所述要素抽取模块包括第二单词嵌入层,第二BERT编码层,第二BiLSTM层以及第二CRF层,将所述事件类型信息和所述描述文本输入所述要素抽取模块,输出所述描述文本的要素角色信息,包括:将所述描述文本输入所述第二单词嵌入层,获取所述描述文本的要素向量矩阵;针对所述要素向量矩阵中的每个要素向量,采用所述第二BERT编码层对所述要素向量进行嵌入编码,获得事件要素的角色向量矩阵,其中,所述角色向量矩阵包括所述事件要素属于每个要素角色的要素文本位置;将所述角色向量矩阵输入所述第二BiLSTM层,输出所述事件要素的第二概率矩阵,其中,所述第二概率矩阵包括所述角色向量矩阵中每个事件要素映射到每个要素角色标签的概率;采用所述第二CRF层从所述第二概率矩阵中获取最优标记,并将所述最优标记确定为所述事件要素的要素角色信息。

进一步,所述第二BERT编码层包括多组二类分类器,采用所述第二BERT编码层对所述要素向量进行嵌入编码,获得事件要素的角色向量矩阵,包括:将所述要素向量的每个向量标识token分别输入每组二类分类器,输出所述要素向量的每个标识属于对应要素角色的要素起始字符和终止字符的概率值,其中,每个所述二类分类器对应一个要素角色。

进一步,所述初始事件抽取模板包括事件检测模块和要素抽取模块,采用样本文本信息训练所述初始事件抽取模板包括:采用所述事件检测模块的第一BERT编码层对输入的所述样本文本信息进行编码,输出事件类型信息,训练所述事件检测模块;读取训练后的所述事件检测模块的模块参数Θ

进一步,在输出所述描述文本的要素角色信息之后,所述方法还包括:响应纠错指令,将所述事件类型信息和所述要素角色信息替换为正确的事件类型信息和正确的要素角色信息;将替换后的所述正确的事件类型信息、所述正确的要素角色信息和所述描述文本再次输入所述要素抽取模块,输出所述描述文本的要素角色信息,并继续训练所述要素抽取模块。

根据本申请实施例的另一个方面,还提供了一种基于终身学习的金融领域事件抽取装置,包括:配置模块,用于配置初始事件抽取模板,其中,所述初始事件抽取模板包括多个事件类型,以及与每个所述事件类型对应的要素角色;构建模块,用于采用样本文本信息训练所述初始事件抽取模板,输出目标事件抽取模板,其中,所述初始事件抽取模板包括事件检测模块和要素抽取模块。

进一步,所述构建模块包括:第一训练单元,用于针对所述样本文本信息中的每个描述文本,将所述描述文本输入所述事件检测模块,输出所述描述文本的事件类型信息,并训练所述事件检测模块;第二训练单元,用于将所述事件类型信息和所述描述文本输入所述要素抽取模块,输出所述描述文本的要素角色信息,并训练所述要素抽取模块。

进一步,所述事件检测模块包括第一单词嵌入层,第一双向编码器表示BERT编码层,第一双向长短记忆模型BiLSTM层以及第一条件随机场CRF层,所述第一训练单元包括:输入子单元,用于将所述描述文本输入所述第一单词嵌入层,获取所述描述文本的文本向量;编码子单元,用于采用所述第一BERT编码层对所述文本向量进行嵌入编码,获得所述描述文本的单词向量矩阵;处理子单元,用于将所述单词向量矩阵输入所述第一BiLSTM层,输出所述描述文本的第一概率矩阵,其中,所述第一概率矩阵包括所述单词向量矩阵中每个单词映射到每个事件类型标签的概率;获取子单元,用于采用所述第一CRF层从所述概率矩阵中获取最优标记,并将所述最优标记确定为所述描述文本的所述事件类型信息。

进一步,所述要素抽取模块包括第二单词嵌入层,第二BERT编码层,第二BiLSTM层以及第二CRF层,所述第二训练单元包括:输入子单元,用于将所述描述文本输入所述第二单词嵌入层,获取所述描述文本的要素向量矩阵;编码子单元,用于针对所述要素向量矩阵中的每个要素向量,采用所述第二BERT编码层对所述要素向量进行嵌入编码,获得事件要素的角色向量矩阵,其中,所述角色向量矩阵包括所述事件要素属于每个要素角色的要素文本位置;处理子单元,用于将所述角色向量矩阵输入所述第二BiLSTM层,输出所述事件要素的第二概率矩阵,其中,所述第二概率矩阵包括所述角色向量矩阵中每个事件要素映射到每个要素角色标签的概率;获取子单元,用于采用所述第二CRF层从所述第二概率矩阵中获取最优标记,并将所述最优标记确定为所述事件要素的要素角色信息。

进一步,所述第二BERT编码层包括多组二类分类器,所述编码子单元还用于:将所述要素向量的每个向量标识token分别输入每组二类分类器,输出所述要素向量的每个标识属于对应要素角色的要素起始字符和终止字符的概率值,其中,每个所述二类分类器对应一个要素角色。

进一步,所述构建模块包括:编码单元,用于采用所述事件检测模块的第一BERT编码层对输入的所述样本文本信息进行编码,输出事件类型信息,训练所述事件检测模块;读取单元,用于读取训练后的所述事件检测模块的模块参数Θ

进一步,所述构建模块还包括:纠错单元,用于在所述第二训练单元输出所述描述文本的要素角色信息之后,响应纠错指令,将所述事件类型信息和所述要素角色信息替换为正确的事件类型信息和正确的要素角色信息;迭代单元,用于将替换后的所述正确的事件类型信息、所述正确的要素角色信息和所述描述文本再次输入所述要素抽取模块,输出所述描述文本的要素角色信息,并继续训练所述要素抽取模块。

根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。

根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。

通过本发明,实现了一种基于事件模板的事件抽取模型,首先能很好地泛化到新的事件类别,其次可以共享事件分类和要素抽取的底层信息,同时避免任务间的错误信息传递,最后能使模型同时关注多个问题与文本的对应关系,实现事件要素的并行抽取,解决了相关技术中的模型抽取事件信息的效率低的技术问题,提高了事件抽取模型的适应性和通用性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种服务器的硬件结构框图;

图2是根据本发明实施例的一种基于终身学习的金融领域事件抽取方法的流程图;

图3是本发明实施例基于终身学习的事件抽取结构图;

图4是本发明实施例基于终身学习的事件抽取流程图;

图5是根据本发明实施例的一种基于终身学习的金融领域事件抽取装置的结构框图;

图6是实施本发明实施例的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本申请实施例一所提供的方法实施例可以在服务器、计算机、手机、或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种服务器的硬件结构框图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构建成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种基于终身学习的金融领域事件抽取方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种基于终身学习的金融领域事件抽取方法,图2是根据本发明实施例的一种基于终身学习的金融领域事件抽取方法的流程图,如图2所示,该流程包括如下步骤:

步骤S202,配置初始事件抽取模板,其中,初始事件抽取模板包括多个事件类型,以及与每个事件类型对应的要素角色;

以金融领域的事件抽取为例,本发明考虑金融领域事件要素的泛化性,在不同的事件类型中,一些要素是通用的,可以直接共享相同的事件要素角色,如:时间、地点等。而有些要素在不同的事件类型中,要素角色名称不同,但性质相似,如上市公司、执行公司等,都属于发动事件的相关组织。所以针对这些特点,本发明构造了一套金融领域的事件抽取模板,通过挖掘角色间耦合来减弱类别间差异化的要素角色,使得相同性质的数据成为共享数据,可以看成每个角色的数据扩充,同时增强相关角色的识别性能。

本发明根据多个公开金融领域事件抽取数据集设计出一个金融领域通用的事件模板,主要根据事件要素与触发词的语法关系划分,覆盖所有的事件类型,数据集包括:“CCKS 2020:面向金融领域的小样本跨类迁移事件抽取”、“CCKS 2020:面向金融领域的篇章级事件主体与要素抽取”、“2020语言与智能技术竞赛:事件抽取任务”和Doc2EDAG模型在github上开源的金融领域数据集。在原事件模板中,不同事件类型对应的要素数不同,而在我们构建的事件抽取模板中的要素角色能够覆盖所有的事件类型下的事件要素。本发明设计的模板共有17个事件种类和13个要素角色,如表2所示:

表2

步骤S204,采用样本文本信息训练初始事件抽取模板,输出目标事件抽取模板,其中,初始事件抽取模板包括事件检测模块和要素抽取模块。

本实施例基于模板的事件抽取包括两个子任务:事件检测和要素抽取,分别对应事件检测模块和要素抽取模块。其中事件检测可以分为触发词识别和事件类型分类两个子任务。要素抽取任务包括事件要素识别和要素角色分类。事件要素识别是判断句子中的每个单词归属的事件类型,要素角色识别任务则是基于特定的事件类型判断句子中给定要素的角色。

通过上述步骤,实现了一种基于事件模板的事件抽取模型,首先能很好地泛化到新的事件类别,其次可以共享事件分类和要素抽取的底层信息,同时避免任务间的错误信息传递,最后能使模型同时关注多个问题与文本的对应关系,实现事件要素的并行抽取,解决了相关技术中的模型抽取事件信息的效率低的技术问题,提高了事件抽取模型的适应性和通用性。

在一个应用场景中,在针对金融领域事件文本进行事件抽取时,将整体模型分成事件检测、要素抽取和终身学习三部分。事件检测和要素抽取均依赖于BERT学习到的特征表示,并且采用BiLSTM学习句子语义信息以及序列位置信息,其中BiLSTM表示双向长短期记忆模型,是一种特殊的循环神经网络。终身学习主要将事件检测从BERT层输出的相关参数输入到要素抽取的BiLSTM层中实现模型的终身学习。

在本实施例中,采用样本文本信息训练初始事件抽取模板包括:

S11,针对样本文本信息中的每个描述文本,将描述文本输入事件检测模块,输出描述文本的事件类型信息,并训练事件检测模块;

在其中一个实施方式中,事件检测模块包括第一单词嵌入层,第一双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)编码层,第一双向长短记忆模型(Bi-directional Long Short-Term Memory,BiLSTM)层以及第一条件随机场(Constant Rate Factor,CRF)层,将描述文本输入事件检测模块,输出描述文本的事件类型信息,包括:将描述文本输入第一单词嵌入层,获取描述文本的文本向量;采用第一BERT编码层对文本向量进行嵌入编码,获得描述文本的单词向量矩阵;将单词向量矩阵输入第一BiLSTM层,输出描述文本的第一概率矩阵,其中,第一概率矩阵包括单词向量矩阵中每个单词映射到每个事件类型标签的概率;采用第一CRF层从概率矩阵中获取最优标记,并将最优标记确定为描述文本的事件类型信息。

以文本“IBM收购红帽公司”为例,事件检测模块的输入为文本信息,输出为文本中事件所属类别,在上述例子中,将会输出事件类别——“收购”。该事件检测模块包括:单词嵌入层、BERT编码层、双向长短记忆模型(BiLSTM)层以及条件随机场(CRF)层。

单词嵌入层用来为文本信息中的每个单词获取在高维空间中的向量表示,则词向量为:

w=(a

其中n表示词向量的维度。则文本可表示为:

W=(w

其中W表示词向量构成的矩阵,m表示句子的长度。然后,这里采用预训练的BERT模型对文本进行嵌入编码,并获取最后一层的隐向量作为每个单词的表示向量。

BERT编码层输出的单词向量矩阵经过BiLSTM模型可以得到更多的语义信息。LSTM是长短时记忆神经网络,输入为向量矩阵,经过下面步骤可以得到隐形层的向量表示:

f

i

g

C

其中,σ代表Sigmoid函数,f、i、g、C分别代表输入门、遗忘门、输出门和最后的Cell。双向长短时记忆神经网络(BiLSTM)则是将一序列分别经过前向LSTM和后向LSTM,从而分别得到前向和后向两种不同的隐层表示h

BiLSTM传输过来的概率矩阵通过条件随机场CRF的方法来获取事件的最优标记。设传入的BiLSTM输出概率矩阵为O

其中,A为转移概率矩阵,

S12,将事件类型信息和描述文本输入要素抽取模块,输出描述文本的要素角色信息,并训练要素抽取模块。

还是以文本“IBM收购红帽公司”为例,要素抽取模块的输入为事件检测模块输出的分类信息以及经过专家评测的文本信息,输出为文本中各个要素对应的角色。上例中,该模块输入为:事件类型“收购”、分词“IBM”、“收购”以及“红帽公司”,输出要素的角色种类为:Sub-org(“IBM”)、trigger(“收购”)、Obj-org(“红帽公司”)。

在给定事件类型的情况下,事件要素抽取即为抽取和与事件类型相关的要素以及这些要素扮演的角色。由于事件的要素大多是较长的名词短语以及角色重叠问题,该发明在BERT上添加了多组二类分类器,每组分类器服务于一个角色以确定所有属于它的要素的范围。该模块同样分为四部分:单词嵌入层、BERT编码层、双向长短记忆模型(BiLSTM)层以及条件随机场(CRF)层。

在其中一个实施方式中,要素抽取模块包括第二单词嵌入层,第二BERT编码层,第二BiLSTM层以及第二CRF层,将事件类型信息和描述文本输入要素抽取模块,输出描述文本的要素角色信息,包括:将描述文本输入第二单词嵌入层,获取描述文本的要素向量矩阵;针对要素向量矩阵中的每个要素向量,采用第二BERT编码层对要素向量进行嵌入编码,获得事件要素的角色向量矩阵,其中,角色向量矩阵包括事件要素属于每个要素角色的要素文本位置;将角色向量矩阵输入第二BiLSTM层,输出事件要素的第二概率矩阵,其中,第二概率矩阵包括角色向量矩阵中每个事件要素映射到每个要素角色标签的概率;采用第二CRF层从第二概率矩阵中获取最优标记,并将最优标记确定为事件要素的要素角色信息。

在一个可选的示例中,第二BERT编码层包括多组二类分类器,采用第二BERT编码层对要素向量进行嵌入编码,获得事件要素的角色向量矩阵,包括:将要素向量的每个向量标识token分别输入每组二类分类器,输出要素向量的每个标识属于对应要素角色的要素起始字符和终止字符的概率值,其中,每个二类分类器对应一个要素角色。

由于要素和角色是分离的,所以一个要素可以扮演多个角色,一个token也可以属于不同的要素。则token t被预测为角色r的要素的start的概率为:

被预测为end的概率为:

其中,下标s表示start,下标e表示end,

将所有二分类器检测要素start的损失函数记为

其中,λ

在本实施例的一个实施方式中,初始事件抽取模板包括事件检测模块和要素抽取模块,采用样本文本信息训练初始事件抽取模板包括:采用事件检测模块的第一BERT编码层对输入的样本文本信息进行编码,输出事件类型信息,训练事件检测模块;读取训练后的事件检测模块的模块参数Θ

在事件抽取过程中可能会发生灾难性遗忘(catastrophic forgetting)的问题,本发明选用的基于模型扩展的终身学习方法实现了知识迁移并避免了遗忘问题。在具体应用中本发明使用渐进式神经网络(progressive networks),主要通过不同神经网络层间的横向连接支持不同任务序列之间进行迁移学习。在事件抽取模型中共有两个子任务,分别为事件检测和要素抽取。事件检测模块的BERT编码层对输入的句子进行编码,经过训练后相关参数记为Θ

其中,

通过终身学习方法,事件检测模块BERT训练后的单词特征被迁移到要素抽取中,使其学习了一定的先验知识,在没有破坏原有任务序列的条件下完成了模型的终身学习。图3是本发明实施例基于终身学习的事件抽取结构图。

在本实施例的一个实施方式中,在输出描述文本的要素角色信息之后,还包括:响应纠错指令,将事件类型信息和要素角色信息替换为正确的事件类型信息和正解的要素角色信息;将替换后的正确的事件类型信息、正确的要素角色信息和描述文本再次输入要素抽取模块,输出描述文本的要素角色信息,并继续训练要素抽取模块。

在事件抽取的整体过程中可能出现两类信息偏差,分别是:事件检测模块中的分类信息以及事件要素抽取模块中的预测信息。由于数据增强是提高模型鲁棒性的一种有效的方法,所以为了增强数据的质量,本发明将错误的分类信息和预测信息通过专家评测模块进行审核,对错误的数据信息进行纠错处理后和正确的数据信息一起再次输入事件要素抽取模块进行训练,在增加了训练数据量的同时也增多了噪声数据,提高了模型的鲁棒性。

事件抽取模型在进行事件检测和要素抽取的反馈输入后,为了提高抽取模型的泛化能力,需要及时更新模板,包括增加事件类型以及在特定事件类型中增加事件角色等,这里以第二种方式为例。例如,在现有事件抽取模板的“投资”事件类型中,一共设置了7类事件角色,分别为:“触发词”、“个人投资方”、“投资组织”、“个人被投资方”、“被投资组织”、“投资金额”以及“日期”,而在示例“运匠科技完成5000万元A轮融资,星路资本领投,红榕资本跟投”中,通过事件检测可提取出事件类型为“投资”,通过要素抽取模块可得到:事件角色中“投资组织”为“运匠科技”,“投资金额”为“5000万元”,但是“A轮”、“星路资本”与“红榕资本”缺少角色标注,故增加事件角色:“投资轮次”为“A轮”,“领投组织”为“星路资本”,“跟投组织”为“红榕资本”。即输出的更新模板中“投资”类事件的角色有:“触发词”、“个人投资方”、“投资组织”、“个人被投资方”、“被投资组织”、“投资金额”、“日期”、“投资轮次”、“领投组织”和“跟投组织”。

该发明通过事件模板的设计更新,不断提高模型对不同数据的适应性,增强了事件抽取模型的准确度。

以“9月25日消息,动图传播媒体平台“动图宇宙”宣布已于近日完成五千万元B轮融资,由浙大联创领投,杭州青创跟投”为例,事件检测以及要素抽取结果如下表3所示:

表3

经过专家审核,“动图宇宙”应为“obj-org”(被投资组织),被误识别为“sub-org”(投资组织),“B轮融资”、“浙大联创”以及“杭州青创”在事件抽取模板的“投资”类事件中没有明确的对应要素,故在“投资”类事件中增加“number”要素作为投资轮次,在事件抽取模板中增加“fol-org”(事件第二发起者)要素,并将其添加进“投资”事件抽取要素中。最后将调整正确的示例分类及要素作为事件要素抽取模块的输入进行训练。

在“亿欧教育6月24日消息,奥创熊少儿编程已于去年年底完成千万级Pre-A轮融资,本轮融资由紫金港资本领投,华岩资本和青锐创投跟投”事件中,事件检测以及要素抽取结果如下表4所示:

表4

上述预测结果经过专家审核基本无误,同样再次通过事件要素抽取模块进行重复训练。

图4是本发明实施例基于终身学习的事件抽取流程图,本实施例构建了适用金融领域在内的相关事件要素的事件抽取模板,基于该模板提出应用模型扩展的终身学习事件抽取方法,包括事件检测和要素抽取两个阶段。最后通过专家反馈进行数据纠错和模板设计的更新。包括,构建金融领域事件抽取模板,基于终身学习的事件抽取方法,基于专家反馈的模型增强。

由于信息技术的快速发展,如何快速大量地从文本中挖掘出事件的关键信息并进行结构化展示成了亟需解决的问题。因此,事件抽取应运而生。其中金融领域事件抽取对投资者快速获取市场信息,进而做出正确决策有着重要的意义。通过构建金融领域事件要素的事件抽取模板实现事件分类和事件要素抽取,首先能很好地泛化到新的事件类别,其次可以共享事件分类和要素抽取的底层信息,同时避免任务间的错误信息传递,最后能使模型同时关注多个问题与文本的对应关系,实现事件要素的并行抽取。

通过将基于模型扩展的终身学习方法应用到事件抽取模型中,提高了模型对于知识的记忆能力,使其在任务训练过程中将新知识不断整合进原有知识中,从而在新的抽取任务中能够保持较高的准确率。

在事件要素抽取完成后,需要将预测结果反馈回要素抽取模块以提高模型的鲁棒性。本发明主要通过两方面实现模型增强:一是将通过专家审核后确认为预测错误的事件要素进行纠错后和预测正确的要素一起再次作为要素抽取模块的输入;二是通过事件类型检测和专家审核后的要素抽取结果实现事件抽取模板的自动更新。数据和事件模板的反馈更新帮助构建更完备的要素模板,为事件抽取提供了更加可靠的保证。

本实施例设计了一套基于金融领域事件模板的事件抽取模型,并应用了基于模型扩展的终身学习方法和基于专家反馈的模型增强,实现了抽取模型对于知识的记忆和事件模板的自动更新,为事件要素的准确抽取提供了有力支撑。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种基于终身学习的金融领域事件抽取装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种基于终身学习的金融领域事件抽取装置的结构框图,如图5所示,该装置包括:配置模块50,构建模块52,其中,

配置模块50,用于配置初始事件抽取模板,其中,所述初始事件抽取模板包括多个事件类型,以及与每个所述事件类型对应的要素角色;

构建模块52,用于采用样本文本信息训练所述初始事件抽取模板,输出目标事件抽取模板,其中,所述初始事件抽取模板包括事件检测模块和要素抽取模块。

可选的,所述构建模块包括:第一训练单元,用于针对所述样本文本信息中的每个描述文本,将所述描述文本输入所述事件检测模块,输出所述描述文本的事件类型信息,并训练所述事件检测模块;第二训练单元,用于将所述事件类型信息和所述描述文本输入所述要素抽取模块,输出所述描述文本的要素角色信息,并训练所述要素抽取模块。

可选的,所述事件检测模块包括第一单词嵌入层,第一双向编码器表示BERT编码层,第一双向长短记忆模型BiLSTM层以及第一条件随机场CRF层,所述第一训练单元包括:输入子单元,用于将所述描述文本输入所述第一单词嵌入层,获取所述描述文本的文本向量;编码子单元,用于采用所述第一BERT编码层对所述文本向量进行嵌入编码,获得所述描述文本的单词向量矩阵;处理子单元,用于将所述单词向量矩阵输入所述第一BiLSTM层,输出所述描述文本的第一概率矩阵,其中,所述第一概率矩阵包括所述单词向量矩阵中每个单词映射到每个事件类型标签的概率;获取子单元,用于采用所述第一CRF层从所述概率矩阵中获取最优标记,并将所述最优标记确定为所述描述文本的所述事件类型信息。

可选的,所述要素抽取模块包括第二单词嵌入层,第二BERT编码层,第二BiLSTM层以及第二CRF层,所述第二训练单元包括:输入子单元,用于将所述描述文本输入所述第二单词嵌入层,获取所述描述文本的要素向量矩阵;编码子单元,用于针对所述要素向量矩阵中的每个要素向量,采用所述第二BERT编码层对所述要素向量进行嵌入编码,获得事件要素的角色向量矩阵,其中,所述角色向量矩阵包括所述事件要素属于每个要素角色的要素文本位置;处理子单元,用于将所述角色向量矩阵输入所述第二BiLSTM层,输出所述事件要素的第二概率矩阵,其中,所述第二概率矩阵包括所述角色向量矩阵中每个事件要素映射到每个要素角色标签的概率;获取子单元,用于采用所述第二CRF层从所述第二概率矩阵中获取最优标记,并将所述最优标记确定为所述事件要素的要素角色信息。

可选的,所述第二BERT编码层包括多组二类分类器,所述编码子单元还用于:将所述要素向量的每个向量标识token分别输入每组二类分类器,输出所述要素向量的每个标识属于对应要素角色的要素起始字符和终止字符的概率值,其中,每个所述二类分类器对应一个要素角色。

可选的,所述构建模块包括:编码单元,用于采用所述事件检测模块的第一BERT编码层对输入的所述样本文本信息进行编码,输出事件类型信息,训练所述事件检测模块;读取单元,用于读取训练后的所述事件检测模块的模块参数Θ

可选的,所述构建模块还包括:纠错单元,用于在所述第二训练单元输出所述描述文本的要素角色信息之后,响应纠错指令,将所述事件类型信息和所述要素角色信息替换为正确的事件类型信息和正确的要素角色信息;迭代单元,用于将替换后的所述正确的事件类型信息、所述正确的要素角色信息和所述描述文本再次输入所述要素抽取模块,输出所述描述文本的要素角色信息,并继续训练所述要素抽取模块。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

S1,配置初始事件抽取模板,其中,所述初始事件抽取模板包括多个事件类型,以及与每个所述事件类型对应的要素角色;

S2,采用样本文本信息训练所述初始事件抽取模板,输出目标事件抽取模板,其中,所述初始事件抽取模板包括事件检测模块和要素抽取模块。

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,配置初始事件抽取模板,其中,所述初始事件抽取模板包括多个事件类型,以及与每个所述事件类型对应的要素角色;

S2,采用样本文本信息训练所述初始事件抽取模板,输出目标事件抽取模板,其中,所述初始事件抽取模板包括事件检测模块和要素抽取模块。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

图6是本发明实施例的一种电子设备的结构图,如图6所示,包括处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信,存储器63,用于存放计算机程序;处理器61,用于执行存储器63上所存放的程序。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 基于终身学习的金融领域事件抽取方法及装置
  • 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
技术分类

06120113677910