掌桥专利:专业的专利平台
掌桥专利
首页

事件抽取方法、装置、设备及介质

文献发布时间:2023-06-19 19:28:50


事件抽取方法、装置、设备及介质

技术领域

本发明涉及数据处理技术领域,尤其涉及一种事件抽取方法、装置、设备及介质。

背景技术

随着科技的不断发展,海量数据涌入人们的生活。为了快速处理大规模数据,挖掘数据中具有潜在价值的信息,人们对于信息抽取技术的需求日益增长。事件抽取是非结构化的文本中检测事件的发生,判断事件的类型,将参与事件的重要元素抽取出来,并将结果以结构化的方式呈现。

现有技术中,事件抽取往往是通过要先识别触发词,之后再基于触发词进行事件抽取。但是,在许多文本中,事件触发词存在难以识别或者存在歧义的情况,因此,一旦触发词识别不准确则导致最终的事件抽取准确率降低。

发明内容

本发明实施例提供一种事件抽取方法、装置、设备及介质,以解决现有技术中事件抽取的效率低以及准确性低的问题。

一种事件抽取方法,包括:

获取至少一个待抽取文本,通过预设事件编码模型对所有所述待抽取文本进行编码,得到与各所述待抽取文本对应的待抽取向量;

获取标签分类模型,通过所述标签分类模型对所有所述待抽取向量进行事件识别,得到与各所述待抽取文本对应的事件标签;

获取事件抽取模型,通过所述事件抽取模型中的编码端分别将所有所述事件标签编码至与各所述事件标签对应的所述待抽取文本中,得到与各所述事件标签对应的目标文本向量;

通过所述事件抽取模型中的解码端对所有所述目标文本向量进行事件主体识别,得到与各所述目标文本向量对应的事件文本。

一种事件抽取装置,包括:

文本编码模块,用于获取至少一个待抽取文本,通过预设事件编码模型对所有所述待抽取文本进行编码,得到与各所述待抽取文本对应的待抽取向量;

事件识别模块,用于获取标签分类模型,通过所述标签分类模型对所有所述待抽取向量进行事件识别,得到与各所述待抽取文本对应的事件标签;

事件融合模块,用于获取事件抽取模型,通过所述事件抽取模型中的编码端分别将所有所述事件标签编码至与各所述事件标签对应的所述待抽取文本中,得到与各所述事件标签对应的目标文本向量;

事件抽取模块,用于通过所述事件抽取模型中的解码端对所有所述目标文本向量进行事件主体识别,得到与各所述目标文本向量对应的事件文本。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述事件抽取方法。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述事件抽取方法。

本发明提供一种事件抽取方法、装置、设备及介质,该方法通过预设事件编码模型对待抽取文本进行编码,从而实现了对待抽取向量的获取,进而提高了后续事件识别的准确性。通过标签分类模型对待抽取向量进行事件识别,即通过BIO标签对待抽取向量的事件进行识别,从而实现了对事件标签的获取,进而提高了事件识别的准确性。通过事件抽取模型将所述事件标签编码至待抽取文本中,从而实现了对目标文本向量的获取。通过事件抽取模型对目标文本向量进行主体识别,即根据事件标签对目标文本向量中的事件主体进行识别,从而实现了对事件文本的获取,进而实现了无需触发词对事件的抽取,进一步减少了对触发词的依赖,降低了对于触发词标注的需求,提高了事件抽取的准确率,提高了事件抽取效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中事件抽取方法的应用环境示意图;

图2是本发明一实施例中事件抽取方法的流程图;

图3是本发明一实施例中事件抽取方法步骤S30的流程图;

图4是本发明一实施例中事件抽取方法步骤S40的流程图;

图5是本发明一实施例中事件抽取装置的原理框图;

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的事件抽取方法,该事件抽取方法可应用如图1所示的应用环境中。具体地,该事件抽取方法应用在事件抽取装置中,该事件抽取装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中事件抽取的效率低以及准确性低的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。

在一实施例中,如图2所示,提供一种事件抽取方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:

S10:获取至少一个待抽取文本,通过预设事件编码模型对所有所述待抽取文本进行编码,得到与各所述待抽取文本对应的待抽取向量。

可理解地,待抽取文本可以通过爬虫技术从不同的数据库中采集得到,也可以是由用户从客户端发送到服务器中的。待抽取文本为需要进行事件抽取的文本,例如,某些新闻需要抽取事件当做标题,或者从金融行业信息抽取出金融事件等。预设事件编码模型为通用的transformer类型的模型,如bert模型等。待抽取向量为通过预设事件编码模型对待抽取文本进行编码得到的。

具体地,从数据库中调取预设事件编码模型,在本实施例中预设事件编码模型采用bert模型对待抽取文本进行编码,也即通过预设事件编码模型对待抽取文本进行分词处理,以将待抽取文本拆分为多个单词。先在拆分得到每句内容的所有单词之前添加CLS标志位,代表该句内容的整体语义的标识。并分别在从该待抽取文本拆分得到每句内容的所有单词之后添加SEP标志位,作为分隔标识,形成一个输入向量。进一步的,通过预设事件编码模型依次对输入向量进行注意力处理,从而得到与各输入向量对应的注意力向量。并通过预测层对所有注意力向量进行概率预测,从而得到与各待抽取文本对应的待抽取向量。

S20:获取标签分类模型,通过所述标签分类模型对所有所述待抽取向量进行事件识别,得到与各所述待抽取文本对应的事件标签。

可理解地,标签分类模型记为多标签分类器,通过BIO标签对待抽取向量中的事件进行标注。事件标签用于表征待抽取文本中的事件。

具体地,得到与所述待抽取文本对应的待抽取向量之后,调取标签分类模型,将所有待抽取向量输入到标签分类模型中,通过标签分类模型分别对各个待抽取向量进行事件识别,即采用BIO标签对待抽取向量中的事件进行识别,也即通过B标签对待抽取向量中事件的开始字进行标注,I标签对该事件除开始字外的内容进行标注,O标签对不属于待抽取向量中事件的内容进行标注。然后根据同一待抽取文本对应的B标签、I标签和O标签,确定该待抽取文本中的事件标签。其中,当一个待抽取文本包括多个事件时,则依次对所有事件进行预测,也即对每个事件的开始字用B标签进行标注,除开始字外的内容用I标签进行标注,非该事件的内容采用O标签标注,然后将同一事件对应的B标签、I标签和O标签进行融合处理,从而得到与各事件对应的事件标签。

S30,获取事件抽取模型,通过所述事件抽取模型中的编码端分别将所有所述事件标签编码至与各所述事件标签对应的所述待抽取文本中,得到与各所述事件标签对应的目标文本向量。

可理解地,事件抽取模型为transformer模型,该模型用于对目标文本向量进行事件主体抽取。目标文本向量包括事件标签和待抽取文本,即对事件标签和待抽取文本进行融合得到的。事件抽取模型包括编码端和解码端,编码端包括输入层、注意力层和输出层,解码端包括线性变换层和预测层。

具体地,在得到与各待抽取文本对应的事件标签后,调取事件抽取模型,将与各待抽取文本对应的所有事件标签和所有待抽取文本均输入到事件抽取模型中,事件抽取模型分别对与各待抽取文本对应的事件标签和待抽取文本进行编码,与各事件标签对应的标签向量,以及与各待抽取文本对应的文本向量。接着,通过事件抽取模型的编码端注意力层分别对同一待抽取文本对应的标签向量和文本向量进行注意力处理,也即将与各事件标签对应的标签向量编码至与各待抽取文本对应的文本向量中,从而得到与各待抽取文本对应的融合向量。然后通过事件抽取模型的编码端全连接层分别对与各待抽取文本对应的融合向量进行预测处理,得到与各事件标签对应的目标文本向量。

S40:通过所述事件抽取模型中的解码端对所有所述目标文本向量进行事件主体识别,得到与各所述目标文本向量对应的事件文本。

可理解地,事件文本为待抽取文本中事件的主体,例如,事件标签为股票下跌,则事件文本为腾讯;或者事件标签为刹车失灵,则事件文本为特斯拉;亦或者事件标签为股票上涨,则事件文本为中国平安等。

具体地,在得到所有目标文本向量之后,通过事件抽取模型中的解码端分别对所有目标文本向量进行事件主体识别,即根据目标文本向量中的事件标签和CLS标志位及SEP标志位对事件主体进行抽取。也即通过事件抽取模型中的解码端线性变换层分别对所有目标文本向量进行转换处理,得到与各目标文本向量对应的转换向量。通过事件抽取模型中的解码端预测层分别对所有转换向量进行识别抽取,从而得到与各待抽取文本对应的事件文本。

在本发明实施例中的一种事件抽取方法,该方法通过预设事件编码模型对待抽取文本进行编码,从而实现了对待抽取向量的获取,进而提高了后续事件识别的准确性。通过标签分类模型对待抽取向量进行事件识别,即通过BIO标签对待抽取向量的事件进行识别,从而实现了对事件标签的获取,进而提高了事件识别的准确性。通过事件抽取模型将所述事件标签编码至待抽取文本中,从而实现了对目标文本向量的获取。通过事件抽取模型对目标文本向量进行主体识别,即根据事件标签对目标文本向量中的事件主体进行识别,从而实现了对事件文本的获取,进而实现了无需触发词也可以对事件进行抽取,进一步减少了对触发词的依赖,降低了对于触发词标注的需求,提高了事件抽取的准确率,提高了事件抽取效率。

在一实施例中,步骤S10中,也即获取至少一个待抽取文本,包括:

S101,获取至少一个初始文本,分别对所有所述初始文本进行切词处理,得到与各所述初始文本对应的至少一个待处理字词。

可理解地,待处理字词为对所述待抽取文本切分后的结果。切词结果为切分后得到的待处理字词,有向无环图为无回路、有方向的图。

具体地,获取初始文本之后,通过中文分词算法对初始文本进行切词处理,根据上下文特征的联系将初始文本进行全切分路径选择切词,得到与初始文本对应的至少一个待处理字词,全切分路径选择切词过程为将所有可能的切词结果全部列出来,从中选择最佳的切分路径,并将所有的切词结果组成有向无环图,可以通过将切词结果作为节点,词和词之间的边赋予权重,找到权重和最小的路径即为最终结果,比如可以通过词频作为权重,找到一条总词频最大的路径即可认为是最佳路径。

S102,对所有所述待处理字词进行词性标注以及实体识别,得到与各所述待处理字词对应的实体识别结果。

可理解地,实体识别模型可以通过采用有标签的文本对如基于神经网络构建的模型进行有监督训练得到。词性标注为给字词设置词类标签,实体识别为从待抽取文本中提取出实体信息的过程。实体识别结果为从待抽取文本中提取出的实体信息。

具体地,对所有待处理字词进行词性标注,给每个词或者词语打词类标签,如形容词、动词、名词等,可以让待处理字词在后面的处理中融入更多有用的信息。将对每个待处理字词进行词性标注后的初始文本输入到实体识别模型中,通过实体识别模型对初始文本进行实体识别。如根据各个待处理字词的词性辅助确定每一待处理字词的实体类型,进而将实体类型确定为实体识别结果,即根据上下文特征、句子及字词的词性之间的联系,从给定的待抽取文本中抽取重要的实体信息,比如时间或地点等等,时间即可以为时间实体、地点即可以为地点实体等。

S103,根据同一所述初始文本中与各所述待处理字词对应的实体识别结果,对所有所述初始文本进行字词过滤,得到至少一个所述待抽取文本。

具体地,在得到与各待处理字词对应的实体识别结果后,通过预先设定好的词典库对所有实体识别结果中的停用词和语气词等噪音词语进行过滤,即对初始文本中的噪音词进行过滤删除,将过滤后得到的所有实体识别结果整理成所述待抽取文本。其中,停用词删除是根据具体场景来决定的,比如在一些待抽取文本中,因为语气词、感叹号对表示语气程度、感情色彩有一定的意义,应该保留的。

本发明实施例通过对初始文本进行切词处理,实现了实现了对初始文本的划分。通过词性编码表实现了对待处理字词进行词性标注,从而实现了对实体识别结果的获取。通过实体识别结果实现了对初始文本中实体信息的提取,通过过滤处理实现了对初始文本中没有作用的字词进行删除,从而实现了对待抽取文本的获取,进一步提高了后续事件抽取的准确性。

在一实施例中,步骤S10中,也即预设事件编码模型对所有所述待抽取文本进行编码,得到与各所述待抽取文本对应的待抽取向量,包括:

S106,通过所述预设事件编码模型的输入层对所述待抽取文本进行预处理,得到嵌入向量。

可理解地,嵌入向量为对待抽取文本进行编码得到的。

具体地,获取预设事件编码模型,将所有待抽取文本均输入到预设事件编码模型中,通过预设事件编码模型的输入层对待抽取文本进行预处理,也即通过预设事件编码模型分别对所有待抽取文本进行编码处理。先通过编码层对所有待抽取文本进行分词处理,再在所有单词之前添加CLS标志位,作为代表该待抽取文本的整体语义的标识,并在所有单词之后添加SEP标志位,作为分隔标识,形成一个输入向量。对该输入向量中的各个单词、CLS标志位和SEP标志位进行向量化处理,以得到与各个单词对应的词向量、与CLS标志位对应的标志向量和SEP标志位对应的标志向量,并通过学习对每个词向量添加对应的位置向量。再对同一待抽取文本对应的所有词向量、位置向量和标志向量进行拼接,从而得到与待抽取文本对应的嵌入向量。

S107,通过所述预设事件编码模型的注意力层对所述嵌入向量进行注意力处理,得到注意力向量。

S108,通过所述预设事件编码模型的全连接层对所述注意力向量进行预测处理,得到与所述待抽取文本对应的待抽取向量。

可理解地,注意力向量为对嵌入向量进行注意力处理得到的。待抽取向量为待抽取文本的向量化表示。

具体地,在得到嵌入向量之后,通过多组注意力机制对所有嵌入向量进行处理,也即通过多组注意力机制对嵌入向量的Q向量,K向量,V向量进行计算,也即使用点积法目标词向量之间的相关性得分,即用Q中每一个目标词向量与K中每一个目标词向量计算点积,并对对于输入序列中目标词向量之间的相关性得分进行归一化。然后通过softmax函数,将目标词向量之间的得分向量转换成[0,1]之间的概率分布,并根据目标词向量之间的概率分布,然后乘上对应的Values值,得到注意力结果。最后将不同组的注意力结果拼接起来,得到组合向量。对组合向量进行归一化处理,得到归一组合向量,避免经过多层注意力处理向量发生退化。进一步地,再通过全连接层中的前反馈神经网络对归一组合向量进行非线性变换,并对归一组合向量进行激活处理,得到激活组合向量。对激活组合向量进行残差处理,并重复多个编码层过程,即可得到与所述待抽取文本对应的待抽取向量。

本发明实施例通过预设事件编码模型对待抽取文本进行编码处理,从而实现了对待抽取文本中各个字词的向量化,进而实现了对嵌入向量的获取。再通过预设事件编码模型对待抽取向量进行注意力处理,从而实现了对待抽取向量的获取,进而提高了后续事件识别的准确性。

在一实施例中,步骤S20中,也即获取标签分类模型,包括:

S201,获取样本训练数据集,所述样本训练数据集包括至少一个样本训练数据;一个所述样本训练数据关联一个样本标签。

可理解地,样本训练数据为用于训练模型的文本。样本训练数据可以通过爬虫技术从不同的网站上采集得到,亦或者从不同的数据库中采集得到,也可以是由用户从客户端发送到服务器中的,进而根据获取的所有样本训练数据构建样本训练数据集。对每一个样本训练数据设置一个样本标签,该样本标签用于表征样本训练数据中的事件。

S202,获取预设训练模型,通过所述预设训练模型对所述样本训练数据进行预测处理,得到预测标签。

可理解地,预设训练模型为提前设置用于对样本训练数据进行风格迁移的模型。预测标签为通过预设训练模型对样本训练数据进行事件识别得到的。

具体地,在得到样本训练数据和样本标签之后,将样本训练数据和样本标签输入到预设训练模型中,通过预设训练模型对样本训练数据进行预测,即采用BIO标签对样本训练数据中的事件进行识别,也即通过B标签对样本训练数据中事件的开始字进行标注,I标签对该事件除开始字外的内容进行标注,O标签对不属于该事件的内容进行标注。然后根据同一待抽取文本对应的B标签、I标签和O标签进行融合处理,从而得到预测标签。其中,当一个样本训练数据包括多个事件时,则依次对所有事件进行预测,也即根据每组B标签、I标签和O标签,确定对各事件的预测结果,并对预测结果进行校验,避免因存在多个事件导致标签融合错误,从而得到与各事件对应的预测标签。

S203,根据同一所述样本训练数据对应的所述样本标签以及所述预测标签,确定所述预设训练模型的预测损失值。

可理解地,预测损失值为对样本训练数据的预测标签进行预测的过程中生成的,用于表征样本标签和预测标签之间的差值。

具体地,在得到预测标签之后,将样本训练数据对应的所有样本标签按照样本训练数据集中样本训练数据的顺序进行排列,进而将样本训练数据关联的预测标签,与序列相同的样本训练数据的样本标签进行比较;也即按照样本训练数据排序,将位于第一的样本训练数据对应的样本标签,与位于第一的样本训练数据对应的预测标签进行比较,通过损失函数确定样本标签与预测标签之间的损失值;进而将位于第二的样本训练数据对应的样本标签,与位于第二的样本训练数据对应的预测标签进行比较,直至所有样本标签与预测标签均比较完成,即可确定预设训练模型的预测损失值。

S204,在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设训练模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设训练模型记录为标签分类模型。

可理解地,该收敛条件可以为预测损失值小于设定阈值的条件,也即在预测损失值小于设定阈值时,停止训练;收敛条件还可以为预测损失值经过了500次计算后值为很小且不会再下降的条件,也即预测损失值经过500次计算后值很小且不会下降时,停止训练,将收敛之后的预设训练模型记录为标签分类模型。

具体地,确定样本训练数据的预测损失值之后,在预测损失值未达到预设的收敛条件时,根据该预测损失值调整预设训练模型的初始参数,并将所有样本训练数据重新输入至调整初始参数后的预设训练模型中,以在样本训练数据的预测损失值达到预设的收敛条件时,选取样本训练数据集中其它的样本训练数据,并执行上述步骤S201至S203,并得到与调整初始参数的预设训练模型相对应的预测损失值,并在该预测损失值未达到预设的收敛条件时,根据该预测损失值再次调整预设训练模型的初始参数,使得再次调整初始参数的预设训练模型的预测损失值达到预设的收敛条件。

如此,在通过所有样本训练数据对预设训练模型进行训练之后,使得预设训练模型输出的结果可以不断向准确地结果靠拢,让预测准确率越来越高,直至所有样本训练数据的预测损失值均达到预设的收敛条件时,将收敛之后的预设训练模型记录为标签分类模型。

本发明实施例通过大量的样本训练数据对预设训练模型进行训练,并通过预设损失函数确定预测标签和样本标签之间的预测损失值。根据预测损失值对预设训练模型的初始参数进行调整,直至模型收敛,从而实现了对标签分类模型的获取,进而确保了标签分类模型有较高的预测准确率。

在一实施例中,步骤S20中,也即通过所述标签分类模型对所有所述待抽取向量进行事件识别,得到与各所述待抽取文本对应的事件标签,还包括:

S205,将所述待抽取向量输入至所述标签分类模型中,通过所述标签分类模型对所述待抽取向量进行标签预测,得到至少一个事件识别文本。

S206,对与同一所述待抽取向量对应的所有所述事件识别文本进行融合,得到与所述待抽取文本对应的所述事件标签。

可理解地,事件识别文本为与各个标签对应的内容或字词。

具体地,在得到与所述待抽取文本对应的待抽取向量之后,调取标签分类模型,将所有待抽取向量输入到标签分类模型中,通过标签分类模型分别对待抽取向量中的嵌入向量进行标签预测,也即标签分类模型从待抽取向量中第一个嵌入向量进行标签预测,当预测到事件时,采用B标签对该事件的第一个字对应的向量进行标注,并在该事件的第一个字前增加标识CLS,重新对待抽取向量进行划分。接着对该事件后的非事件内容进行预测,当预测到非该事件的第一个字对应的向量时,采用O标签进行标注,然后对该事件除第一个外的其他向量采用I标签进行标注,得到与各标签对应的事件识别文本,从而即可得到与待抽取文本对应的至少一个事件识别文本。进一步地,对一个待抽取向量预测完成后,根据待抽取向量中的标识CLS、B标签、I标签和O标签对应的事件识别文本对事件进行抽取,也即将标识CLS、B标签、I标签和O标签对应的事件识别文本进行融合,从而得到与各待抽取文本对应的事件标签。

在一实施例中,当一个待抽取文本存在多个事件时,将待抽取向量中的标识CLS、B标签、I标签和O标签确定为组合标签,对待抽取文本中所有组合标签对应的内容进行抽取,从而即可得到该待抽取文本中的所有事件标签。例如,找到第一个事件在待抽取向量中对应的BIO标签,将第一个事件的开始字对应的标签确定B标签,则将待抽取向量中第一个事件的开始字后面连续标签为I标签的字取出,直到出现O标签时结束,取出B标签对应的字拼接在所述第一个待抽取向量的开始字后面,作为抽取得到的第一个事件标签。然后找到第二个事件在待抽取向量中对应的BIO标签,将第二个事件的开始字对应的标签确定B标签,则将待抽取向量中第二个事件的开始字后面连续标签为I标签的字取出,直到出现O标签时结束,取出B标签对应的字拼接在第二个事件的开始字后面,作为抽取得到的第二个事件标签。

本发明实施例通过标签分类模型对待抽取向量进行标签预测,从而实现了对事件识别文本的获取。通过将与同一待抽取向量对应的所有事件识别文本进行融合,从而实现了对事件标签的获取,进而提高了后续事件抽取的准确率和效率,进一步实现了后续无需触发词对事件主体的抽取。

在一实施例中,如图3所示,步骤S30中,也即通过所述事件抽取模型中的编码端分别将所有所述事件标签编码至与各所述事件标签对应的所述待抽取文本中,得到与各所述事件标签对应的目标文本向量,包括:

S301,通过所述输入层分别对所述事件标签和所述待抽取文本进行编码处理,得到与所述事件标签对应的标签向量,以及与所述待抽取文本对应的文本向量。

可理解地,标签向量用于表征事件标签,通过事件抽取模型的编码端输入层对事件标签进行编码得到的。文本向量用于表征待抽取文本,通过事件抽取模型的编码端输入层对待抽取文本进行编码得到的。

具体地,在得到事件标签之后,获取事件抽取模型,将事件标签和待抽取文本一同输入到事件抽取模型中,先通过事件抽取模型的编码端输入层分别对所有待抽取文本和事件标签进行分词处理,再在所有单词之前添加CLS标志位,作为代表该待抽取文本和事件标签的整体语义的标识。并在所有单词之后添加SEP标志位,作为分隔标识,形成一个输入向量。对该输入向量中的各个单词、CLS标志位和SEP标志位进行向量化处理,以得到与各个单词对应的词向量、与CLS标志位对应的标志向量和SEP标志位对应的标志向量,并通过事件抽取模型对每个词向量添加对应的位置向量,从而得到与事件标签对应的标签向量,以及与待抽取文本对应的文本向量。

S302,通过所述注意力层对所述标签向量和所述文本向量进行注意力处理,得到融合向量。

S303,通过所述输出层对所述融合向量进行预测处理,得到所述目标文本向量。

具体地,在得到与事件标签对应的标签向量,以及与待抽取文本对应的文本向量之后,通过事件抽取模型的编码端注意力层对标签向量和文本向量进行注意力处理,即通过多组注意力机制对所有标签向量和文本向量进行注意力处理,也即通过多组注意力机制分别对标签向量和文本向量的Q向量,K向量,V向量进行计算,得到与标签向量对应的标签注意力结果和与文本向量对应的文本注意力结果。分别将不同组的标签注意力结果或不同组的文本注意力结果拼接起来,得到标签组合向量和文本组合向量。对标签组合向量和文本组合向量进行归一化处理,得到归一标签组合向量和归一文本组合向量,避免经过多层注意力处理向量发生退化。根据CLS标志位和SEP标志位将同一待抽取文本对应的激活标签组合向量和标准文本组合向量进行拼接,从而得到融合向量。进一步地,再通过全连接层中的前反馈神经网络对融合向量进行非线性变换,并对融合向量进行激活处理,得到激活融合向量。再经过残差处理,并重复多个编码层过程,即可得到目标文本向量。

本发明实施例通过事件抽取模型分别对事件标签和待抽取文本进行编码,从而实现了对标签向量和文本向量的获取。通过事件抽取模型对标签向量和文本向量进行注意力处理,从而实现了对目标文本向量的获取,进而提高了后续事件抽取的准确率。

在一实施例中,如图4所示,步骤S40中,也即通过所述事件抽取模型中的解码端对所有所述目标文本向量进行事件主体识别,得到与各所述目标文本向量对应的事件文本,包括:

S401,通过所述线性变换层对所有所述目标文本向量进行转换处理,得到与各所述目标文本向量对应的转换向量。

S402,通过所述预测层对所有所述转换向量进行识别抽取,得到与各所述待抽取文本对应的事件文本。

可理解地,转换向量为多维向量,通过线性变换层对目标文本向量进行转换得到。事件文本为目标文本向量中与事件标签对应的事件主体。

具体地,在得到所有目标文本向量之后,通过事件抽取模型中的解码端线性变换层对所有目标文本向量进行转换处理,也即通过线性变换层分别将所有目标文本向量转换为多维向量,又因采用BIO标签因此转换为3维向量。然后通过事件抽取模型中的解码端预测层分别对所有转换向量进行识别抽取,即可得到与各所述待抽取文本对应的事件文本。其中,损失函数采用交叉熵损失函数。解码过程与编码过程相似,在每个单独的解码层和编码层相比,在注意力层中和全连接层之间增加了编码解码注意力层,用于计算当前相似模板向量和地址模板向量之间的关系。解码层中第一层是预测多组注意力层,使用掩码的原因是因为在预测句子的时候,当前时刻是不能获取未来时刻信息的。第二层与编码层相同,但Q向量,K向量,V向量的来源不同,Q向量来源于上一层解码层的输出,而K向量,V向量来源于最后一层编码层的输出。后续几层与编码层相同,在此不在赘述。最后通过一个线性层和一个预测层(softmax层)完成最后输出,即可得到事件文本。

本发明实施例通过事件抽取模型中的解码端对所有目标文本向量进行转换处理,从而实现了将目标文本向量转为多维向量。通过softmax层对多维向量进行事件主体预测,从而实现了对事件文本的获取,进而实现了无需触发词即可事件抽取,提高了事件抽取的准确率,进一步减少了对触发词的依赖,降低了对于触发词标注的需求,提高了事件抽取效率。

应理解,上述实施例中各步骤的序号的大小并不意味着执的行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一实施例中,提供一种事件抽取装置,该事件抽取装置与上述实施例中事件抽取方法一一对应。如图5所示,该事件抽取装置包括文本编码模块11、事件识别模块12、事件融合模块13和事件抽取模块14。各功能模块详细说明如下:

文本编码模块11,用于获取至少一个待抽取文本,通过预设事件编码模型对所有所述待抽取文本进行编码,得到与各所述待抽取文本对应的待抽取向量;

事件识别模块12,用于获取标签分类模型,通过所述标签分类模型对所有所述待抽取向量进行事件识别,得到与各所述待抽取文本对应的事件标签;

事件融合模块13,用于获取事件抽取模型,通过所述事件抽取模型中的编码端分别将所有所述事件标签编码至与各所述事件标签对应的所述待抽取文本中,得到与各所述事件标签对应的目标文本向量;

事件抽取模块14,用于通过所述事件抽取模型中的解码端对所有所述目标文本向量进行事件主体识别,得到与各所述目标文本向量对应的事件文本。

在一实施例中,所述文本编码模块11包括:

切词单元,用于获取至少一个初始文本,分别对所有所述初始文本进行切词处理,得到与各所述初始文本对应的至少一个待处理字词;

标注单元,用于对所有所述待处理字词进行词性标注以及实体识别,得到与各所述待处理字词对应的实体识别结果;

过滤单元,用于根据同一所述初始文本中与各所述待处理字词对应的实体识别结果,对所有所述初始文本进行字词过滤,得到至少一个所述待抽取文本。

在一实施例中,所述文本编码模块11还包括:

编码模块,用于通过所述预设事件编码模型的输入层对所述待抽取文本进行预处理,得到嵌入向量;

注意力模块,用于通过所述预设事件编码模型的注意力层对所述嵌入向量进行注意力处理,得到注意力向量;

预测模块,用于通过所述预设事件编码模型的全连接层对所述注意力向量进行预测处理,得到与所述待抽取文本对应的待抽取向量。

在一实施例中,所述事件识别模块12包括:

样本获取模块,用于获取样本训练数据集,所述样本训练数据集包括至少一个样本训练数据;一个所述样本训练数据关联一个样本标签;

标签预测模块,用于获取预设训练模型,通过所述预设训练模型对所述样本训练数据进行预测处理,得到预测标签;

预测损失值模块,用于根据同一所述样本训练数据对应的所述样本标签以及所述预测标签,确定所述预设训练模型的预测损失值;

模型收敛模块,用于在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设训练模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设训练模型记录为标签分类模型。

在一实施例中,所述事件识别模块12还包括:

事件识别模块,用于将所述待抽取向量输入至所述标签分类模型中,通过所述标签分类模型对所述待抽取向量进行标签预测,得到至少一个事件识别文本;

文本融合模块,用于对与同一所述待抽取向量对应的所有所述事件识别文本进行融合,得到与所述待抽取文本对应的所述事件标签。

在一实施例中,所述事件融合模块13包括:

向量编码模块,用于通过所述输入层分别对所述事件标签和所述待抽取文本进行编码处理,得到与所述事件标签对应的标签向量,以及与所述待抽取文本对应的文本向量;

向量融合模块,用于通过所述注意力层对所述标签向量和所述文本向量进行注意力处理,得到融合向量;

向量预测模块,用于通过所述输出层对所述融合向量进行预测处理,得到所述目标文本向量。

在一实施例中,所述事件抽取模块14包括:

文本转换模块,用于通过所述线性变换层对所有所述目标文本向量进行转换处理,得到与各所述目标文本向量对应的转换向量;

向量识别模块,用于通过所述预测层对所有所述转换向量进行识别抽取,得到与各所述待抽取文本对应的事件文本。

关于事件抽取装置的具体限定可以参见上文中对于事件抽取方法的限定,在此不再赘述。上述事件抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中事件抽取方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种事件抽取方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述事件抽取方法。

在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述事件抽取方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围内。

技术分类

06120115920048