掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多模双线性池化融合GNN的事件关系抽取方法

文献发布时间:2023-06-19 19:28:50



技术领域

本发明属于数据挖掘技术领域,涉及一种事件关系抽取方法,具体的说是涉及一种基于多模双线性池化融合GNN的事件关系抽取方法。

背景技术

随着互联网技术的迅速发展,人类进入了信息化时代,同时产生了海量的文本数据信息,其中包含大量有重要价值的知识,然而由于这些信息繁琐冗余,给知识利用带来了许多困难。信息抽取研究如何从未经加工的文本信息中提取特定信息,进而转换为结构化形式的信息存储在数据库中。事件关系抽取则是信息抽取的主要任务之一,其目的是从文本中挖掘给定事件之间的关系,为事理图谱、问答系统、消费意图挖掘等任务提供支持。

事件关系抽取的发展主要分为三个阶段:基于规则、传统机器学习和基于深度学习。基于规则的事件关系抽取方法是通过人工编写规则模板,从文本中抽取与模板匹配的关系实例。虽然此方法可以在小规模特定领域取得较好结果,但是每条规则需要人工构建,最好是在特定领域的专家指导下手工编写规则,人工参与量大,而且难以维护,可移植性较差。

传统机器学习的事件关系抽取方法通过设计分类模型学习事件对关系特征,进而使用训练完备的分类器预测事件间关系类型。该方法一般包括基于特征向量的方法和基于核函数的方法。尽管此类方法在一定程度上能够达到良好的效果,但它主要依赖于人工构建的特征,对上下文信息利用并不完善,在句法关系复杂的句子中,难以挖掘句中关键的事件词之间的长距离依赖关系,无法对句子达到全局的语义理解,而且容易引入噪声,对模型的有效性会造成一定影响。

基于深度学习的事件关系抽取模型具有强大的特征提取能力及学习能力,能自动学习文本特征,不依赖手工设计的特征,从而缓解了传统方法的错误信息传递问题。常用模型包括卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(RecurrentNeural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)以及图卷积网络(Graph Convolutional Network,GCN)。其中,基于卷积神经网络的关系抽取模型虽然能够提取词级和句子级别的语言特征,但CNN在处理长句时,效果并不突出,因为其无法捕获实体间的长距离依赖关系。而基于RNN和LSTM的事件关系抽取模型可以处理远距离模式,适合在较长上下文中学习关系特征,但这两类模型仅利用句子的表面信息难以捕获全局的事件知识,在面对句法结构复杂的句子中,无法对句子达到全局的语义理解。依存句法揭示了句子中词与词之间的依存关系,为了学习句法感知特征表示,最近的许多研究都证明了GCN可以作为一种强大的模型来捕获输入文本中依存句法树所暗示的上下文特征,但依然存在由于句中繁杂的语言表达模式,导致模型难以从复杂语义交互中提取丰富的关系特征的问题。

发明内容

针对现有的事件关系抽取方法由于句中繁杂的语言表达模式,导致模型难以从复杂语义交互中提取丰富的关系特征的问题,本发明提供了一种基于多模双线性池化融合GNN的事件关系抽取方法,同时考虑句法特征和语义特征,达到对句子的全局理解。

为实现上述目的,本发明是通过以下技术方案实现的:

本发明是一种多模双线性池化融合GNN的事件关系抽取方法,具体包括以下步骤:

S1:对数据集预处理,划分事件关系抽取模型的训练集和测试集;

S2:利用BiLSTM作为句子编码器,来获取每个单词基于上下文的隐表示;

S3:将上述得到的隐表示分别输入到SynGCN网络和SemGAT网络中,来提取句子的句法结构特征和语义特征;

S4:使用多模双线性池化来融合两个模块的特征,再用PCA对特征进行降维后,利用融合特征来进行关系分类,得到对应关系的概率;

S5:根据训练集和优化目标,对网络参数进行优化更新;

S6:根据训练好的模型,对测试集中的数据进行预测。

进一步的,所述S1中使用Stanford CoreNLP提供的工具来对句子的句法结构进行解析,获取句法依存树,根据依存树构造邻接矩阵。

进一步的,所述S2具体为:对于一个句子S={w

f

i

o

h

其中,σ()为sigmoid非线性激活函数,W

进一步的,所述S3将S2得到的隐表示分别输入到SynGCN网络和SemGAT网络中,来提取句子的句法结构特征和语义特征,具体包括以下步骤:

S3.1:SynGCN模块将单词表示为节点,词之间的依存关系抽象为边,将句子转换为图结构进行表示。将依存句法树转换为对应的邻接矩阵A

其中,L

S3.2:SemGAT模块同样将来自BiLSTM的隐状态向量H作为注意力图中的初始节点表示,通过自注意力机制计算每个单词的权重,可以更灵活地捕捉到句子中的语义关系。注意力系数计算如下:

e

其中,e

其中,σ()为sigmoid非线性激活函数。经过l层GAT后,可以得到每个单词的语义特征表示H

进一步的,所述S4具体包括以下步骤:

S4.1:将一个句子s经过SynGCN模块和SemGAT模块得到的两个特征H

b(s)=H

ξ(s)=maxpooling(b(s))

x=vec(ξ(s))

z=y/||y||

S4.2:使用PCA对特征进行降维,将降维后的特征z输入到全连接层中,并使用softmax函数来计算类别概率分布,具体计算公式如下:

p

其中,W

进一步的,所述S5具体为选取交叉熵函数作为目标函数,采用Adam优化方法用于模型参数训练:

其中,M为类别数量,y

进一步的,所述S6具体为使用训练好的事件关系抽取模型识别测试集的每个句中两个事件之间的关系,对模型性能进行评估。

本发明的有益效果是:

本发明提供了一个具有丰富语法知识的SynGCN模块,使用GCN建模句子的句法依存树,学习词之间的句法依存关系来增强单词表示,并将依存边的标签信息考虑进来,进一步提取丰富的句法特征;

本发明提供了一个具有自注意力机制的SemGAT模块,使用图注意网络,通过自注意力机制来聚合语义相关单词的特征,并对不同的单词赋予不同的权重,从而关注到句中的重要信息,提高模型的表达能力;

本发明采用了多模双线性池化来对两个模块的特征进行融合,加强两个模块特征的联系,并使用PCA对融合的特征进行降维操作,使用降维后的特征进行关系分类。

附图说明

图1是本发明抽取方法的步骤流程图。

图2是依赖解析示意图。

图3是LSTM网络的循环单元结构。

图4是本发明事件关系抽取方法的模型图。

具体实施方式

以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。

本发明提供了一种基于多模双线性池化融合GNN的事件关系抽取方法,同时考虑句法特征和语义特征,达到对句子的全局理解。具体来说,为了提取句法特征,设计了一个具有丰富语法知识的SynGCN模块,使用GCN建模句子的句法依存树,学习词之间的句法依存关系来增强单词表示,并将依存边的标签信息考虑进来,进一步提取丰富的句法特征;为了提取语义特征,设计了一个具有自注意力机制的SemGAT模块,使用图注意网络,通过自注意力机制来聚合语义相关单词的特征,并对不同的单词赋予不同的权重,从而关注到句中的重要信息,提高模型的表达能力。另外,为了加强两个模块特征的联系,采用了多模双线性池化来对两个模块的特征进行融合,并使用PCA对融合的特征进行降维操作,使用降维后的特征进行关系分类。

如图1所示,本发明的基于多模双线性池化融合GNN的事件关系抽取的步骤如下:

S1:对数据集预处理,使用Stanford CoreNLP提供的工具来对句子的句法结构进行解析,获取句法依存树,具体如图2所示,然后再划分事件关系抽取模型的训练集和测试集。

S2:利用BiLSTM作为句子编码器,来获取每个单词基于上下文的隐表示。

对于一个句子S={w

f

i

o

h

其中,σ()为sigmoid非线性激活函数,W

S3:将S2得到的隐表示分别输入到SynGCN网络和SemGAT网络中,来提取句子的句法结构特征和语义特征,具体包括以下步骤:

SynGCN模块将单词表示为节点,词之间的依存关系抽象为边,将句子转换为图结构进行表示。将依存句法树转换为对应的邻接矩阵A

其中,L

SemGAT模块同样将来自BiLSTM的隐状态向量H作为注意力图中的初始节点表示,通过自注意力机制计算每个单词的权重,可以更灵活地捕捉到句子中的语义关系。注意力系数计算如下:

e

其中,e

其中,σ()为sigmoid非线性激活函数。经过l层GAT后,可以得到每个单词的语义特征表示H

S4:使用多模双线性池化来融合两个模块的特征,再用PCA对特征进行降维后,利用融合特征来进行关系分类,得到对应关系的概率,具体包括以下步骤:

S4.1:将一个句子s经过SynGCN模块和SemGAT模块得到的两个特征H

b(s)=H

ξ(s)=maxpooling(b(s))

x=vec(ξ(s))

z=y/||y||

S4.2:使用PCA对特征进行降维,将降维后的特征z输入到全连接层中,并使用softmax函数来计算类别概率分布,具体计算公式如下:

p

其中,W

S5:根据训练集和优化目标,对网络参数进行优化更新。具体为选取交叉熵函数作为目标函数,采用Adam优化方法用于模型参数训练:

其中,M为类别数量,y

S6:根据训练好的模型,对测试集中的数据进行预测。具体为使用训练好的事件关系抽取模型识别测试集的每个句中两个事件之间的关系,对模型性能进行评估。

本发明提出的一种基于多模双线性池化融合GCN的事件关系抽取方法采用了双重GNN结构,分别设计了SynCGN网络和SemGAT网络来提取句法信息和语义信息。一方面提取句子的句法特征,使用Stanford CoreNLP工具获取到的句法依存树来构建基于语法的图卷积网络(SynGCN),并将依存边的方向信息考虑进来,进一步丰富单词的特征表示;另一方面为了捕获句中的语义相关性,利用自注意力机制构造了一个基于语义相关性的图注意网络(SemGAT),重点关注句中的重要信息,提高了模型的表达能力。另外,为了增强两个模块特征的交互,采用了多模双线性池化来对两个模块的特征进行融合,考虑到融合后维度过高的问题,使用PCA对特征进行降维,使用降维后的特征进行关系分类,提高了关系抽取的效率以及准确率。

以上所述的具体实施方式,对本发明的技术方案进行了详细说明,应理解为是对本发明的实施方式的列举,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和同等替换等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于实体关系联合抽取模型的多三元组抽取方法
  • 一种基于双线性池化的多模态知识融合的商品推荐方法
  • 基于双线性池化的多模态融合在线谣言检测方法及系统
技术分类

06120115923477