掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识图谱的生成式常识推理方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及一种基于知识图谱的生成式常识推理方法,属于互联网与人工智能技术领域。

背景技术

随着互联网技术的发展,常识证据推理领域已经吸引越来越多研究者的目光,目前该领域与很多下游任务关系十分紧密。但其本身是一项极具挑战性的工作,相关算法需要聚合上下文当中不同类型的分散信息,并根据这些已有信息发现其内在联系,最后获得推断的结果。推理过程一般需要使用外部常识背景知识图谱使算法能够掌握隐式关系信息,但目前该领域还存在一些亟待解决的问题:很多方法通过引入外部知识图谱提升算法的表现,但只是查询与题干相关的显式信息,再把显式信息与题干当中的信息进行简单融合处理后投入后续的模块当中进行联合计算,没有进行有效的隐式证据推理提升证据的覆盖范围;很多方法通过双向LSTM等模型只考虑简单的场景,对于需要使用已有常识进行推理的场景缺乏深入的考虑,不能应对较为复杂的多跳场景,没有考虑关系表示的学习与更新,忽略关系当中蕴含的深层次信息;很多方法生成的语句受各类因素的影响与限制,生成的证据信息逻辑性不强,与人类正常的语言交流差距很大。同时部分证据使用词汇不够丰富,语句相对结构简单,可读性不强,包含的信息量有限。

发明内容

针对现有技术当中存在的问题与不足,本发明提出一个基于知识增强的推理模型(Knowledge-Augment Joint Text and Graph Transformer for CommonsenseReasoning)提升方法的表示学习能力和推理能力,使得模型取得良好的生成与推理效果。

为实现上述发明目的,本发明的技术方案如下:通过构建一个基于文本Transformer和图Transformer的知识增强推理模型,加强文本特征与知识特征之间的交互,从而增强模型的表示学习与推理能力,并利用图神经网络实现信息的更新与传递,提升对于实体与关系的表示学习。该方法主要包括四个步骤,具体如下:

步骤1:获取给定文本当中的关键词信息。首先通过关键词提取算法获得文本当中包含的关键词信息,以实现在特定文本当中寻找推理可以使用的逻辑出发点。并利用上述关键词在知识图谱当中寻找关键词之间的路径联系,构建知识推理图;

步骤2:获得关键词信息的文本表示。将步骤1当中获得关键词输入编码器进行文本编码,获取上下文相关的语义信息和获得知识增强的文本表示,并在知识图谱的实体编码基础上使用图神经网络实现实体节点表示更新,对实体之间的关系也进行动态更新;

步骤3:根据编码结果对当前词产生的潜在值进行特征表示。使用解码器对步骤2获得的文本表示进行解码,预测特定位置的词汇信息,获得来自文本和知识的具体特征信息;

步骤4:使用步骤3获得的信息进行生成推理结果并进行模型训练。

相对于现有技术,本发明的优点如下:

(1)本发明使用一种联合编码的方法,该方法既利用当下主流预训练模型上下文感知的编码方式,又利用外部知识图谱相关信息进行编码的更新,将外部知识直接引入到编码层,实现隐式知识推理的效果;

(2)本发明通过已有信息和知识图谱,构建一个新的隐式知识推理图。在表示节点属性时将隐式知识推理图当中的关系表示与节点实体表示相结合,共同参与学习进行表示更新,解决以往方法关系表示固定的问题;

(3)本发明将知识图谱当中的知识信息与Transformer模型编码器-解码器的结构结合,设计一种基于知识增强的生成模型,融合来自文本的特征信息与来自知识的特征信息,最后生成更符合自然逻辑的证据。

附图说明

图1为本发明实施例的方法框架图;

图2为本发明实施例中文本编码器框架图;

图3为本发明实施例中知识增强的图编码器框架图;

图4为本发明实施例中文本解码器框架图;

图5为本发明实施例中知识增强的图解码器框架图。

具体实施方式

为了加深对本发明的认识和理解,下面结合具体实施例,进一步阐明本发明。

实施例:参见图1—图5,一种基于知识图谱的生成式常识推理算法,所述方法包括以下步骤:

步骤1,利用给定文本提取关键词并构建推理图,该步骤的实施可以分为以下子步骤:

步骤1-1,根据给定关键词语序列

tfidf

其中n

子步骤1-2,针对子步骤1-1当中提取出的关键词信息,利用迪杰斯特拉算法找到两个关键词对应节点在知识图谱当中的路径信息。迪杰斯特拉算法的思想为:设图G=(V,E)是一个有向图,其中V是顶点集合,E是边集合。把图中顶点集合V分为两部分,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有源点,以后每求出一条最短路径,就将顶点加入到S中,直到所有顶点都加入到S中,算法结束),第二组为其余未求出最短路径的顶点集合(用U表示),按最短路径的长度次序依次将第二组中的顶点加入到第一组中。具体方法如下:

(1)将关键词在知识图谱当中对应的实体节点作为有向图当中的节点,实体之间的关系视为有向图当中的边,相邻节点之间距离为1;

(2)选择一个问题关键词作为源点v。初始时,S中只有源点,即S={v},v的距离为0(到自己的距离为0)。U包含除v外的所有其他顶点,v与U中顶点u距离为1(若v到u存在边)或∞(v到u不存在边);

(3)从U中选取一个距离v最小的顶点k加入到S中;

(4)以k为新考虑的中间点,修改U中各顶点的距离。若从源点v经过顶点k到顶点u的距离比原来距离(不经过顶点k)短,则修改顶点u的距离,修改后的距离值为顶点k的距离加上1;

(5)重复(3)、(4)直到所有的顶点都加入到S中。

(6)重复(2)到(5)直到所有问题关键词节点已完成到选项关键词节点最短路径的查询。

步骤2,利用步骤1处理后的基于知识图谱的生成式常识推理方法进行训练,该步骤的实施可以分为以下子步骤:

子步骤2-1,使用文本编码器进行编码。由于Transformer的编码器结构可以获得长序列上下文的依赖关系,本步骤采用该结构作为文本编码器获得上下文相关的语义信息。Transformer中的编码器结构并没有使用传统的CNN或RNN等串行方式提取特征,而是大量使用多头注意力机制获取特征并分配权重,因此在实际运行时可以使用并行计算的方法,极大提升计算效率。

该编码器由多个相同的编码层组成,每一个编码层又可分为两个子层,分别是多头注意力层(Multi-head Self-Attention Layer)和全连接前馈神经网络层(FullyConnected Feed-Forward Network Layer),经过每一层计算后再使用残差连接和层归一化探索深层次的语义信息,计算方式如公式(4)-(6)所示。

MultiHead(Q,K,V)=Concat(head

head

其中W

具体地,有一个关键词序列

子步骤2-2,使用知识增强的图编码器编码。使用知识增强的图编码器是为了将知识图谱中的知识信息引入单词表示之中,提升其感知外部信息所包含常识知识的能力,并通过图神经网络结构更新节点的表示信息。图神经网络可以按其图状结构利用知识图谱当中的实体相关信息进行节点更新,将各类知识图谱当中蕴含的隐式关系信息嵌入单词原本的语义表示当中。记e

其中W

本方法在进行信息传递时,同时探索相邻节点之间深层次的关系,两个节点之间的关系表示随之同步更新,具体的计算方法如公式(9)-(11)所示。

其中W

在第l+1层更新节点i的表示时,通过计算注意力系数s

其中W

如公式(15)、(16)所示,获得信息聚合的结果

其中FFN为前馈神经网络,

记图神经网络当中最后一层节点i的隐藏状态为h

t

其中W

步骤3,利用步骤2处理后的基于知识图谱的生成式常识推理方法进行训练,该步骤的实施可以分为以下子步骤:

子步骤3-1,使用本文解码器解码。本方法采用的文本解码器模块与文本编码器模块结构类似,均是由多个解码层堆叠而成。其中每一个解码层由三个子层组成,分别是带掩码的多头注意力层(Masked Multi-head Self-Attention Layer)、多头注意力层(Multi-head Self-Attention Layer)和全连接前馈神经网络层(Fully Connected Feed-ForwardNetwork Layer)。不同子层之间通过残差连接的方式进行传递计算。与文本编码器的结构相比,此处多加一个带掩码的多头注意力子层,其目的是在训练阶段防止当前位置使用未来输出的单词,例如在预测第i个单词时需要避免使用第i+1个单词,应参考前面已经出现的单词情况。记y为文本解码器层的输出表示。

子步骤3-2,使用知识增强的图解码器进行解码。如公式(19)所示,本方法使用实体的向量表示作为图神经网络当中节点的初始化。

其中n

与使用固定关系进行节点更新的方法不同,本方法采用关系更新机制探索相邻节点之间的深层次关系表示,并使用残差连接的方式进行更新。具体计算方式如公式(20)-(22)所示。

其中W

与GAT类似,在第l+1层更新节点i的过程中,本方法采用注意力机制通过计算注意力系数衡量相邻节点信息的重要性的程度。为获得最后的注意力权重,本方法使用softmax函数对所有与相邻节点计算获得的注意力系数进行归一化,最后完成中心节点的更新操作。具体的如公式(23)、(24)、(25)所示。

其中W

如公式(26)、(27)所示,获得信息聚合的结果

其中FFN为前馈神经网络,

步骤4,利用步骤3处理后表示完成推理并进行模型训练,该步骤的实施可以分为以下子步骤:

子步骤4-1,融合来自文本和知识的特征。如公式(28)-(32)所示,使用注意力机制计算来自知识增强的信息:首先将文本解码器的结果y以及节点表示h进行不同的线性映射获得

其中

如公式(33)-(37)所示,使用注意力机制计算来自文本的信息:首先将文本解码器的结果y以及文本编码器的输出x

其中

如公式(38)、(39)所示,本算法根据来自文本的信息表示和来自知识增强的信息表示计算得出最后的概率分布。

y

P

其中W

子步骤4-2,联合训练损失。本实例采用随机初始化的方式对所有的参数进行初始化在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,初始学习率设置为0.001,当训练损失不再下降或训练轮数超过50轮时,模型训练结束,并保存在验证集上表现最好的模型。

子步骤4-3,利用训练完毕的模型构建输出模型获取推理结果。输出模型不需要事先构建数据,只需要待进行推理的文本作为输入,该方法会首先进行关键词提取,然后使用上述步骤进行推理,最后输出推理的结果。

基于相同的发明构思,本发明实例还提供一种基于知识图谱的生成式常识推理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于知识图谱的生成式常识推理方法。

应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

相关技术
  • 一种基于知识图谱的生成式常识推理方法
  • 一种基于知识图谱的常识缺失信息多跳推理方法
技术分类

06120114726946