掌桥专利:专业的专利平台
掌桥专利
首页

基于多跳推理联合优化的多跳问题回答方法

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及自然语言处理技术领域,具体涉及一种基于多跳推理联合优化的多跳问题回答方法。

背景技术

多跳问题(Multi-hop Questions)指的是那些需要知识图谱进行多跳推理才能回答的问题。例如,若要回答“成龙主演电影的导演是哪些人”这一问题,则需要多个三元组所形成的多跳推理路径<成龙,主演,新警察故事>,<新警察故事,导演,陈木胜>才能够回答。

多跳问题是近年来自然语言处理领域的一个热门任务,需要聚合多个文档的信息并执行多跳推理来推断出答案,目前采用的方法主要分为两类,第一类利用一步阅读器捕捉问题和相关上下文之间的交互,以预测答案和支持句(即通过预先训练的阅读器模型对输入的问题捕捉问题与相关上下文之间的交互关系,直接输出答案),这类方法的预测准确度不高。第二类为模拟可解释的多步推理过程,将多跳问题分解为多个简单的单跳问题并求解,但将问题分解的现有方法存在以下两个问题:

1、问题分解高度依赖人工标注或自动构造的伪监督,前者需要大量时间进行人工标注,后者则可能引入标签噪声;

2、单跳问题的生成仅基于原始问题,不考虑每个跳转推理步骤涉及的支持事实,这通常会导致错误引导的分解和不准确的解释,从而预测出不准确的问题答案。

另外,多跳问题答案推理通常分为中间跳和最终跳两个层级,在每个中间跳中通过预先训练的中间跳推理器将多跳问题分解为单跳问题并求解,最终跳推理器作为最后一跳的答案推理根据前面多跳的推理结果综合输出多跳问题对应的答案。但对于中间跳推理器和最终跳推理器若采用独立的损失函数进行推理器训练,训练过程非常繁琐,训练耗时也较长,且中间跳推理器和最终跳推理器无法通用,使用起来也不方便。

发明内容

本发明以简化统一阅读器模型

提供一种基于多跳推理联合优化的多跳问题回答方法,步骤包括:

S1,构建训练统一阅读器模型

公式(1)中,

S2,根据所构建的所述联合损失函数,并且以每个中间跳得到的子问题-答案对

S3,将所述原始问题

作为优选,步骤S1中,

公式(2)中,

作为优选,步骤S1中,

公式(3中),

作为优选,步骤S3中,预测所述原始问题

S31,将原始问题

S32,将所述原始问题

S33,以最终跳的前一跳输出的子问题-答案对

作为优选,

作为优选,所述统一阅读器模型

A1,将输入的所述原始问题

上述表达式中,

A2,基于每个句子

A3,通过最小化二元交叉熵损失函数,对所有跳使用的所述统一阅读器模型

公式(4)中,

作为优选,通过以下方法步骤生成当前第

B1,提取于当前第

B2,将所提取的各所述重叠单词添加到所述单跳支持句

B3,以添加了所述重叠单词的各所述单跳支持句

作为优选,以当前第

本发明具有以下有益效果:

1、通过构建联合损失函数,以该联合损失函数去训练表示所述中间跳推理器或所述最终跳推理器的统一阅读器模型

2、通过构建的联合损失函数训练通用的统一阅读器模型

3、通用的统一阅读器模型

4、通过提供单跳支持句识别器识别每跳推理中的支持事实,使得每个中间跳推理步骤基于当前的支持事实,产生了更准确的问题分解,从而使得整个多跳推理过程更精确、更稳健。

5、通过提供单跳问题生成器,利用现成的单跳问题数据集来训练一个单跳问题生成器,直接以无监督的方式生成子问题,不再需要对问题分解进行人工标注,且避免了伪监督可能引入标签噪声的风险。

6、将用于训练单跳问题生成器的单跳问题数据集作为单跳问答模型训练的样本之一,使得单跳问答模型与单跳问题生成器所使用的数据更加一致,有利于提升单跳问答模型的预测性能。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于多跳推理联合优化的多跳问题回答方法的实现步骤图;

图2是现有的与本申请提供的将多跳问题分解为多个简单的单跳问题并求解的效果对比示例图;

图3是本发明一实施例提供基于多跳推理联合优化的多跳问题回答方法的逻辑推理图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供的基于多跳推理联合优化的多跳问题回答方法,如图1,包括4个步骤:

S1,构建统一阅读器模型

公式(1)中,

公式(2)中,

公式(3)中,

S2,以联合损失函数作为训练统一阅读器模型

S3,将原始问题

步骤S3中,预测原始问题

S31,将原始问题

S32,将原始问题

S33,以最终跳的前一跳输出的子问题-答案对

以下结合图2、图3对本实施例提供的基于多跳推理联合优化的多跳问题回答方法的具体实现方式进行详细说明:

如图2所示,例如,对于“海军陆战队第28航空控制小组位于哪个城市”这个多跳问题(即原始问题

本实施例中,给定一个原始问题

为了减少多跳推理过程中因候选段落数量过多对问题解答的干扰,并提高问题解答效率,本实施例中,首先从所有候选段落中筛选出与解答原始问题

这里需要强调的是,本申请提供的多跳问题回答方法的步骤S1,即寻找原始问题

此处另需说明的是,由于段落排序模型的具体训练过程并非本申请要求权利保护的范围,因此关于段落排序模型的具体训练过程在此不做具体说明。

筛选出原始问题

本实施例采用的统一阅读器模型

单跳支持句识别器以原始问题

表达式(4)中,

然后基于每个句子

最后通过最小化二元交叉熵损失函数,对第

公式(5)中,

识别出当前第

此处需要说明的是,将重叠单词添加到单跳支持句

生成当前第

此处另需说明的是,以单跳支持句

完成若干步中间跳后进入最后一跳(最终跳

对比表达式(4)和表达式(6)可知,最终跳中,输入给统一阅读器模型

为了完成最后一跳推理,首先使用二元分类器来识别相关上下文

对于多跳问题答案

以下以包含一步中间跳和一步最终跳为例,对步骤S2训练统一阅读模型

由于仅有2跳(即一步中间跳和一步最终跳),训练统一阅读器模型

本示例中,由于只有一步中间跳,该中间跳的输入不包括前一中间跳得到的子问题-答案对

由于本申请是利用前一中间跳得到的子问题-答案对

方案一为中间单跳支持句识别训练一个单独的单跳支持句识别器,并采用它来重新预测训练数据中偶尔存在错误的单跳支持句,由此而调节训练集和测试集中的单跳支持句之间的偏差。方案二则将以重新预测的训练集中的单跳支持句为单跳问题生成器的输入,以基于真实支持句生成的子问题为优化目标,扩充单跳问题生成的训练数据。然后对单跳问题生成器进行训练,使其从非正确单跳支持句接近正确单跳支持句,以此而减少训练集和测试集之间单跳子问题间的偏差。通过这两种策略,可以联合优化统一阅读器模型

为了验证本申请通过联合优化方法训练的统一阅读器模型

在实施方式中,将ELECTRA large作为逐步推理方法和单跳问答模型的主体模型,并使用BART-large训练单跳问题生成器。所有这些模型都是使用Huggingface实现的。使用的训练批大小为48,并进行10个epochs的微调。Adam作为优化器,学习率为3e-5。本申请使用10%预热比例的线性学习率。平衡损失权重的超参数选择为

本申请对通过联合训练方法训练的统一阅读器模型

表1

同时在本场景示例中,对本申请提出的模型的联合训练方法进行了消融实验,实验结果请参照下表2。表2中,w/o代表without,w/o joint trainging的方法里不使用联合优化,直接使用pipeline推理模型,w/o bias.supp 和w/o bias.ques的方法里不使用两种减少暴露偏差的部件,分别用来减少训练测试之间单跳支持句和单跳子问题的不一致。

表2

由表2可以看到,整体上同时使用三种组件能达到更好的效果。对所有跳的统一阅读器模型进行联合优化,可以提高对中间错误的容忍度,提高推理性能。在不使用任何缓解暴露偏差的措施后,效果也显著下降,表明这两种缓解单跳支持句和单跳问题训练测试差异的措施都有更好的泛化能力。

本申请还对采用现有的预训练模型以现有方法训练的统一阅读器模型

表3

本申请以联合训练方法训练得到的统一阅读器模型

表4

为了证明所述基于已识别的单跳支持句生成单跳问题的有效性,将几种不同的单跳问题生成方法融入到逐步推理框架中,并在ELECTRA上比较问答结果,问答结果对比数据请见下表4,可以看出所述基于Supp的方法性能最好,基于单跳支持句生成更准确、信息量更大的子问题,比其他策略生成的单跳问题更有效。

表5

需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

相关技术
  • 基于多跳推理联合优化的多跳问题回答方法
  • 一种多跳视觉问题推理模型及其推理方法
技术分类

06120114689932