掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的开放域问答预测方法

文献发布时间:2023-06-19 10:02:03


一种基于深度学习的开放域问答预测方法

技术领域

本发明涉及自然语言处理领域,尤其是涉及一种基于深度学习的开放域问答预测方法。

背景技术

机器阅读理解(MRC)旨在教机器阅读和理解人类语言,这是自然语言理解(NLP)领域的长期目标,随着深度学习的蓬勃发展,机器阅读理解任务也取得了极大的突破。

类似IBM的DeepQA这样的大型QA系统依赖与多个知识源来回答问题,除了维基百科,它还使用了知识库(knowledge base),新闻以及图书等,但是这样的系统过度依赖冗余的信息来正确回答问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的开放域问答预测方法。

本发明的目的可以通过以下技术方案来实现:

一种基于深度学习的开放域问答预测方法,该方法包括以下步骤:

S1:获取维基百科训练语料并对其建立索引;

S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;

S3:使用SQuAD数据集训练一个机器阅读理解模型;

S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。

所述的步骤S1具体包括以下步骤:

S11:获取维基百科语料作为知识库;

S12:对维基百科语料进行分词预处理(tokenize);

S13:对维基百科文章建立索引。

所述的步骤S2中,根据问题从维基百科的文章中检索获得相关性最高的5篇文章。

所述的步骤S2具体包括以下步骤:

S21:对问题进行预处理,得到问题的bag-of-words信息;

S22:通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。

所述的步骤S3具体包括以下步骤:

S31:段落编码:首次将段落p中的每一个段落token(分词)p

其中,下标m为段落token的总数;

S32:问题编码:以问题的每一个问题tokenq

所述的步骤S32中,问题中第j个词的重要程度b

其中,w为要学习的权重,q

所述的步骤S4中,以段落向量{P

所述的步骤S4中,在训练阶段,采用双线性函数计算每个token作为开始和结束位置的概率,则有:

P

P

其中,P

所述的步骤S4中,在预测阶段,选择答案片段位置为token i到token i′,其中i≤i′≤i+15,并且最大化P

所述的步骤S4中,以5个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。

与现有技术相比,本发明具有以下优点:

一、本发明使用TF-IDF方法,高效地从百万级别文章中找出相关度最高的多篇文章。

二、在本发明中,只有维基百科一个知识源,这样能够迫使模型非常精确。

三、本发明中阅读理解模型使用多层LSTM模型来预测答案片段在文章中的起始位置,准确快速。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的模型架构图。

图3为本发明的具体实施过程。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

实施例

如图1-3所示,本发明提供一种基于深度学习的开放域问答系统实现方法,包括以下步骤:

1)获取维基百科样本数据,进行预处理;

2)根据问题检索出相关性最高的段落;

3)使用SQuAD数据集训练一个多层LSTM模型;

4)将候选段和问题作为输入,输入LSTM模型,获得答案在文章中的起始位置;

各步骤具体过程如下:

步骤1)获取维基百科样本数据,进行预处理,具体包括:

11)从wiki官网下载英文语料,下载完成后对每篇文章只保留文本数据,去掉表格,列表等结构化数据;

12)对文本数据进行规范化处理;

13)使用StanfordCoreNLPTokenizer对文本数据进行tokenize;

14)使用TF-IDF方法对各个文章建立索引

步骤2)根据问题检索出相关性最高的段落,具体包括:

21)对问题进行预处理,得到问题的bag-of-words信息;

22)通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章;

步骤3)使用SQuAD数据集训练一个多层LSTM机器阅读理解模型

31)段落编码Paragraphencoding:首次把段落p中的每一个tokenp

32)问题编码Questionencoding:以问题的每一个tokenq

{q

通过q=∑

其中w是要学习的权重;

步骤4)将候选段和问题作为输入,输入LSTM模型,获得答案在文章中的起始位置,具体包括:

41)以段落向量{P

P

P

42)在预测阶段,选择答案片段位置tokeni到tokeni′,其中i≤i′≤i+15,并且最大化P

本发明使用Wikipedia作为唯一的知识源,通过对wikipedia建立索引,以及使用深度学习模型来实现机器阅读理解模型,成功实现了一个开放域的问答系统。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种基于深度学习的开放域问答预测方法
  • 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
技术分类

06120112389321