掌桥专利:专业的专利平台
掌桥专利
首页

问答方法、装置及电子设备

文献发布时间:2024-04-18 19:54:45


问答方法、装置及电子设备

技术领域

本申请涉及知识问答技术领域,尤其涉及一种问答方法、装置及电子设备。

背景技术

在知识问答技术中,可以预先建立知识库。这样,在接收到用户的提问信息的情况下,可以根据提问信息从知识库中搜索对应的结果数据。

相关技术中,对于知识库以外的提问信息,通常可以通过离线数据挖掘及分析的方式发现提问信息,然后人工构建回答内容,并将新知识录入到知识库。然而,知识库的更新周期通常是几个小时或者一天,因此无法实时做出答复。

发明内容

为了解决上述技术问题,本申请提供了一种问答方法、装置、电子设备、存储介质及计算机程序产品。

根据本申请的第一方面,提供了一种问答方法,包括:

获取提问信息,从所述提问信息中提取关键信息;

从目标网站爬取与所述关键信息相关的文本内容,并基于每个所述文本内容和所述提问信息,生成每个所述文本内容对应的答复信息;

根据所述提问信息和每个所述答复信息,得到每个所述答复信息的置信度;其中,所述置信度用于表征所述答复信息和所述提问信息的相关程度;

从所述文本内容对应的答复信息的置信度中选取对应置信度最高的答复信息作为目标答复信息,并返回所述目标答复信息。

在一些实施例中,在选取目标答复信息之后,所述方法还包括:

如果所述目标答复信息的置信度大于置信度阈值,将所述提问信息和所述目标答复信息更新至预先构建的知识库中。

在一些实施例中,所述从所述提问信息中提取关键信息,包括:

如果预先构建的知识库中不包含所述提问信息对应的答复信息,或者如果所述提问信息属于预设类型的提问信息,从所述提问信息中提取关键信息。

在一些实施例中,所述根据所述提问信息和每个所述答复信息,得到每个所述答复信息的置信度,包括:

将所述提问信息和每个所述答复信息输入预先构建的置信度确定模型,得到每个所述答复信息的置信度。

在一些实施例中,在选取目标答复信息之后,所述方法还包括:

通过预设话术将所述目标答复信息转换为预设格式的答复信息;

所述返回所述目标答复信息,包括:

返回所述预设格式的答复信息。

在一些实施例中,所述基于每个所述文本内容和所述提问信息,生成每个所述文本内容对应的答复信息,包括:

将每个所述文本内容和所述提问信息输入预先构建的答复信息生成模型,生成每个所述文本内容对应的答复信息。

在一些实施例中,所述从所述提问信息中提取关键信息,包括:

对所述提问信息进行词性标注,得到所述提问信息中每个字的标注结果;

将所述提问信息和所述提问信息中各个字的标注结果构成的序列输入预先构建的关键信息提取模型,得到所述提问信息的关键信息。

在一些实施例中,所述获取提问信息,包括:

获取输入的语音数据,将所述语音数据转换为第一文本信息;

如果所述第一文本信息属于问答请求,将所述第一文本信息确定为提问信息;或者,

获取输入的第二文本信息;

如果所述第二文本信息属于问答请求,将所述第二文本信息确定为提问信息。

在一些实施例中,所述从目标网站爬取与所述关键信息相关的文本内容,包括:

根据所述关键信息,确定所述关键信息的近义信息和所述关键信息的同义信息;

根据所述关键信息、所述关键信息的近义信息和所述关键信息的同义信息,从目标网站爬取原始数据;

将所述原始数据拆分为多个与所述关键信息相关的文本内容,其中,每个所述文本内容中包括所述关键信息、所述关键信息的近义信息和所述关键信息的同义信息中的至少一个。

根据本申请的第二方面,提供了一种问答装置,包括:

提问信息获取模块,用于获取提问信息;

关键信息提取模块,用于从所述提问信息中提取关键信息;

文本内容获取模块,用于从目标网站爬取与所述关键信息相关的文本内容;

答复信息生成模块,用于基于每个所述文本内容和所述提问信息,生成每个所述文本内容对应的答复信息;

置信度确定模块,用于根据所述提问信息和每个所述答复信息,得到每个所述答复信息的置信度;其中,所述置信度用于表征所述答复信息和所述提问信息的相关程度;

目标答复信息输出模块,用于从所述文本内容对应的答复信息的置信度中选取对应置信度最高的答复信息作为目标答复信息,并返回所述目标答复信息。

在一些实施例中,上述问答装置还包括:

知识库更新模块,用于如果所述目标答复信息的置信度大于置信度阈值,将所述提问信息和所述目标答复信息更新至预先构建的知识库中。

在一些实施例中,所述关键信息提取模块,具体用于如果预先构建的知识库中不包含所述提问信息对应的答复信息,或者如果所述提问信息属于预设类型的提问信息,从所述提问信息中提取关键信息。

在一些实施例中,所述置信度确定模块,具体用于将所述提问信息和每个所述答复信息输入预先构建的置信度确定模型,得到每个所述答复信息的置信度。

在一些实施例中,所述目标答复信息输出模块,具体用于通过预设话术将所述目标答复信息转换为预设格式的答复信息,并输出所述预设格式的答复信息。

在一些实施例中,所述答复信息生成模块,具体用于将每个所述文本内容和所述提问信息输入预先构建的答复信息生成模型,生成每个所述文本内容对应的答复信息。

在一些实施例中,所述关键信息提取模块,具体用于对所述提问信息进行词性标注,得到所述提问信息中每个字的标注结果;将所述提问信息和所述提问信息中各个字的标注结果构成的序列输入预先构建的关键信息提取模型,得到所述提问信息的关键信息。

在一些实施例中,所述提问信息获取模块,具体用于获取输入的语音数据,将所述语音数据转换为第一文本信息;如果所述第一文本信息属于问答请求,将所述第一文本信息确定为提问信息;或者,获取输入的第二文本信息;如果所述第二文本信息属于问答请求,将所述第二文本信息确定为提问信息。

在一些实施例中,所述文本内容获取模块,具体用于根据所述关键信息,确定所述关键信息的近义信息和所述关键信息的同义信息;根据所述关键信息、所述关键信息的近义信息和所述关键信息的同义信息,从目标网站爬取原始数据;将所述原始数据拆分为多个与所述关键信息相关的文本内容,其中,每个所述文本内容中包括所述关键信息、所述关键信息的近义信息和所述关键信息的同义信息中的至少一个。

根据本申请的第三方面,提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面所述的问答方法。

根据本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。

根据本申请的第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面所述的方法。

本申请一些实施例提供的技术方案与相关技术相比具有如下优点:

在获取提问信息后,可以从提问信息中提取关键信息,并从目标网站实时爬取与关键信息相关的文本内容。基于每个文本内容和提问信息,生成每个文本内容对应的答复信息,根据提问信息和每个答复信息,得到每个答复信息的置信度,置信度用于表征答复信息和提问信息的相关程度。这样,可以从文本内容对应的答复信息的置信度中选取对应置信度最高的答复信息作为目标答复信息,并返回目标答复信息。本申请一些实施例中,通过实时爬取相关的文本内容,并对文本内容进行处理之后,将最可能的答复信息返回给用户。例如,在知识库中不包含提问信息对应的答复信息的情况下,或者,在对提问信息的答复信息的实时性要求较高的情况下,不需要按照知识库的更新周期对知识库更新之后返回答复信息,因此,可以提高问题答复的实时性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请一些实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示出了可以应用于本申请实施例的问答方法的示例性应用环境的系统架构的示意图;

图2为本申请实施例中问答方法的一种流程图;

图3为本申请实施例中词性标注及关键信息提取的一种示意图;

图4为本申请实施例中问答方法的又一种流程图;

图5为本申请实施例中问答方法的又一种流程图;

图6为本申请实施例中问答装置的一种结构示意图;

图7为本申请实施例中电子设备的一种结构示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

在问答业务场景中,每天需要面对上千万的提问量,例如查询影视信息、八卦新闻、日常知识等等。通过知识库可以为用户返回相应的答复信息,然而,针对某些领域(例如影视信息、八卦新闻等)的问答,往往需要很高的时效性。

图1示出了可以应用于本申请实施例的问答方法的示例性应用环境的系统架构的示意图。

如图1所示,系统架构100可以包括终端设备101、终端设备102、终端设备103中的一个或多个、服务器104、服务器105和服务器106。终端设备101、终端设备102、终端设备103可以包括但不限于台式计算机、便携式计算机、智能手机、平板电脑和智能音箱等等。服务器105为可以提供问答服务的服务器,本申请实施例的问答方法可以通过服务器104执行。服务器105和服务器106为可以提供互联网信息资源的服务器,例如可以是门户网站所在服务器等,其中,门户网站是指提供某类综合性互联网信息资源并提供有关信息服务的应用系统。

应该理解,图1中的终端设备、提供问答服务的服务器和提供互联网信息资源的服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数量的终端设备和服务器。比如服务器104可以是多个服务器组成的服务器集群等。

本申请实施例所提供的问答方法一般由服务器104执行,相应地,问答装置可以设置于服务器104中。举例而言,服务器104获取到提问信息后,如果对该提问信息的答复信息的实时性要求较高,可以从提问信息中提取关键信息,并从目标网站爬取与关键信息相关的文本内容,通过对文本内容进行信息聚合和抽取,得到最可能的答复信息,并将该答复信息返回给用户。本申请可以快速生成对应的答复信息,提升问答的实时性。

例如,某网站发布一个八卦新闻,随即用户就会对该八卦新闻提相关的问题,例如“演员A的现任是谁”、“演员A离婚了吗”等等。如果知识库内关于“演员A”的婚姻状态是“演员A正与演员B恋爱中”,网站发布八卦新闻“演员A分手”后,用户再提问“演员A现在单身吗?”,那么将不再回复“演员A正与演员B恋爱中”,而是回复“演员A目前单身”。该知识将会在当日即刻更新,而不需要等一天后通过人工挖掘的方式进行更新,因此提高了问答的实时性。

参见图2,图2为本申请实施例中问答方法的一种流程图,可以应用于问答服务器,可以包括以下步骤:

步骤S210,获取提问信息,从提问信息中提取关键信息。

用户在存在疑问时,可以发起问答请求,以得到相应的答复信息。提问信息是用户发起的问答请求中的信息。本申请一些实施例中,用户可以通过语音发起问答请求,例如,用户可以通过与智能音箱、智能电视、智能手机等发起语音交互而问答请求。或者,用户也可以通过文本的形式发起问答请求。

具体的,用户通过语音形式发起问答请求后,问答服务器可以获取输入的语音数据,将语音数据转换为第一文本信息,如果第一文本信息属于问答请求,将第一文本信息确定为提问信息。或者,用户通过文本形式发起问答请求后,问答服务器可以获取输入的第二文本信息,如果第二文本信息属于问答请求,将第二文本信息确定为提问信息。

例如,如果文本信息是“张三小时候有多高?”,用户期望知晓张三小时候的身高,该文本信息属于问答请求。如果文本信息是“张三真高”,可以确定该文本信息不是一个问答请求。

本申请一些实施例中,可以通过分类模型判断文本信息是否属于问答请求。分类模型的输入为文本信息,分类模型的输出为0或1,0代表该文本信息不属于问答请求,1代表该文本信息属于问答请求。本申请对分类模型的结构不做限定。例如,可以采用Bert模型判断文本信息是否属于问答请求,如果输入的文本信息为“张三小时候多高”,Bert模型输出为1。如果输入的文本信息为“张三真高”,Bert模型输出将会为0。

或者,也可以通过模板匹配等技术判断文本信息是否属于问答请求,例如,将文本信息的内容与模板文本信息进行匹配,如果匹配成功,则认为文本信息属于问答请求;如果匹配失败,则认为文本信息不属于问答请求。

在获取问答请求中的提问信息后,可以直接从提问信息中提取关键信息,以爬取与关键信息相关的文本内容,并根据文本内容得到最终的答复信息。这样,可以直接获取到实时的答复信息。其中,关键信息包括关键字、关键词、关键短语等。

在一些实施例中,如果预先构建的知识库中不包含提问信息对应的答复信息,或者如果提问信息属于预设类型的提问信息,再从提问信息中提取关键信息。预设类型的提问信息指的是对答复信息的实时性要求较高的提问信息,也就是说,在知识库中不包含提问信息对应的答复信息的情况下,或者,在对提问信息的答复信息的实时性要求较高的情况下,再从提问信息中提取关键信息,以爬取与关键信息相关的文本内容,并根据文本内容得到最终的答复信息。

在一些实施例中,可以通过神经网络模型实现关键信息的提取。例如,可以对提问信息进行词性标注,得到提问信息中每个字的标注结果。也就是,确定每个字所属词的词性,每个字在该字所属词中是否为第一个字等等。之后,将提问信息和提问信息中各个字的标注结果构成的序列输入预先构建的关键信息提取模型,得到提问信息的关键信息。

参见图3,图3为本申请实施例中词性标注及关键信息提取的一种示意图。提问信息为“张三小时候身高是多少”,一共包含10个字,5个词。5个词分别为“张三”、“小时候”、“身高”、“是”、“多少”。第一个词“张三”中的两个字均为名词,“张”是该词中的首字,“三”为该次中的非首字。如果B代表一个词的开头,I代表一个词开头以外的其他部分,那么,“张三”的标注结果为名词-B,名词-I。

按照上述方式,得到“张三小时候身高是多少”中各个字的标注结果构成的序列为:名词-B,名词-I,名词-B,名词-I,名词-I,名词-B,名词-I,动词-B,名词-B,名词-I。

将提问信息和提问信息中各个字的标注结果构成的序列一起输入预先构建的关键信息提取模型,可以输出K-B K-I K-B K-I K-I K-B K-I O O O。其中,K代表关键词,B代表一个词的开头,I代表一个词开头以外的其他部分,O代表非关键信息。根据该输出结果可以确定关键信息包括:张三、小时候和身高。

在知识库中包含提问信息对应的答复信息的情况下,或者,在对提问信息的答复信息的实时性要求不高的情况下,可以直接从知识库中查找提问信息对应的答复信息,并返回该答复信息。

在一些实施例中,在知识库查找提问信息对应的答复信息时,可以使用召回算法进行查找,在此对召回算法不做限定,例如,可以使用ElasticSearch的召回方案,或者也可以使用Faiss等向量召回方案。其中,Elasticsearch是一个分布式的RESTful风格的搜索和数据分析引擎,Faiss是Facebook AI Research开发的快速相似性搜索计算库,相似性搜索就是进行向量间比对,通过向量间比对找出最相近的对象。

需要说明的是,如果文本信息不属于问答请求,可以按照预先设置的话术回复用户或者进入聊天模式。例如,文本信息为“张三真高”,可以预先设置“我也认为张三很高”的话术回复用户。

步骤S220,从目标网站爬取与关键信息相关的文本内容。

目标网站是发布互联网信息的网站,例如可以是多个不同的门户网站。在一些实施例中,可以根据关键信息,确定关键信息的近义信息和关键信息的同义信息。例如,从“张三小时候身高是多少”中提取到的关键信息为“张三”、“小时候”、“身高”,可以根据关键词“小时候”得到“年少时”的近义词等等。可以理解的是,针对不同的关键信息,对应的近义信息和同义信息的数量可以是一个或多个。

根据关键信息、关键信息的近义信息和关键信息的同义信息,从目标网站爬取原始数据。这样,可以获取到更多与关键信息相关的原始数据。例如,从多个门户网站获取了“张三10岁时身高已达1.8米”、“张三访谈录”等N篇文章,N为正整数,该N篇文章即为获取到的原始数据。

由于原始数据的内容通常比较长,可能包含多个与关键信息相关的文本内容,因此,可以将原始数据拆分为多个与关键信息相关的文本内容,其中,每个文本内容中包括关键信息、关键信息的近义信息和关键信息的同义信息中的至少一个。例如,可以将前述的N篇文章拆分为M个独立的句子,每个句子即为一个文本内容,每个句子中包含关键信息、关键信息的近义信息和关键信息的同义信息中的至少一个,M大于等于N。

步骤S230,基于每个文本内容和提问信息,生成每个文本内容对应的答复信息。

针对每个文本内容,可以参考提问信息,生成该文本内容对应的答复信息。可以理解的是,文本内容与提问信息越相关,生成的答复信息越可能是提问信息的答复信息。

在一些实施例中,可以通过神经网络模型生成每个文本内容对应的答复信息。例如,可以将每个文本内容和提问信息输入预先构建的答复信息生成模型,生成每个文本内容对应的答复信息。答复信息生成模型可以使用UniLM(Unified Language Model,统一语言模型)模型等。其中,UniLM是微软研究院在Bert模型的基础上,最新产出的预训练语言模型,使用三种特殊的Mask的预训练目标,从而使得模型可以用于NLG(自然语言生成),同时在NLU任务获得和Bert模型一样的效果,Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了优秀的成绩。

例如,文本内容为“张三说到,他上小学时身高就已经有1.8米了”和“面对现如今已经2.0米高的张三,当年的记者表示情理之中”。

将“张三说到,他上小学时身高就已经有1.8米了”和“张三小时候身高是多少”输入答复信息生成模型后,生成的答复信息是“张三上小学时1.8米高”。

将“面对现如今已经2.0米高的张三,当年的记者表示情理之中”和“张三小时候身高是多少”输入模型后,生成的答复信息是“张三现如今2.0米高”。

步骤S240,根据提问信息和每个答复信息,得到每个答复信息的置信度;其中,置信度用于表征答复信息和提问信息的相关程度。

针对每个答复信息,可以通过计算答复信息的置信度来确定答复信息和提问信息的相关程度。在一些实施例中,可以将提问信息和每个答复信息输入预先构建的置信度确定模型,得到每个答复信息的置信度。其中,置信度确定模型也可以使用Bert模型等。

例如,答复信息一共有两个,分别为“张三上小学时1.8米高”和“张三现如今2.0米高”。将答复信息“张三上小学时1.8米高”和“张三小时候身高是多少”输入置信度确定模型后,得到“张三上小学时1.8米高”对应的置信度为0.92。将答复信息“张三现如今2.0米高”和“张三小时候身高是多少”输入置信度确定模型后,得到“张三现如今2.0米高”对应的置信度为0.75。

步骤S250,从文本内容对应的答复信息的置信度中选取对应置信度最高的答复信息作为目标答复信息,并返回目标答复信息。

答复信息的置信度越高,那么该答复信息越可能是提问信息的答复信息。因此,可以选取对应置信度最高的答复信息作为目标答复信息,并返回该目标答复信息。

可以看出,步骤S240中“张三上小学时1.8米高”对应的置信度大于“张三现如今2.0米高”对应的置信度。因此,“张三上小学时1.8米高”为目标答复信息。

需要说明的是,根据不同的场景,本申请实施例可以通过语音形式或文本形式返回目标答复信息。在通过文本形式返回目标答复信息时,可以先对目标答复信息进行文本编排(例如,可以对目标答复信息配图等),然后再返回文本编排后的答复信息。

本申请一些实施例的问答方法,在获取提问信息后,可以从提问信息中提取关键信息,根据关键信息实时爬取相关的文本内容,并对文本内容进行处理之后,将最可能的答复信息返回给用户。例如,在知识库中不包含提问信息对应的答复信息的情况下,或者,在对提问信息的答复信息的实时性要求较高的情况下,不需要按照知识库的更新周期对知识库更新之后返回答复信息,因此,可以提高问题答复的实时性。

参见图4,图4为本申请实施例中问答方法的又一种流程图,可以包括以下步骤:

步骤S410,获取提问信息,从提问信息中提取关键信息。

步骤S420,从目标网站爬取与关键信息相关的文本内容。

步骤S430,基于每个文本内容和提问信息,生成每个文本内容对应的答复信息。

步骤S440,根据提问信息和每个答复信息,得到每个答复信息的置信度;其中,置信度用于表征答复信息和提问信息的相关程度。

步骤S450,从文本内容对应的答复信息的置信度中选取对应置信度最高的答复信息作为目标答复信息。

上述步骤S410~步骤S450与图2实施例中步骤S210~步骤S250相同,具体参见图2实施例中的描述即可,在此不再赘述。

步骤S460,通过预设话术将目标答复信息转换为预设格式的答复信息,返回预设格式的答复信息。

为了使问答更严谨,可以通过预设话术对目标答复信息进行转换。预设话术指使答复信息更严谨的话术,例如,可以是“我猜测”、“应该”等等。本申请一些实施例中,也可以使用神经网络模型对目标答复信息进行转换,神经网络模型也可以是UniLM模型。与前述步骤S230中的UniLM模型不同的是,步骤S230中UniLM模型的输入是文本内容和提问信息,输出是文本信息对应的答复信息,本步骤中UniLM模型的输入是目标答复信息,输出是转换后的预设格式的答复信息。

例如,目标答复信息是“张三上小学时1.8米高”,最终转换后的答复信息是“我猜测,张三小时候应该有1.8米高,因为张三上小学时1.8米高”。可以看出,通过转换后的答复信息进行答复时更加严谨,使回答不是太生硬。

参见图5,图5为本申请实施例中问答方法的又一种流程图,可以包括以下步骤:

步骤S510,获取提问信息,从提问信息中提取关键信息。

步骤S520,从目标网站爬取与关键信息相关的文本内容。

步骤S530,基于每个文本内容和提问信息,生成每个文本内容对应的答复信息。

步骤S540,根据提问信息和每个答复信息,得到每个答复信息的置信度;其中,置信度用于表征答复信息和提问信息的相关程度。

步骤S550,从文本内容对应的答复信息的置信度中选取对应置信度最高的答复信息作为目标答复信息,并返回目标答复信息。

上述步骤S510~步骤S550与图2实施例中步骤S210~步骤S250相同,具体参见图2实施例中的描述即可,在此不再赘述。

步骤S560,如果目标答复信息的置信度大于置信度阈值,将提问信息和目标答复信息更新至知识库中。

目标答复信息是对应置信度最大的答复信息,如果目标答复信息的置信度大于置信度阈值,表示目标答复信息的置信度较高,此时可以认为目标答复信息是提问信息的答复信息。因此,可以将提问信息和目标答复信息更新至知识库中,即在知识库中不包含该知识的情况下,对知识库的知识进行扩充,或者,在知识库中包括该知识的情况下,将旧的知识更新为新的知识。这样,在该提问信息之后短期内再次接收到同样的提问信息时,可以直接从知识库中获取对应的答复信息并返回,而避免了重复执行上述过程。

置信度阈值可以根据实际需求设置,例如可以是0.9等。例如,目标答复信息为“张三上小学时1.8米高”,且目标答复信息对应的置信度为0.92,大于置信度阈值,因此,可以将“张三上小学时1.8米高”和“张三小时候身高是多少”更新至知识库中。

需要说明的是,如果目标答复信息的置信度小于等于置信度阈值,表示目标答复信息的置信度较低,此时认为目标答复信息可能不是提问信息的答复信息,为了避免存储错误的知识,可以不将提问信息和目标答复信息更新至知识库中。

在一些实施例中,也可以在通过预设话术将目标答复信息转换为预设格式的答复信息之后,将提问信息和预设格式的答复信息更新至知识库中。例如,可以将“我猜测,张三小时候应该有1.8米高,因为张三上小学时1.8米高”和“张三小时候身高是多少”更新至知识库中。这样,通过知识库可以直接返回预设格式的答复信息,而不需要在知识库中查询到目标答复信息后,再对目标答复信息进行转换,节省了转换的过程。

本申请一些实施例还公开了一种问答装置,参见图6,问答装置600包括:

提问信息获取模块610,用于获取提问信息;

关键信息提取模块620,用于从提问信息中提取关键信息;

文本内容获取模块630,用于从目标网站爬取与关键信息相关的文本内容;

答复信息生成模块640,用于基于每个文本内容和提问信息,生成每个文本内容对应的答复信息;

置信度确定模块650,用于根据提问信息和每个答复信息,得到每个答复信息的置信度;其中,置信度用于表征答复信息和提问信息的相关程度;

目标答复信息输出模块660,用于从文本内容对应的答复信息的置信度中选取对应置信度最高的答复信息作为目标答复信息,并返回目标答复信息。

在一些实施例中,上述问答装置600还包括:

知识库更新模块,用于如果目标答复信息的置信度大于置信度阈值,将提问信息和目标答复信息更新至知识库中。

在一些实施例中,关键信息提取模块620,具体用于如果预先构建的知识库中不包含提问信息对应的答复信息,或者如果提问信息属于预设类型的提问信息,从提问信息中提取关键信息。

在一些实施例中,置信度确定模块650,具体用于将提问信息和每个答复信息输入预先构建的置信度确定模型,得到每个答复信息的置信度。

在一些实施例中,目标答复信息输出模块660,具体用于通过预设话术将目标答复信息转换为预设格式的答复信息,并返回预设格式的答复信息。

在一些实施例中,答复信息生成模块,具体用于将每个文本内容和提问信息输入预先构建的答复信息生成模型,生成每个文本内容对应的答复信息。

在一些实施例中,关键信息提取模块640,具体用于对提问信息进行词性标注,得到提问信息中每个字的标注结果;将提问信息和提问信息中各个字的标注结果构成的序列输入预先构建的关键信息提取模型,得到提问信息的关键信息。

在一些实施例中,提问信息获取模块610,具体用于获取输入的语音数据,将语音数据转换为第一文本信息;如果第一文本信息属于问答请求,将第一文本信息确定为提问信息;或者,获取输入的第二文本信息;如果第二文本信息属于问答请求,将第二文本信息确定为提问信息。

在一些实施例中,文本内容获取模块630,具体用于根据关键信息,确定关键信息的近义信息和关键信息的同义信息;根据关键信息、关键信息的近义信息和关键信息的同义信息,从目标网站爬取原始数据;将原始数据拆分为多个与关键信息相关的文本内容,其中,每个文本内容中包括关键信息、关键信息的近义信息和关键信息的同义信息中的至少一个。

上述装置中各模块或单元的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。

在本申请的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本示例实施方式中上述问答方法。

图7为本申请实施例中电子设备的一种结构示意图。需要说明的是,图7示出的电子设备700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。中央处理单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元701执行时,执行本申请的装置中限定的各种功能。

本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述问答方法。

需要说明的是,本申请所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。

本申请实施例还提供一种计算机程序产品,包括:当计算机程序产品在计算机上运行时,使得计算机实现上述的问答方法。

为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术分类

06120116381007