掌桥专利:专业的专利平台
掌桥专利
首页

概念词序列生成方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 09:29:07


概念词序列生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种概念词序列生成方法、装置、计算机设备及存储介质。

背景技术

人工智能技术领域的自然语言处理中,智能客服、远程问诊等是一个重要的版块。智能客服或远程问诊需要拥有问答匹配能力与推荐能力。概念词序列是智能客服具有问答匹配能力与推荐能力的基础。

概念词序列是与问题语句中的关键词对应的概念索引。但是在生成概念词序列的时候,需要较大的抽象耗时,以生成关键词;同时需要较大的匹配耗时,以根据关键词匹配概念词。

如何根据问题语句生成问题语句的概念索引,提升生成概念索引的效率,成为待解决的问题。

发明内容

鉴于以上内容,有必要提出一种概念词序列生成方法、装置、计算机设备及存储介质,其可以生成语句的概念词序列,提升生成概念词序列的效率。

本申请的第一方面提供一种概念词序列生成方法,所述概念词序列生成方法包括:

获取问题语句;

获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词;

根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词;

根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词;

按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

另一种可能的实现方式中,所述根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词,包括:

对所述问题语句进行多次随机分词,得到多个分词结果;

对于每个分词结果,根据所述概念知识库的关键词计算所述分词结果中的每个词语的相似度得分和长度得分;

根据所述分词结果中的每个词语的相似度得分和长度得分计算所述分词结果的关键词得分;

从关键词得分最低的分词结果中提取词语作为所述问题语句的关键词。

另一种可能的实现方式中,所述根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词,包括:

根据所述概念知识库中的关键词和概念词的对应关系从所述概念知识库中获取所述问题语句的每个关键词的多个概念词;

将所述问题语句的每个关键词的任一概念词组合为所述问题语句的一个概念词组合,得到所述问题语句的多个概念词组合;

对于所述问题语句的每个概念词组合,计算所述概念词组合的概率得分;

匹配概率得分最高的概念词组合中的概念词,得到所述问题语句的关键词对应的概念词。

另一种可能的实现方式中,所述计算所述概念词组合的概率得分包括:

从所述概念知识库中随机抽取两个目标概念词,根据所述概念知识库的概念词计算所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率,得到多个第一概率;

从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率;

计算所述多个第一概率和所述多个第二概率的乘积,将得到的乘积结果作为所述概念词组合的概率得分。

另一种可能的实现方式中,所述从所述概念知识库中随机抽取两个目标概念词,根据所述概念知识库的概念词计算所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率,得到多个第一概率,包括:

将所述概念词组中的任意两个概念词记为第一概念词对,在所述概念知识库的每一个样本语句中查找所述第一概念词对,统计在所述概念知识库中查找到的所述第一概念词对的第一数量;

获取所述概念知识库中的多个概念词,对所述概念知识库中的多个概念词进行去重处理,将所述概念知识库的去重概念词中的任意两个概念词记为第二概念词对,得到多个第二概念词对;

计算在所述概念知识库中的所述多个第二概念词对的第二数量;

计算所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值,将所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值作为所述概念词组合中的任意两个概念词的第一概率,得到多个第一概率。

另一种可能的实现方式中,所述从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率,包括:

将所述问题语句的每个关键词记为给定关键词,从所述概念词组合中查找所述给定关键词对应的概念词,记为给定概念词,将所述给定关键词和所述给定概念词组合为第一目标词对;

在所述概念知识库的概念词中统计所述给定概念词的数量,记为第五数量;

在所述概念知识库的关键词-概念词词对中统计所述第一目标词对的数量,记为第六数量;

计算所述第六数量与所述第五数量的比值,得到所述给定关键词的第二概率,得到多个第二概率。

另一种可能的实现方式中,所述从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率,包括:

将所述问题语句的每个关键词记为指定关键词,从所述概念词组合中查找所述指定关键词对应的概念词,记为指定概念词;

从所述问题语句中获取所述指定关键词的上下文信息;

将所述给定关键词、所述上下文信息和所述给定概念词组合为第二目标词对,将所述上下文信息和所述给定概念词组合为第三目标词对;

获取所述概念知识库的上下文信息-概念词词对,和所述概念知识库的关键词-上下文信息-概念词词对;

在所述概念知识库的上下文信息-概念词词对中统计所述第三目标词对的数量,记为第七数量;

在所述概念知识库的关键词-上下文信息-概念词词对中统计所述第四目标词对的数量,记为第八数量;

计算所述第八数量与所述第七数量的比值,得到所述指定关键词的第二概率,进而得到多个第二概率。

本申请的第二方面提供一种概念词序列生成装置,所述概念词序列生成装置包括:

第一获取模块,用于获取问题语句;

第二获取模块,用于获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词;

提取模块,用于根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词;

确定模块,用于根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词;

组合模块,用于按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机可读指令时实现所述概念词序列生成方法。

本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现所述概念词序列生成方法。

本发明根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词,并生成语句的概念词序列,提升生成概念词序列的效率。

附图说明

图1是本发明实施例提供的概念词序列生成方法的流程图。

图2是本发明实施例提供的确定问题语句的关键词对应的概念词的流程图。

图3是本发明实施例提供的计算概念词组合的概率得分的流程图。

图4是本发明实施例提供的概念词序列生成装置的结构图。

图5是本发明实施例提供的计算机设备的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

优选地,本发明的概念词序列生成方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的概念词序列生成方法的流程图。所述概念词序列生成方法应用于计算机设备,用于生成语句的概念词序列,提升生成概念词序列的效率。

如图1所示,所述概念词序列生成方法包括:

101,获取问题语句。

在一具体实施例中,所述获取问题语句可包括:从云存储中拉取问题语句;或接收用户输入的问题语句;或通过摄像头采集包括问题语句的图像,通过文字符识别方法识别所述图像中的问题语句。本申请不做具体限制。本申请中,问题语句可以为与医疗保险相关的提问语句,例如,问题语句为“百万医哪些病可保”。

102,获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词。

例如,样本语句为“我在苹果手机上定了5斤苹果”,样本语句对应的多个关键词为第一个“苹果”、第二个“苹果”,第一个“苹果”对应一个概念词“苹果手机”,第二个“苹果”对应另一个概念词“水果苹果”。

再如,样本语句为“这个程序员经常被别人叫做码农”,样本语句对应的多个关键词为“程序员”、“码农”,“程序员”对应概念词“计算机从业者”,“码农”对应概念词“计算机从业者”。

所述多个样本语句中可以存在多个相同关键词,所述多个相同关键词对应的概念词可以相同、也可以不同。

每个样本语句对应的多个关键词可以是所述样本语句中的实体对象,也可以是所述样本语句的关键意图。在基于知识体系的问答匹配模型中,需要加入人对知识的认知,即关键词和关键词对应的概念词之间的对应关系。如苹果可以被认为是水果,也可以被认为是手机。

通过概念词和关键词之间的对应关系进行索引、匹配、推荐,能降低问答匹配模型的计算延迟。概念词之间的联系还可以用于保险产品的推荐。

103,根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词。

所述概念知识库包括多个样本语句,每个样本语句对应多个关键词。即概念库中包含了标注有关键词的多个样本语句,可以作为有参考价值的历史数据,可以基于统计学方法从所述问题语句中提取关键词。

在一具体实施例中,所述根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词包括:

对所述问题语句进行多次随机分词,得到多个分词结果;

对于每个分词结果,根据所述概念知识库的关键词计算所述分词结果中的每个词语的相似度得分和长度得分;

根据所述分词结果中的每个词语的相似度得分和长度得分计算所述分词结果的关键词得分;

从关键词得分最低的分词结果中提取词语作为所述问题语句的关键词。

具体的,对于分词结果的详细说明如下。对于多个分词结果中的任意一个分词结果,该分词结果中包括K个词语。对于所述分词结果中的任一词语,所述任一词语的长度越短,所述任一词语的长度得分越低;从所述概念知识库中获取所述任一词语的最相似关键词,将所述任一词语与所述最相似关键词的相似度的倒数确定为所述任一词语的相似度得分,所述任一词语与所述最相似关键词的相似度越高,所述任一词语的相似度得分越低。

具体地,所述分词结果的最低关键词得分为keywords,

具体地,所述从所述概念知识库中获取所述任一词语的最相似关键词可以包括:

获取所述概念知识库中的每个词语的向量表示;

基于向量表示计算所述任一词语与所述概念知识库中的每个词语的欧式距离;

在所述概念知识库中,将与所述任一词语的欧式距离最小的词语确定为最相似关键词。

104,根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词。

所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词。即所述概念知识库中存在关键词与概念词的对应关系。可以用统计学方法基于所述概念知识库中的关键词与概念词的对应关系从所述问题语句中提取关键词。

如图2所示,所述根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词,包括:

41,根据所述概念知识库中的关键词和概念词的对应关系从所述概念知识库中获取所述问题语句的每个关键词的多个概念词;

42,将所述问题语句的每个关键词的任一概念词组合为所述问题语句的一个概念词组合,得到所述问题语句的多个概念词组合;

43,对于所述问题语句的每个概念词组合,计算所述概念词组合的概率得分;

44,匹配概率得分最高的概念词组合中的概念词,得到所述问题语句的关键词对应的概念词。

根据所述概念知识库中的关键词和概念词的对应关系从所述概念知识库中获取所述问题语句的每个关键词的多个概念词,以得到所述问题语句的概念词组合。例如,问题语句包括关键词1和关键词2。在概念知识库中,样本语句1中的关键词1对应概念词11,样本语句2中的关键词1对应概念词12;样本语句3中的关键词2对应概念词21,样本语句3中的关键词2对运营概念词22。得到问题语句的关键词1对应的多个概念词为,概念词11和概念词12;问题语句的关键词2对应的多个概念词为,概念词21和概念词22。问题语句的概念词组合可以包括“概念词11-概念词21”、“概念词11-概念词22”、“概念词12-概念词21”、“概念词12-概念词22”。

可以基于联合概率计算所述概念词组合的最高概率得分。优化的目标函数是:

其中,w

在一种可选实施例中,基于联合概率计算所述概念词组合的概率得分为

如图3所示,所述计算所述概念词组合的概率得分进一步包括:

431,从所述概念知识库中随机抽取两个目标概念词,根据所述概念知识库的概念词计算所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率,得到多个第一概率;

432,从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率;

433,计算所述多个第一概率和所述多个第二概率的乘积,将得到的乘积结果作为所述概念词组合的概率得分。

具体地,所述多个第一概率和所述多个第二概率的乘积与P(e

在一具体实施例中,所述从所述概念知识库中随机抽取两个目标概念词,根据所述概念知识库的概念词计算所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率,得到多个第一概率,包括:

(a)将所述概念词组中的任意两个概念词记为第一概念词对,在所述概念知识库的每一个样本语句中查找所述第一概念词对,统计在所述概念知识库中查找到的所述第一概念词对的第一数量;

(b)获取所述概念知识库中的多个概念词,对所述概念知识库中的多个概念词进行去重处理,将所述概念知识库的去重概念词中的任意两个概念词记为第二概念词对,得到多个第二概念词对;

(c)计算在所述概念知识库中的所述多个第二概念词对的第二数量;

(d)计算所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值,将所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值作为所述概念词组合中的任意两个概念词的第一概率,得到多个第一概率。

具体地,所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值与P(e

在另一可选实施例中,所述根据所述概念知识库的概念词计算,从所述概念知识库中随机抽取两个目标概念词,所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率,得到多个第一概率,包括:

(a)将所述概念词组中的任意两个概念词记为第三概念词对,在所述概念知识库的每一个样本语句中查找所述第三概念词对,统计在所述概念知识库中查找到的所述第三概念词对的第三数量;

(b)从所述问题语句的关键词中获取与所述第三概念词对对应的目标关键词对,从所述概念知识库中获取与所述目标关键词对对应的多个第四概念词对,在所述概念知识库的每一个样本语句中查找所述多个第四概念词对,统计在所述概念知识库中查找到的所述多个第四概念词对的第四数量。

(c)计算所述第三概念词对的第三数量与所述多个第四概念词对的第四数量的比值,得到所述概念词组中的任意两个概念词的第一概率,得到多个第一概率。

在一具体实施例中,所述从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率,包括:

(a)将所述问题语句的每个关键词记为给定关键词,从所述概念词组合中查找所述给定关键词对应的概念词,记为给定概念词,将所述给定关键词和所述给定概念词组合为第一目标词对;

(b)在所述概念知识库的概念词中统计所述给定概念词的数量,记为第五数量;

(c)在所述概念知识库的关键词-概念词词对中统计所述第一目标词对的数量,记为第六数量;

(d)计算所述第六数量与所述第五数量的比值,得到所述给定关键词的第二概率,得到多个第二概率。

具体地,所述第六数量与所述第五数量的比值与P(w

在另一实施例中,所述从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率,包括:

(a)将所述问题语句的每个关键词记为指定关键词,从所述概念词组合中查找所述指定关键词对应的概念词,记为指定概念词;

(b)从所述问题语句中获取所述指定关键词的上下文信息,将所述给定关键词、所述上下文信息和所述给定概念词组合为第二目标词对,将所述上下文信息和所述给定概念词组合为第三目标词对;

(c)获取所述概念知识库的上下文信息-概念词词对,和所述概念知识库的关键词-上下文信息-概念词词对;

(d)在所述概念知识库的上下文信息-概念词词对中统计所述第三目标词对的数量,记为第七数量;

(e)在所述概念知识库的关键词-上下文信息-概念词词对中统计所述第四目标词对的数量,记为第八数量;

(f)计算所述第八数量与所述第七数量的比值,得到所述指定关键词的第二概率,进而得到多个第二概率。

具体地,所述第八数量与所述第七数量的比值与P(w

如上例,问题语句为“百万医哪些病可保”,问题语句的关键词对应的概念词为“e生平安百万医,what,疾病,保障”。

105,按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

例如,可以获取预设词队列,将问题语句的关键词转化为词向量,将转化得到的多个词向量按照问题语句的关键词的词序组合为概念词序列,并存储所述预设词队列。

所述概念词序列是所述问题语句的抽象表示,可以作为中间数据,用于进一步对所述问题语句进行自然语言处理。

在另一实施例中,在所述按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列之后,所述概念词序列生成方法还包括:

根据所述概念词序列匹配与所述问题语句对应的答案。

通过根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词,提升生成概念词序列的效率,从而增加通过语句的概念词序列进行问答匹配的准确率。

实施例一的概念词序列生成方法根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词,并生成语句的概念词序列,提升生成概念词序列的效率。

通过本发明上述概念词序列生成方法,能够在医疗科技的远程问诊中提升概念词序列的效率,进而提高远程问诊的问答准确度,有利于远程医疗服务的发展。

实施例二

图4是本发明实施例二提供的概念词序列生成装置的结构图。所述概念词序列生成装置20应用于计算机设备。所述概念词序列生成装置20用于生成语句的概念词序列,提升生成概念词序列的效率。

如图4所示,所述概念词序列生成装置20可以包括第一获取模块201、第二获取模块202、提取模块203、确定模块204、组合模块205。

第一获取模块201,用于获取问题语句。

在一具体实施例中,所述获取问题语句可包括:从云存储中拉取问题语句;或接收用户输入的问题语句;或通过摄像头采集包括问题语句的图像,通过文字符识别方法识别所述图像中的问题语句。本申请不做具体限制。本申请中,问题语句可以为与医疗保险相关的提问语句,例如,问题语句为“百万医哪些病可保”。

第二获取模块202,用于获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词。

例如,样本语句为“我在苹果手机上定了5斤苹果”,样本语句对应的多个关键词为第一个“苹果”、第二个“苹果”,第一个“苹果”对应一个概念词“苹果手机”,第二个“苹果”对应另一个概念词“水果苹果”。

再如,样本语句为“这个程序员经常被别人叫做码农”,样本语句对应的多个关键词为“程序员”、“码农”,“程序员”对应概念词“计算机从业者”,“码农”对应概念词“计算机从业者”。

所述多个样本语句中可以存在多个相同关键词,所述多个相同关键词对应的概念词可以相同、也可以不同。

每个样本语句对应的多个关键词可以是所述样本语句中的实体对象,也可以是所述样本语句的关键意图。在基于知识体系的问答匹配模型中,需要加入人对知识的认知,即关键词和关键词对应的概念词之间的对应关系。如苹果可以被认为是水果,也可以被认为是手机。

通过概念词和关键词之间的对应关系进行索引、匹配、推荐,能降低问答匹配模型的计算延迟。概念词之间的联系还可以用于保险产品的推荐。

提取模块203,用于根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词。

所述概念知识库包括多个样本语句,每个样本语句对应多个关键词。即概念库中包含了标注有关键词的多个样本语句,可以作为有参考价值的历史数据,可以基于统计学方法从所述问题语句中提取关键词。

在一具体实施例中,所述根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词包括:

对所述问题语句进行多次随机分词,得到多个分词结果;

对于每个分词结果,根据所述概念知识库的关键词计算所述分词结果中的每个词语的相似度得分和长度得分;

根据所述分词结果中的每个词语的相似度得分和长度得分计算所述分词结果的关键词得分;

从关键词得分最低的分词结果中提取词语作为所述问题语句的关键词。

具体的,对于分词结果的详细说明如下。对于多个分词结果中的任意一个分词结果,该分词结果中包括K个词语。对于所述分词结果中的任一词语,所述任一词语的长度越短,所述任一词语的长度得分越低;从所述概念知识库中获取所述任一词语的最相似关键词,将所述任一词语与所述最相似关键词的相似度的倒数确定为所述任一词语的相似度得分,所述任一词语与所述最相似关键词的相似度越高,所述任一词语的相似度得分越低。

具体地,所述分词结果的最低关键词得分为keywords,

具体地,所述从所述概念知识库中获取所述任一词语的最相似关键词可以包括:

获取所述概念知识库中的每个词语的向量表示;

基于向量表示计算所述任一词语与所述概念知识库中的每个词语的欧式距离;

在所述概念知识库中,将与所述任一词语的欧式距离最小的词语确定为最相似关键词。

确定模块204,用于根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词。

所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词。即所述概念知识库中存在关键词与概念词的对应关系。可以用统计学方法基于所述概念知识库中的关键词与概念词的对应关系从所述问题语句中提取关键词。

在一具体实施例中,所述根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词包括:

41,根据所述概念知识库中的关键词和概念词的对应关系从所述概念知识库中获取所述问题语句的每个关键词的多个概念词;

42,将所述问题语句的每个关键词的任一概念词组合为所述问题语句的一个概念词组合,得到所述问题语句的多个概念词组合;

43,对于所述问题语句的每个概念词组合,计算所述概念词组合的概率得分;

44,匹配概率得分最高的概念词组合中的概念词,得到所述问题语句的关键词对应的概念词。

根据所述概念知识库中的关键词和概念词的对应关系从所述概念知识库中获取所述问题语句的每个关键词的多个概念词,以得到所述问题语句的概念词组合。例如,问题语句包括关键词1和关键词2。在概念知识库中,样本语句1中的关键词1对应概念词11,样本语句2中的关键词1对应概念词12;样本语句3中的关键词2对应概念词21,样本语句3中的关键词2对运营概念词22。得到问题语句的关键词1对应的多个概念词为,概念词11和概念词12;问题语句的关键词2对应的多个概念词为,概念词21和概念词22。问题语句的概念词组合可以包括“概念词11-概念词21”、“概念词11-概念词22”、“概念词12-概念词21”、“概念词12-概念词22”。

可以基于联合概率计算所述概念词组合的最高概率得分。优化的目标函数是:

其中,w

在一种可选实施例中,基于联合概率计算所述概念词组合的概率得分为P(e

在一具体实施例中,所述计算所述概念词组合的概率得分进一步包括:

431,从所述概念知识库中随机抽取两个目标概念词,根据所述概念知识库的概念词计算所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率,得到多个第一概率;

432,从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率;

433,计算所述多个第一概率和所述多个第二概率的乘积,将得到的乘积结果作为所述概念词组合的概率得分。

具体地,所述多个第一概率和所述多个第二概率的乘积与P(e

在一具体实施例中,所述从所述概念知识库中随机抽取两个目标概念词,根据所述概念知识库的概念词计算所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率,得到多个第一概率,包括:

(a)将所述概念词组中的任意两个概念词记为第一概念词对,在所述概念知识库的每一个样本语句中查找所述第一概念词对,统计在所述概念知识库中查找到的所述第一概念词对的第一数量;

(b)获取所述概念知识库中的多个概念词,对所述概念知识库中的多个概念词进行去重处理,将所述概念知识库的去重概念词中的任意两个概念词记为第二概念词对,得到多个第二概念词对;

(c)计算在所述概念知识库中的所述多个第二概念词对的第二数量;

(d)计算所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值,将所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值作为所述概念词组合中的任意两个概念词的第一概率,得到多个第一概率。

具体地,所述第一概念词对的第一数量与所述多个第二概念词对的第二数量的比值与P(e

在另一可选实施例中,所述根据所述概念知识库的概念词计算,从所述概念知识库中随机抽取两个目标概念词,所述两个目标概念词与所述概念词组合中的任意两个概念词一致的第一概率包括:

(a)将所述概念词组中的任意两个概念词记为第三概念词对,在所述概念知识库的每一个样本语句中查找所述第三概念词对,统计在所述概念知识库中查找到的所述第三概念词对的第三数量;

(b)从所述问题语句的关键词中获取与所述第三概念词对对应的目标关键词对,从所述概念知识库中获取与所述目标关键词对对应的多个第四概念词对,在所述概念知识库的每一个样本语句中查找所述多个第四概念词对,统计在所述概念知识库中查找到的所述多个第四概念词对的第四数量。

(c)计算所述第三概念词对的第三数量与所述多个第四概念词对的第四数量的比值,得到所述概念词组中的任意两个概念词的第一概率,得到多个第一概率。

在一具体实施例中,所述从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率,包括:

(a)将所述问题语句的每个关键词记为给定关键词,从所述概念词组合中查找所述给定关键词对应的概念词,记为给定概念词,将所述给定关键词和所述给定概念词组合为第一目标词对;

(b)在所述概念知识库的概念词中统计所述给定概念词的数量,记为第五数量;

(c)在所述概念知识库的关键词-概念词词对中统计所述第一目标词对的数量,记为第六数量;

(d)计算所述第六数量与所述第五数量的比值,得到所述给定关键词的第二概率,得到多个第二概率。

具体地,所述第六数量与所述第五数量的比值与P(w

在另一实施例中,所述从所述概念知识库中随机抽取一个关键词,根据所述概念知识库的关键词和概念词计算抽取的所述一个关键词与所述问题语句的每个关键词一致的第二概率,得到多个第二概率,包括:

(a)将所述问题语句的每个关键词记为指定关键词,从所述概念词组合中查找所述指定关键词对应的概念词,记为指定概念词;

(b)从所述问题语句中获取所述指定关键词的上下文信息,将所述给定关键词、所述上下文信息和所述给定概念词组合为第二目标词对,将所述上下文信息和所述给定概念词组合为第三目标词对;

(c)获取所述概念知识库的上下文信息-概念词词对,和所述概念知识库的关键词-上下文信息-概念词词对;

(d)在所述概念知识库的上下文信息-概念词词对中统计所述第三目标词对的数量,记为第七数量;

(e)在所述概念知识库的关键词-上下文信息-概念词词对中统计所述第四目标词对的数量,记为第八数量;

(f)计算所述第八数量与所述第七数量的比值,得到所述指定关键词的第二概率,进而得到多个第二概率。

具体地,所述第八数量与所述第七数量的比值与P(w

如上例,问题语句为“百万医哪些病可保”,问题语句的关键词对应的概念词为“e生平安百万医,what,疾病,保障”。

组合模块205,用于按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

例如,可以获取预设词队列,将问题语句的关键词转化为词向量,将转化得到的多个词向量按照问题语句的关键词的词序组合为概念词序列,并存储所述预设词队列。

所述概念词序列是所述问题语句的抽象表示,可以作为中间数据,用于进一步对所述问题语句进行自然语言处理。

在另一实施例中,概念词序列生成装置还包括匹配模块,用于在所述按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列之后,根据所述概念词序列匹配与所述问题语句对应的答案。

通过根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词,提升生成概念词序列的效率,从而增加通过语句的概念词序列进行问答匹配的准确率。

实施例二的概念词序列生成装置20根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词,并生成语句的概念词序列,提升生成概念词序列的效率。

实施例三

本实施例提供一种存储介质,该存储介质上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述概念词序列生成方法实施例中的步骤,例如图1所示的步骤101-105:

101,获取问题语句;

102,获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词;

103,根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词;

104,根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词;

105,按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

或者,该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能,例如图4中的模块201-205:

第一获取模块201,用于获取问题语句;

第二获取模块202,用于获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词;

提取模块203,用于根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词;

确定模块204,用于根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词;

组合模块205,用于按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

实施例四

图5为本发明实施例三提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机可读指令,例如概念词序列生成程序。所述处理器302执行所述计算机可读指令时实现上述概念词序列生成方法实施例中的步骤,例如图1所示的101-105:

101,获取问题语句;

102,获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词;

103,根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词;

104,根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词;

105,按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

或者,该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能,例如图4中的模块201-205:

第一获取模块201,用于获取问题语句;

第二获取模块202,用于获取概念知识库,所述概念知识库包括多个样本语句,每个样本语句对应多个关键词,所述样本语句的每个关键词对应一个概念词;

提取模块203,用于根据所述概念知识库的关键词从所述问题语句中提取所述问题语句的关键词;

确定模块204,用于根据所述概念知识库中的关键词和概念词的对应关系确定所述问题语句的关键词对应的概念词;

组合模块205,用于按照所述问题语句的关键词的词序将所述问题语句的关键词对应的概念词组合为概念词序列。

示例性的,所述计算机可读指令可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令在所述计算机设备30中的执行过程。例如,所述计算机可读指令可以被分割成图4中的第一获取模块201、第二获取模块202、提取模块203、确定模块204、组合模块205,各模块具体功能参见实施例二。

本领域技术人员可以理解,所述示意图5仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。

所述存储器301可用于存储所述计算机可读指令,所述处理器302通过运行或执行存储在所述存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。

所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)等。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述概念词序列生成方法的部分步骤。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 概念词序列生成方法、装置、计算机设备及存储介质
  • 关键词生成方法、装置、电子设备及计算机存储介质
技术分类

06120112188420