掌桥专利:专业的专利平台
掌桥专利
首页

问答对检测方法、电子设备、介质及程序产品

文献发布时间:2023-06-19 16:12:48



技术领域

本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种问答对检测方法、电子设备、介质及程序产品。

背景技术

随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。

在AI电话销售场景下通常会留存大量的通话录音数据,而从这些通话录音数据可挖掘出具备学习意义的问答对,进而利用这些问答对可提升电话销售机器人的智能性,目前,通常由业务经验丰富的人员以人工翻阅的方式,在通话语音数据中查找具备学习意义的问答对,也即进行问答对检测,从而构建相对应的问答对数据库,但是通话录音数据中通常存在大量的无学习意义的噪音数据,通过人工翻阅的方式去查找自身需要的问答对费时费力,问答对的检测效率极低。

发明内容

本申请的主要目的在于提供一种问答对检测方法、电子设备、介质及程序产品,旨在解决现有技术中问答对检测效率低的技术问题。

为实现上述目的,本申请提供一种问答对检测方法,所述问答对检测方法包括:

获取第一待检测句子以及预设问答场景下的预设问题检测模型;

依据所述预设问题检测模型,判断所述第一待检测句子是否为所述预设问答场景下的目标问题句子;

若所述第一待检测句子为所述目标问题句子,则在所述目标问题句子的预设上下文范围内获取各第二待检测句子;

依据预设问答匹配模型,分别检测所述目标问题句子和各所述第二待检测句子之间的问答匹配度;

根据各所述问答匹配度,在各所述第二待检测句子中选取匹配度最高的句子作为所述目标问题句子对应的目标答案句子;

将所述目标问题句子和所述目标答案句子共同作为目标问答对。

可选地,所述依据预设问答匹配模型,分别检测所述目标问题句子和各所述第二待检测句子之间的问答匹配度的步骤包括:

构建所述目标问题句子和所述第二待检测句子共同对应的问答对特征;

通过将所述问答对特征输入所述预设问答匹配模型,预测所述目标问题句子和所述第二待检测句子之间的问答匹配度。

可选地,所述问答对特征包括问答对特征向量,

所述构建所述目标问题句子和所述第二待检测句子共同对应的问答对特征的步骤包括:

获取所述目标问题句子对应的第一句子向量以及所述第二待检测句子对应的第二句子向量;

计算所述目标问题句子和所述第二待检测句子之间的词重复比例和句子相似度;

将所述第一句子向量、所述第二句子向量、所述词重复比例以及所述句子相似度进行拼接,得到所述问答对特征向量。

可选地,所述依据所述预设问题检测模型,判断所述第一待检测句子是否为所述预设问答场景下的目标问题句子的步骤包括:

依据预设通顺度检测模型,对所述第一待检测句子进行通顺度检测,得到通顺度检测结果;

若所述通顺度检测结果为合格,则依据所述预设问题检测模型,对所述第一待检测句子进行二分类,得到二分类标签;

依据所述二分类标签,判别所述第一待检测句子是否为所述预设问答场景下的目标问题句子。

可选地,所述第一待检测句子包括目标词序列和目标句尾符号,所述依据预设通顺度检测模型,对所述第一待检测句子进行通顺度检测,得到通顺度检测结果的步骤包括:

依据所述预设通顺度检测模型,预测所述第一待检测句子中词序列的通顺概率,以及所述第一待检测句子中词序列后出现所述目标句尾符号的通顺概率,得到第一概率评分和第二概率评分;

依据所述第一概率评分和所述第二概率评分,对所述第一待检测句子进行通顺度检测,得到通顺度检测结果。

可选地,在所述将所述目标问题句子和所述目标答案句子共同作为目标问答对的步骤之后,所述问答对检测方法还包括:

获取所述预设问答场景下的目标问答对集合,其中,所述目标问答对集合至少包括一所述目标问答对;

对各所述目标问答对中的目标问题句子进行聚类,得到聚类结果;

根据所述聚类结果,对各所述目标问题句子进行去重,得到去重问题句子集合;

根据所述去重问题句子集合,更新所述目标问答对集合。

可选地,所述在所述目标问题句子的预设上下文范围内获取各第二待检测句子的步骤包括:

在所述预设问答场景下的通话记录文本数据中采集在所述目标问题句子的预设上下文范围内的文本句子;

根据上下文顺序,对各所述文本句子进行排列组合,得到各排列组合句子;

将各所述文本句子和各所述排列组合句子共同作为各所述第二待检测句子。

本申请还提供一种问答对检测装置,所述问答对检测装置包括:

第一获取模块,用于获取第一待检测句子以及预设问答场景下的预设问题检测模型;

判别模块,用于依据所述预设问题检测模型,判断所述第一待检测句子是否为所述预设问答场景下的目标问题句子;

第二获取模块,用于若所述第一待检测句子为所述目标问题句子,则在所述目标问题句子的预设上下文范围内获取各第二待检测句子;

问答匹配度检测模块,用于依据预设问答匹配模型,分别检测所述目标问题句子和各所述第二待检测句子之间的问答匹配度;

选取模块,用于根据各所述问答匹配度,在各所述第二待检测句子中选取匹配度最高的句子作为所述目标问题句子对应的目标答案句子;

确定模块,用于将所述目标问题句子和所述目标答案句子共同作为目标问答对。

可选地,所述问答匹配度检测模块还用于:

构建所述目标问题句子和所述第二待检测句子共同对应的问答对特征;

通过将所述问答对特征输入所述预设问答匹配模型,预测所述目标问题句子和所述第二待检测句子之间的问答匹配度。

可选地,所述问答对特征包括问答对特征向量,所述问答匹配度检测模块还用于:

获取所述目标问题句子对应的第一句子向量以及所述第二待检测句子对应的第二句子向量;

计算所述目标问题句子和所述第二待检测句子之间的词重复比例和句子相似度;

将所述第一句子向量、所述第二句子向量、所述词重复比例以及所述句子相似度进行拼接,得到所述问答对特征向量。

可选地,所述判别模块还用于:

依据预设通顺度检测模型,对所述第一待检测句子进行通顺度检测,得到通顺度检测结果;

若所述通顺度检测结果为合格,则依据所述预设问题检测模型,对所述第一待检测句子进行二分类,得到二分类标签;

依据所述二分类标签,判别所述第一待检测句子是否为所述预设问答场景下的目标问题句子。

可选地,所述判别模块还用于:

依据所述预设通顺度检测模型,预测所述第一待检测句子中词序列的通顺概率,以及所述第一待检测句子中词序列后出现所述目标句尾符号的通顺概率,得到第一概率评分和第二概率评分;

依据所述第一概率评分和所述第二概率评分,对所述第一待检测句子进行通顺度检测,得到通顺度检测结果。

可选地,所述问答对检测装置还用于:

获取所述预设问答场景下的目标问答对集合,其中,所述目标问答对集合至少包括一所述目标问答对;

对各所述目标问答对中的目标问题句子进行聚类,得到聚类结果;

根据所述聚类结果,对各所述目标问题句子进行去重,得到去重问题句子集合;

根据所述去重问题句子集合,更新所述目标问答对集合。

可选地,所述第二获取模块还用于:

在所述预设问答场景下的通话记录文本数据中采集在所述目标问题句子的预设上下文范围内的文本句子;

根据上下文顺序,对各所述文本句子进行排列组合,得到各排列组合句子;

将各所述文本句子和各所述排列组合句子共同作为各所述第二待检测句子。

本申请还提供一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述问答对检测方法的程序,所述问答对检测方法的程序被处理器执行时可实现如上述的问答对检测方法的步骤。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现问答对检测方法的程序,所述问答对检测方法的程序被处理器执行时实现如上述的问答对检测方法的步骤。

本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的问答对检测方法的步骤。

本申请提供了一种问答对检测方法、电子设备、介质及程序产品,也即首先获取第一待检测句子以及预设问答场景下的预设问题检测模型;依据所述预设问题检测模型,判断所述第一待检测句子是否为所述预设问答场景下的目标问题句子,根据具体问答场景下的预设问题检测模型,准确检测第一待句子是否为具体问答场景下的问题的目的;若所述第一待检测句子为所述目标问题句子,则在所述目标问题句子的预设上下文范围内获取各第二待检测句子,依据预设问答匹配模型,分别检测所述目标问题句子和各所述第二待检测句子之间的问答匹配度,根据各所述问答匹配度,在各所述第二待检测句子中选取匹配度最高的句子作为所述目标问题句子对应的目标答案句子,实现在目标问题句子的上下文中寻找对应的答案句子,其中,与目标问题句子最为匹配的上下文句子即为目标答案句子,从而将所述目标问题句子和所述目标答案句子共同作为目标问答对,实现了从原始通话记录中自动挖掘问答对,无需以人工翻阅的方式从原始通话记录中查阅问答对,从而克服了现有技术中通话录音数据中存在大量的无学习意义的噪音数据,通过人工翻阅的方式去查找自身需要的问答对费时费力的技术缺陷,所以提升了问答对检测的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请问答对检测方法第一实施例的流程示意图;

图2为本申请问答对检测方法中合成个性化音频的流程示意图;

图3为本申请问答对检测方法第二实施例的流程示意图;

图4为本申请实施例中问答对检测方法涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,均属于本申请保护的范围。

实施例一

本申请实施例提供一种问答对检测方法,在本申请问答对检测方法的第一实施例中,参照图1,问答对检测方法包括:

步骤S10,获取第一待检测句子以及预设问答场景下的预设问题检测模型;

步骤S20,依据预设问题检测模型,判别第一待检测句子是否为预设问答场景下的目标问题句子;

在本实施例中,需要说明的是,预设问答场景可以为机器人电话场景,例如AI客服场景等,在此不做限定。而在预设问答场景下通常会产生大量通话录音,这些通话录音可以通过语音转文本转换为对应的通话记录文本数据,而由于通话记录文本数据中存在大量除了问答对之外的通话记录,因此需要从通话记录文本中挖掘出预设问答场景下匹配的问答对,从而可以将这些匹配的问答对保存下来作为预设问答场景下的应答话术。

作为一种示例,步骤S10至步骤S20包括:获取预设问答场景下的预设问题检测模型,其中,预设问题检测模型为依据预设问答场景下的问答数据进行训练得到的机器学习模型,用于查找预设问答场景下匹配的问题句子;从预设问答场景下的通话记录文本数据中提取第一待检测句子;将第一待检测句子转换为对应的句子向量,通过将第一待检测句子对应的句子向量输入预设问题检测模型,对第一待检测句子进行分类,得到分类结果,根据分类结果,判别第一待检测句子是否为预设问答场景下的目标问题句子。其中,分类结果可以为分类标签,也可以为分类概率,目标问题句子为预设问答场景下具备预设分类标签的有效问题句子(即表达了具体疑问指向和意义的问句),预设分类标签为标识问题句子为有效问题句子的标签,例如可设置标签为1时,标识问题句子为有效问题句子,设置标签为0时,标识问题句子不为有效问题句子(即没有明确疑问对象的问句)。

步骤S30,若第一待检测句子为目标问题句子,则在目标问题句子的预设上下文范围内获取各第二待检测句子;

步骤S40,依据预设问答匹配模型,分别检测目标问题句子和各第二待检测句子之间的问答匹配度;

在本实施例中,需要说明的是,预设问答匹配模型为预先训练好的机器学习模型,用于检测问题句子与问题答案之间的问答匹配度,问答匹配度可以为问题句子与问题答案之间的句子相似度。

作为一种示例,步骤S30至步骤S40包括:若第一待检测句子不为预设问答场景下的目标问题句子,则返回执行步骤:从预设问答场景下的通话记录文本数据中提取第一待检测句子;若第一待检测句子为预设问答场景下的目标问题句子,则将通话记录文本数据中在目标问题句子的预设上下文范围内的所有文本句子作为第二待检测句子;通过分别将目标问题句子对应的句子向量和每一第二待检测句子对应的句子向量共同输入预设问答匹配模型,分别计算目标问题句子和每一预设问答匹配模型之间的相似度,得到目标问题句子和各第二待检测句子之间的问答匹配度。

步骤S50,根据各问答匹配度,在各第二待检测句子中选取匹配度最高的句子作为目标问题句子对应的目标答案句子;

步骤S60,将目标问题句子和目标答案句子共同作为目标问答对。

作为一种示例,步骤S50至步骤S60包括:在各第二待检测句子中选取问答匹配度最高的第二待检测句子为目标答案句子;将目标问题句子和目标答案句子共同保存为目标问答对。例如目标问题句子和目标答案句子可以以键值对形式保存为目标问答对。

作为一种示例,预设问题检测模型的训练过程如下:

从第一训练样本集中获取第一训练样本以及第一训练样本对应的问题类型标签,其中,第一训练样本可以为预设问答场景下的通话记录数据中的文本句子,问题类型标签为标识第一训练样本是否为预设问答场景下的目标问题句子的标签,例如可设置问题类型标签为1,标识第一训练样本为预设问题场景下的目标问题句子,可设置问题类型标签为0,标识第一训练样本不为预设问题场景下的目标问题句子;将第一训练样本对应的句子向量输入待训练问题检测模型,对第一训练样本进行分类,得到输出分类标签;根据输出分类标签和问题类型标签之间的差值,计算模型损失;判断模型损失是否收敛,若收敛,则将待训练问题检测模型作为预设问题检测模型;若未收敛,则根据模型损失计算的模型梯度,对待训练问题检测模型进行更新,并返回执行步骤:从第一训练样本集中获取第一训练样本以及第一训练样本对应的问题类型标签。

作为一种示例,预设问答匹配模型的训练过程如下:

从第二训练样本集中提取第二训练样本以及第二训练样本对应的真实样本标签,其中,第二训练样本包括训练问题句子和对应的训练答案句子,真实样本标签用于标识训练问题句子和训练答案句子之间的问答匹配度;将训练问题句子的句子向量和训练问题句子相对应的训练答案句子的句子向量输入待训练问答匹配模型,预测训练问题句子和训练答案句子之间的相似度,得到训练问答匹配度;根据训练问答匹配度和真实样本标签之间的差值,计算模型损失;判断模型损失是否收敛,若收敛,则将待训练问答匹配模型作为预设问答匹配模型;若未收敛,则根据模型损失计算的模型梯度,对待训练问答匹配模型进行更新,并返回执行步骤:从第二训练样本集中提取第二训练样本以及第二训练样本对应的真实样本标签,直至计算得到的模型损失收敛。

作为一种示例,第二训练样本包括正样本和负样本。可依据预设问题检测模型在预设问答场景下的通话记录数据中筛选预设问答场景下的有效问题句子;在有效问题句子的上下文中确定有效问题句子对应的正确答案句子,并为有效问题句子和对应的正确答案句子标注正样本标签,将有效问题句子、对应的正确答案句子和正样本标签共同作为正样本;在有效问题句子的上下文中除正确答案句子之外的其他句子中随机选取一句子作为错误答案句子,并为有效问题句子和对应的错误答案句子标注负样本标签,将有效问题句子、对应的错误答案句子和负样本标签共同作为负样本。其中,有效问题句子为训练问题句子,正确答案句子为正样本中的训练答案句子,正样本标签为正样本的真实样本标签,错误答案句子为负样本中的训练答案句子,负样本标签为负样本的真实样本标签。

其中,在将目标问题句子和目标答案句子共同作为目标问答对的步骤之后,问答对检测方法还包括:

步骤S70,获取预设问答场景下的目标问答对集合,其中,目标问答对集合至少包括一目标问答对;

步骤S80,对各目标问答对中的目标问题句子进行聚类,得到聚类结果;

步骤S90,根据聚类结果,对各目标问题句子进行去重,得到去重问题句子集合;

步骤S100,根据去重问题句子集合,更新目标问答对集合。

在本实施例中,需要说明的是,目标问答对集合为根据步骤S10至步骤S60从预设问答场景下获取的所有目标问答对的集合。

作为一种示例,步骤S70至步骤S100包括:获取预设问答场景下的通话记录文本数据中的所有目标问答对,得到目标问答对集合;依据各目标问答对中的目标问题句子之间的语义相似度,对各目标问题句子进行聚类,得到多个聚类簇;在各目标问题句子中通过为每一聚类簇保留一对应的目标问题句子并删除每一聚类簇中其他目标问题句子,对各目标问题句子进行去重,得到去重问题句子集合;重新建立去重问题句子集合中每一问题句子与目标问答对集合中各目标答案句子之间的问答对应关系,根据问题对应关系,将去重问题句子集合和各目标答案句子关联保存为更新后的目标问答对集合。例如,假设聚类簇1包括目标问题句子A1和A2,相对应的目标答案句子为B1和B2,聚类簇2包括目标问题句子C1和C2,相对应的目标答案句子为D1和D2,则聚类簇1保留目标问题句子A1,聚类簇2保留目标问题句子C1,则更新后的问答对集合为((A1,B1,B2),(C1,D1,D2)),其中,A1的答案为B1和B2,C1的答案为D1和D2。需要说明的是,在预设问答场景下的通话记录文本数据的数据量级较大,从而在各目标问题句子中会存在许多语义重复的问题句子,从而本申请实施例中对各目标问题句子进行聚类,依据聚类结果对各目标问题句子进行去重,以更新目标问答对集合,使得目标问答对集合的数据量级变小,提升问答对检测的效果,也即提升了对问答对的数据挖掘效果。

其中,在目标问题句子的预设上下文范围内获取各第二待检测句子的步骤包括:

步骤S31,在预设问答场景下的通话记录文本数据中采集在目标问题句子的预设上下文范围内的文本句子;

步骤S32,根据上下文顺序,对各文本句子进行排列组合,得到各排列组合句子;

步骤S33,将各文本句子和各排列组合句子共同作为各第二待检测句子。

在本实施例中,需要说明的,在预设问答场景下,答复问题者常常会边回答边思考答案,所以存在多句话组成在一起才是一个完整答案的情况,因此需要将对句话进行组合,才能得到目标答案句子。

作为一种示例,步骤S31至步骤S33包括:在预设问答场景下的通话记录文本数据中采集在目标问题句子的预设上下文范围内的文本句子;按照上下文顺序,将各文本句子进行排列组合,得到各排列组合句子;将各文本句子和各排列组合句子共同作为各第二待检测句子。本申请实施例丰富了第二待检测句子的来源,充分考虑到了答案断句的可能性,避免了由于答案断句而无法为目标问题句子匹配到一个准确的目标答案句子的情况发生,提升了问答对检测的准确度。

作为一种示例,假设目标问题句子的预设上下文范围内的文本句子分别为ABCD,上下文顺序为A-B-C-D,预先设定完整答案由2句话组成,则按照上下文顺序,将各文本句子进行排列组合,得到的排列组合句子分别为AB、AC、AD、BC、BD和CD共6个组合句子。

本申请实施例提供了一种问答对检测方法,也即首先获取第一待检测句子以及预设问答场景下的预设问题检测模型;依据预设问题检测模型,判别第一待检测句子是否为预设问答场景下的目标问题句子,实现根据具体问答场景下的预设问题检测模型,准确检测第一待句子是否为具体问答场景下的问题的目的;若第一待检测句子为目标问题句子,则在目标问题句子的预设上下文范围内获取各第二待检测句子,依据预设问答匹配模型,分别检测目标问题句子和各第二待检测句子之间的问答匹配度,根据各问答匹配度,在各第二待检测句子中选取匹配度最高的句子作为目标问题句子对应的目标答案句子,实现在目标问题句子的上下文中寻找对应的答案句子,其中,与目标问题句子最为匹配的上下文句子即为目标答案句子,从而将目标问题句子和目标答案句子共同作为目标问答对,实现了从原始通话记录中自动挖掘问答对,无需以人工翻阅的方式从原始通话记录中查阅问答对,从而克服了现有技术中通话录音数据中存在大量的无学习意义的噪音数据,通过人工翻阅的方式去查找自身需要的问答对费时费力的技术缺陷,所以提升了问答对检测的效率。

实施例二

进一步地,参照图2,基于上述第一实施例,在本申请问答对检测方法的另一实施例中,依据预设问答匹配模型,分别检测目标问题句子和各第二待检测句子之间的问答匹配度的步骤包括:

步骤S41,构建目标问题句子和第二待检测句子共同对应的问答对特征;

步骤S42,通过将问答对特征输入预设问答匹配模型,预测目标问题句子和第二待检测句子之间的问答匹配度。

在本实施例中,需要说明的是,问答对特征为表征目标问题句子的句子特征和第二待检测句子的句子特征的特征向量。

作为一种示例,步骤S41至步骤S42包括:将目标问题句子对应的句子向量和第二待检测句子对应的句子向量进行拼接,得到拼接向量,将拼接向量作为问答对特征;通过将问答对特征输入预设问答匹配模型,预测目标问题句子和第二待检测句子相匹配的概率,得到目标问题句子和第二待检测句子之间的问答匹配度,其中,预设问答匹配模型可以为逻辑回归模型,问答匹配度可以为逻辑回归模型输出的逻辑回归值。

其中,问答对特征包括问答对特征向量,构建目标问题句子和第二待检测句子共同对应的问答对特征的步骤包括:

步骤S411,获取目标问题句子对应的第一句子向量以及第二待检测句子对应的第二句子向量;

步骤S412,计算目标问题句子和第二待检测句子之间的词重复比例和句子相似度;

步骤S413,将第一句子向量、第二句子向量、词重复比例以及句子相似度进行拼接,得到问答对特征向量。

在本实施例中,需要说明的是,句子相似度可以为tf-idf相似度和KL相似度中的一种或者多种,可以通过预训练的bert模型将文本句子转换为对应的句子向量,其中,KL相似度为KL散度(Kullback-Leibler Divergence),也称相对熵。

作为一种示例,步骤S411至步骤S413包括:获取目标问题句子对应的第一句子向量以及第二待检测句子对应的第二句子向量;计算第一句子向量和第二句子向量中相同位置的词向量之间的词相似度;根据各词相似度,确定第一句子向量和第二句子向量中的各重复词;计算各重复词的词数量和目标问题句子的词数量之间的比值,得到词重复比例;计算目标问题句子和第二待检测句子之间的tf-idf相似度和KL相似度;将第一句子向量、第二句子向量、词重复比例、tf-idf相似度和KL相似度进行拼接,将拼接得到的向量作为问答对特征向量。

本申请实施例提供了一种问答匹配度检测方法,也即获取目标问题句子对应的第一句子向量以及第二待检测句子对应的第二句子向量;计算目标问题句子和第二待检测句子之间的词重复比例和句子相似度;将第一句子向量、第二句子向量、词重复比例以及句子相似度进行拼接,得到问答对特征;通过将问答对特征输入预设问答匹配模型,预测目标问题句子和第二待检测句子之间的问答匹配度。实现了以目标问题句子本身、第二待检测句子本身以及目标问题句子和第二待检测句子之间的相关性参数为依据,预测目标问题句子和第二待检测句子之间的问答匹配度的目的,其中,相关性参数包括词重复比例和句子相似度,而非仅依据句子向量之间的向量距离来进行问答匹配,为问答匹配提供了更多的决策依据,所以提升了问答匹配检测的准确度。

进一步地,参照图3,基于上述第一实施例,在本申请问答对检测方法的另一实施例中,依据预设问题检测模型,判别第一待检测句子是否为预设问答场景下的目标问题句子的步骤包括:

步骤S51,依据预设通顺度检测模型,对第一待检测句子进行通顺度检测,得到通顺度检测结果;

步骤S52,若通顺度检测结果为合格,则依据预设问题检测模型,对第一待检测句子进行二分类,得到二分类标签;

步骤S53,依据二分类标签,判别第一待检测句子是否为预设问答场景下的目标问题句子。

在本实施例中,需要说明的是,预设通顺度检测模型用于检测第一待检测句子的通顺度,具体可以检测词序列的语义通顺度和句子中标点符号设置的合理性,作为一种示例,预设通顺度检测模型可以为RNNLM(RNN Language Model,循环神经网络语言模型),通顺度检测结果可以为通顺度检测评分。

作为一种示例,步骤S51至步骤S52包括:依据预设通顺度检测模型,检测第一待检测句子中各词的排列顺序为第一待检测句子对应的目标词序列的概率评分,以及检测第一待检测句子中词序列后出现目标句尾符号的概率评分,得到通顺度检测评分;若通顺度检测评分大于预设通顺度检测评分阈值,则判定通顺度检测合格;将第一待检测句子对应的句子向量输入预设问题检测模型,将第一待检测句子对应的句子向量映射为对应的二分类标签;依据二分类标签,判别第一待检测句子是否为预设问答场景下的目标问题句子,例如,若二分类标签为1,则判定第一待检测句子为预设问答场景下的目标问题句子,若二分类标签为0,则判定第一待检测句子不为预设问答场景下的目标问题句子。

其中,第一待检测句子包括目标词序列和目标句尾符号,

依据预设通顺度检测模型,对第一待检测句子进行通顺度检测,得到通顺度检测结果的步骤包括:

步骤S511,依据预设通顺度检测模型,预测第一待检测句子中词序列的通顺概率,以及第一待检测句子中词序列后出现目标句尾符号的通顺概率,得到第一概率评分和第二概率评分;

步骤S512,依据第一概率评分和第二概率评分,对第一待检测句子进行通顺度检测,得到通顺度检测结果。

在本实施例中,需要说明的是,预设通顺度检测模型可以为循环神经网络模型,例如LSTM(Long Short-Term Memory,长短期记忆网络)等。

作为一种示例,步骤S511至步骤S512包括:获取第一待检测句子中各词组成的词序列共同对应的第一词序列向量,以及第一待检测句子对应的目标句尾符号对应的符号标签;将第一词序列向量与符号标签进行拼接,得到第二词序列向量;按照词序列中词的先后关系,将第一词序列向量输入预设通顺度检测模型,以将第一词序列向量转换为对应的第一嵌入向量,通过预设激活函数,将第一嵌入向量转换为对应的第一概率评分;按照词序列中各词与目标句尾符号之间的先后关系,将第二词序列向量输入预设通顺度检测模型,以将第二词序列向量转换为对应的第二嵌入向量,通过预设激活函数,将第二嵌入向量转换为对应的第二概率评分;对第一概率评分和第二概率评分进行加权求和,得到通顺度评分,若通顺度评分超过预设评分阈值,则判定通顺度检测合格,若通顺度评分未超过预设评分阈值,则判定通顺度检测不合格。实现了通过检测词序列是否通顺以及句尾标点符合是否设置合理来进行通顺度检测的目的,充分考虑到了词序列的通顺程度和标点符号设置的合理性对应整个句子的通顺度的影响,为通顺度检测提供了充分的依据,所以提升了通顺度检测的准确度。

本申请实施例提供了一种问题检测方法,也即,依据预设通顺度检测模型,对第一待检测句子进行通顺度检测,得到通顺度检测结果;若通顺度检测结果为合格,则依据预设问题检测模型,对第一待检测句子进行二分类,得到二分类标签;依据二分类标签,判别第一待检测句子是否为预设问答场景下的目标问题句子。本申请实施例中预先通过检测词序列是否通顺以及句尾标点符合是否设置合理来进行通顺度检测,当通顺度检测合格时,才以二分类的方式,判别第一待检测句子是否为目标问题句子的目的,可防止将不通顺的句子误判为目标问题句子,实现了在通话记录文本数据中筛选出与预设问答场景相匹配的目标问题句子的目的,为进行问答对检测奠定了基础。

实施例四

本申请实施例还提供一种问答对检测装置,所述问答对检测装置包括:

第一获取模块,用于获取第一待检测句子以及预设问答场景下的预设问题检测模型;

判别模块,用于依据所述预设问题检测模型,判断所述第一待检测句子是否为所述预设问答场景下的目标问题句子;

第二获取模块,用于若所述第一待检测句子为所述目标问题句子,则在所述目标问题句子的预设上下文范围内获取各第二待检测句子;

问答匹配度检测模块,用于依据预设问答匹配模型,分别检测所述目标问题句子和各所述第二待检测句子之间的问答匹配度;

选取模块,用于根据各所述问答匹配度,在各所述第二待检测句子中选取匹配度最高的句子作为所述目标问题句子对应的目标答案句子;

确定模块,用于将所述目标问题句子和所述目标答案句子共同作为目标问答对。

可选地,所述问答匹配度检测模块还用于:

构建所述目标问题句子和所述第二待检测句子共同对应的问答对特征;

通过将所述问答对特征输入所述预设问答匹配模型,预测所述目标问题句子和所述第二待检测句子之间的问答匹配度。

可选地,所述问答对特征包括问答对特征向量,所述问答匹配度检测模块还用于:

获取所述目标问题句子对应的第一句子向量以及所述第二待检测句子对应的第二句子向量;

计算所述目标问题句子和所述第二待检测句子之间的词重复比例和句子相似度;

将所述第一句子向量、所述第二句子向量、所述词重复比例以及所述句子相似度进行拼接,得到所述问答对特征向量。

可选地,所述判别模块还用于:

依据预设通顺度检测模型,对所述第一待检测句子进行通顺度检测,得到通顺度检测结果;

若所述通顺度检测结果为合格,则依据所述预设问题检测模型,对所述第一待检测句子进行二分类,得到二分类标签;

依据所述二分类标签,判别所述第一待检测句子是否为所述预设问答场景下的目标问题句子。

可选地,所述判别模块还用于:

依据所述预设通顺度检测模型,预测所述第一待检测句子中词序列的通顺概率,以及所述第一待检测句子中词序列后出现所述目标句尾符号的通顺概率,得到第一概率评分和第二概率评分;

依据所述第一概率评分和所述第二概率评分,对所述第一待检测句子进行通顺度检测,得到通顺度检测结果。

可选地,所述问答对检测装置还用于:

获取所述预设问答场景下的目标问答对集合,其中,所述目标问答对集合至少包括一所述目标问答对;

对各所述目标问答对中的目标问题句子进行聚类,得到聚类结果;

根据所述聚类结果,对各所述目标问题句子进行去重,得到去重问题句子集合;

根据所述去重问题句子集合,更新所述目标问答对集合。

可选地,所述第二获取模块还用于:

在所述预设问答场景下的通话记录文本数据中采集在所述目标问题句子的预设上下文范围内的文本句子;

根据上下文顺序,对各所述文本句子进行排列组合,得到各排列组合句子;

将各所述文本句子和各所述排列组合句子共同作为各所述第二待检测句子。

本申请提供的问答对检测装置,采用上述实施例中的问答对检测方法,解决了问答对检测效率低的技术问题。与现有技术相比,本申请实施例提供的问答对检测装置的有益效果与上述实施例提供的问答对检测方法的有益效果相同,且该问答对检测装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。

实施例五

本申请实施例提供一种电子设备,电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例一中的问答对检测方法。

下面参考图4,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此训练。输入/输出(I/O)接口也连接至总线。

通常,以下系统可以连接至I/O接口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本公开实施例的方法中限定的上述功能。

本申请提供的电子设备,采用上述实施例中的问答对检测方法,解决了问答对检测效率低的技术问题。与现有技术相比,本申请实施例提供的电子设备的有益效果与上述实施例提供的问答对检测方法的有益效果相同,且该电子设备中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。

应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

实施例六

本实施例提供一种计算机可读存储介质,具有存储在其上的计算机可读程序指令,计算机可读程序指令用于执行上述实施例一中的问答对检测的方法。

本申请实施例提供的计算机可读存储介质例如可以是U盘,但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

上述计算机可读存储介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。

上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被电子设备执行时,使得电子设备:获取第一待检测句子以及预设问答场景下的预设问题检测模型;依据所述预设问题检测模型,判断所述第一待检测句子是否为所述预设问答场景下的目标问题句子;若所述第一待检测句子为所述目标问题句子,则在所述目标问题句子的预设上下文范围内获取各第二待检测句子;依据预设问答匹配模型,分别检测所述目标问题句子和各所述第二待检测句子之间的问答匹配度;根据各所述问答匹配度,在各所述第二待检测句子中选取匹配度最高的句子作为所述目标问题句子对应的目标答案句子;将所述目标问题句子和所述目标答案句子共同作为目标问答对。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。

本申请提供的计算机可读存储介质,存储有用于执行上述问答对检测方法的计算机可读程序指令,解决了问答对检测效率低的技术问题。与现有技术相比,本申请实施例提供的计算机可读存储介质的有益效果与上述实施例提供的问答对检测方法的有益效果相同,在此不做赘述。

实施例七

本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的问答对检测方法的步骤。

本申请提供的计算机程序产品解决了问答对检测效率低的技术问题。与现有技术相比,本申请实施例提供的计算机程序产品的有益效果与上述实施例提供的问答对检测方法的有益效果相同,在此不做赘述。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

相关技术
  • 问答对检测方法、电子设备、介质及程序产品
  • 产品缺陷检测方法、电子设备、存储介质及程序产品
技术分类

06120114741012