掌桥专利:专业的专利平台
掌桥专利
首页

一种对话应答及应答策略匹配模型的训练方法和装置

文献发布时间:2023-06-19 12:24:27


一种对话应答及应答策略匹配模型的训练方法和装置

技术领域

本申请涉及网络技术领域,具体涉及一种对话应答及应答策略匹配模型的训练方法和装置。

背景技术

对话系统(也称会话代理)包括具有用于访问、处理、管理以及传递信息的人机接口的代理,通过模拟人类的计算机系统实现与人的交谈。随着电子技术的发展,对话系统已逐步深入社会生活的方方面面,为人们的工作生活提供便利。

在相关技术中,对于接收到的咨询方发送的问题信息通过事先由人工配置完成的话术流程及话术模板匹配问题信息对应的应答信息,然而,事先由人工配置的话术流程或模板往往内容固定,导致匹配到的应答内容较为死板,甚至缺乏语言理解,因而应答信息的准确性无法保证;而在缺少模板配置的情况下,将无法对咨询方的提问进行回复,造成应答效率低下等问题。

发明内容

有鉴于此,本申请提供一种对话应答及应答策略匹配模型的训练方法和装置,以解决相关技术中的问题。

为实现上述目的,本申请提供技术方案如下:

根据本申请的第一方面,提出了一种对话应答方法,所述方法包括:

在与咨询方进行本轮对话的过程中,对所述咨询方在本次对话中发送的对话信息进行向量化处理,以得到与所述对话信息对应的对话信息向量;

解析所述对话信息向量以确定包含多维度特征的状态信息向量;

将所述状态信息向量和本轮对话中对应于所述对话信息的历史对话信息的历史对话信息向量输入应答策略匹配模型,其中,所述应答策略匹配模型预先采用包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息训练完成;

确定由所述应答策略匹配模型提取的特征向量所对应的多个应答策略和各个应答策略对应的置信度;

将所述多个应答策略中置信度最高的应答策略作为所述对话信息对应的应答信息。

可选的,所述对本次对话中咨询方发送的对话信息进行向量化处理,以得到与所述对话信息对应的对话信息向量,包括:

对本次对话中咨询方发送的对话信息进行分词处理,以确定所述对话信息字典化后的多个不重叠的词语;

根据预设的WordEmbedding矩阵确定所述多个不重叠的词语分别对应的词向量,以将所述词向量确定为与所述对话信息对应的对话信息向量。

可选的,所述解析所述对话信息向量以确定包含多维度特征的状态信息向量,包括:

通过包含BERT优化器、双向长短期记忆网络和条件随机场的神经网络模型对所述词向量进行特征提取;

根据所述神经网络模型提取的特征向量确定所述对话信息向量对应的包含多维度特征的状态信息向量。

可选的,所述本轮历史对话的对话信息向量包含所述对话信息向量。

可选的,在将所述状态信息向量和本轮历史对话的对话信息向量输入应答策略匹配模型之前,还包括:

确定匹配于所述状态信息向量的话术模板;

基于所述状态信息向量对所述话术模板中的词槽进行信息填充;

若填充后的话术模板存在空词槽,则根据空词槽对应的话术信息构造用于话术澄清的提问应答;

接收咨询方对所述提问应答的回复信息以将所述回复信息添加至所述状态信息向量中。

可选的,所述确定由所述应答策略匹配模型提取的特征向量所对应的多个应答策略和各个应答策略对应的置信度,包括:

将所述特征向量映射于预设数量的应答策略,其中,所述应答策略的取值包含所述特征向量经过概率归一化处理后的特征值,所述概率归一化函数为:

将所述特征向量经过概率归一化处理后的特征值确定为所述应答策略对应的置信度。

可选的,所述应答策略匹配模型为强化学习中的学习模型或者深度学习中的循环神经网络模型。

根据本申请的第二方面,提供一种用于对话应答的应答策略匹配模型的训练方法,所述方法包括:

确定作为训练样本的对话信息样本集,所述对话信息样本集中包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息训练完成;

对所述对话信息样本进行向量化处理,以得到与所述对话信息样本对应的对话信息样本向量;

解析所述对话信息样本向量以确定包含多维度特征的状态信息向量;

将所述状态信息向量和所述历史对话信息的对话信息向量输入应答策略匹配模型,以由所述应答策略匹配模型对所述状态信息向量和历史对话信息的对话信息向量进行特征提取;

根据提取的特征确定所述对话信息样本对应的应答策略预测信息向量;

基于所述应答策略预测信息向量与所述应答策略标注信息的信息向量之间的差异调整所述应答策略匹配模型的模型参数;

根据训练完成的所述应答策略匹配模型对咨询方输入的对话信息进行分析,确定出与所述对话信息相匹配的应答策略,以将所述应答策略作为与所述对话信息对应的应答信息。

根据本申请的第三方面,提出了一种对话应答装置,所述装置包括:

处理单元,在与咨询方进行本轮对话的过程中,对所述咨询方在本次对话中发送的对话信息进行向量化处理,以得到与所述对话信息对应的对话信息向量;

解析单元,解析所述对话信息向量以确定包含多维度特征的状态信息向量;

输入单元,将所述状态信息向量和本轮对话中对应于所述对话信息的历史对话信息的历史对话信息向量输入应答策略匹配模型,其中,所述应答策略匹配模型预先采用包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息训练完成;

第一确定单元,确定由所述应答策略匹配模型提取的特征向量所对应的多个应答策略和各个应答策略对应的置信度;

第二确定单元,将所述多个应答策略中置信度最高的应答策略作为所述对话信息对应的应答信息。

根据本申请的第四方面,提出了一种用于对话应答的应答策略匹配模型的训练装置,所述装置包括:

第一确定单元,确定作为训练样本的对话信息样本集,所述对话信息样本集中包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息;

处理单元,对所述对话信息样本进行向量化处理,以得到与所述对话信息样本对应的对话信息样本向量;

解析单元,解析所述对话信息样本向量以确定包含多维度特征的状态信息向量;

输入单元,将所述状态信息向量和所述历史对话信息的对话信息向量输入应答策略匹配模型,以由所述应答策略匹配模型对所述状态信息向量和历史对话信息的对话信息向量进行特征提取;

第二确定单元,根据提取的特征确定所述对话信息样本对应的应答策略预测信息向量;

参数调整单元,基于所述应答策略预测信息向量与所述应答策略标注信息的信息向量之间的差异调整所述应答策略匹配模型的模型参数;

信息应答单元,根据训练完成的所述应答策略匹配模型对咨询方输入的对话信息进行分析,确定出与所述对话信息相匹配的应答策略,以将所述应答策略作为与所述对话信息对应的应答信息。

根据本申请的第五方面,提出了一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为可执行指令以实现上述第一方面、第二方面所述的方法。

根据本申请的第六方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述第一方面、第二方面所述方法的步骤。

由上述实施例可知,通过确定咨询方在本次对话中发送的对话信息的多维度特征的状态信息向量,基于预先训练完成的应答策略匹配模型匹配出与状态信息向量对应的多个应答策略,进而将多个应答策略中置信度最高的应答策略确定为对话信息对应的应答信息,通过应答策略匹配模型对经过全面分析后的对话信息所对应的状态信息向量进行特征提取,解决了基于固定的流程模板进行识别而导致的效率低下问题,且应答策略匹配模型的输入信息为包含多维度特征信息的状态信息向量,进而在根据充分挖掘后的特征信息进行预测的情况下,确保了所匹配的应答信息的准确性。

附图说明

图1是根据本申请一示例性实施例中的一种对话应答方法的流程图;

图2是根据本申请一示例性实施例中的一种用于对话应答的应答策略匹配模型的训练方法的流程图;

图3是根据本申请一示例性实施例中的另一种对话应答方法的流程图;

图4是根据本申请一示例性实施例中的一种用于确定状态信息向量的神经网络模型结构的示意图;

图5是根据本申请一示例性实施例中的一种在全连接层后添加奖励机制的示意图;

图6是根据本申请一示例性实施例中的一种对话状态跟踪过程的示意图;

图7是根据本申请一示例性实施例中的另一种用于对话应答的应答策略匹配模型的训练方法的流程图;

图8是根据本申请一示例性实施例中的一种电子设备的示意结构图;

图9是根据本申请一示例性实施例中的一种对话应答装置的框图;

图10是根据本申请一示例性实施例中的另一种电子设备的示意结构图;

图11是根据本申请一示例性实施例中的一种用于对话应答的应答策略匹配模型的训练装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

对话系统(也称会话代理)包括具有用于访问、处理、管理以及传递信息的人机接口的代理,通过模拟人类的计算机系统实现与人的交谈。随着电子技术的发展,会话系统已逐步深入社会生活的方方面面,为人们的生活提供便利。

在相关技术中,对话系统基于预配置的话术流程和话术模板对咨询方发送的对话信息进行匹配,由于预配置的话术流程和话术模板固定且较少变通,导致针对对话信息而匹配到的应答信息过于死板,甚至在话术流程或话术模板中缺少相应的应答回复的情况下,对话系统难以通过预配置流程模板中不存在的答案进行有效回复,因而相关技术中的对话系统针对问题信息所匹配的应答信息准确性低下,应答效率不佳。

有鉴于此,本申请提供一种对话应答及应答策略匹配模型的训练方法和装置,能够对咨询方发送的对话信息进行全面解析,以确定咨询方发送的对话信息所对应的多维度特征的状态信息向量,进而借助于预先训练完成的应答策略匹配模型确定匹配于状态信息向量和本轮对话中对应于对话信息的历史对话信息的历史对话信息向量的应答信息,消除了因应答信息死板而导致的准确性低下、应答效率不佳的技术问题,优化了对话系统中对应答信息的匹配模式,提高了应答信息的匹配效率。

请参考图1,图1是根据本申请一示例性实施例中的一种对话应答方法的流程图,如图1所示,该方法可以包括以下步骤:

步骤101,在与咨询方进行本轮对话的过程中,对所述咨询方在本次对话中发送的对话信息进行向量化处理,以得到与所述对话信息对应的对话信息向量。

在一实施例中,可以对本次对话中咨询方发送的对话信息进行分词处理,以确定对话信息字典化后的多个不重叠的词语,进而根据预设的WordEmbedding矩阵确定多个不重叠的词语分别对应的词向量,以将词向量确定为与所述对话信息对应的对话信息向量,在本实施例中,通过WordEmbedding矩阵确定经过分词处理后的多个不重叠的词语对应的词向量,以维数较低的密集矩阵的形式表示对话信息中蕴含的特征和特征之间的语义关系信息,提高关于对话信息中的特征的提取效率。

步骤102,解析所述对话信息向量以确定包含多维度特征的状态信息向量。

在一实施例中,可以通过包含BERT优化器、双向长短期记忆网络和条件随机场的神经网络模型对词向量进行特征提取,进而根据神经网络提取的特征向量确定对话信息向量对应的包含多维度特征的状态信息向量。进一步的,状态信息向量涉及的维度特征可以有多种类别,在一示例性但并非限制性的实施例中,状态信息向量中涉及到的特征可以为实体特征、意图特征和情感特征,相应的,将对话信息中涉及到的对话主体、对话意图和情感状态作为标识所接收到的对话信息的特征。

步骤103,将所述状态信息向量和本轮对话中对应于所述对话信息的历史对话信息的历史对话信息向量输入应答策略匹配模型,其中,所述应答策略匹配模型预先采用包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息训练完成。

在一实施例中,在将所述状态信息向量和本轮历史对话的对话信息向量输入应答策略匹配模型之前,可以确定匹配于状态信息向量的话术模板,进而基于状态信息向量对话术模板中的词槽进行信息填充,并在填充后的话术模板存在空词槽的情况下,根据空词槽对应的话术信息构造用于话术澄清的提问应答,接收咨询方对提问应答的回复信息,以将回复信息添加至状态信息向量中。

在本实施例中,使用对话信息确定的状态信息向量填充与该状态信息对应的话术模板,通过填充处理后的话术模板确定话术澄清情况,进而根据话术模板中所存在的空词槽对应的话术信息构造用于话术澄清的提问应答,并接收咨询方的回复信息以将回复信息添加至状态信息向量中,通过话术澄清环节,实现对待应答的对话信息的二次补充,避免由于对话信息中的特征信息的缺失而导致应答准确性低下的问题。

进一步的,本轮历史对话的对话信息向量中可以包含对话信息向量本身。应答策略匹配模型可以为强化学习中的学习模型或者深度学习中的循环神经网络模型。

步骤104,确定由所述应答策略匹配模型提取的特征向量所对应的多个应答策略和各个应答策略对应的置信度。

在一实施例中,可以将特征向量映射于预设数量的应答策略,其中,在映射的过程中,可以将特征向量经过概率归一化处理后的特征值确定为应答策略的取值,进而将特征向量经过概率归一化处理后的特征值确定为应答策略对应的置信度。其中,用于确定特征向量所对应的特征值的概率归一化函数为

步骤105,将所述多个应答策略中置信度最高的应答策略作为所述对话信息对应的应答信息。

通过上述实施例可知,通过确定咨询方在本次对话中发送的对话信息的多维度特征的状态信息向量,基于预先训练完成的应答策略匹配模型匹配出与状态信息向量对应的多个应答策略,进而将多个应答策略中置信度最高的应答策略确定为对话信息对应的应答信息,通过应答策略匹配模型对经过全面分析后的对话信息所对应的状态信息向量进行特征提取,解决了基于固定的流程模板进行识别而导致的效率低下问题,且应答策略匹配模型的输入信息为包含多维度特征信息的状态信息向量,进而在根据充分挖掘后的特征信息进行预测的情况下,确保了所匹配的应答信息的准确性。

图2是根据本申请一示例性实施例中的一种用于对话应答的应答策略匹配模型的训练方法的流程图,如图2所示,该方法可以包括以下步骤:

步骤201,确定作为训练样本的对话信息样本集,所述对话信息样本集中包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息。

步骤202,对所述对话信息样本进行向量化处理,以得到与所述对话信息样本对应的对话信息样本向量。

在一实施例中,可以对对话信息样本进行分词处理,以确定对话信息样本字典化后的多个不重叠的词语,进而根据预设的WordEmbedding矩阵确定多个不重叠的词语分别对应的词向量,以完成对对话信息样本的向量化处理,得到对话信息样本对应的对话信息样本向量。在本实施例中,预设的WordEmbedding矩阵能够以维数较低的密集矩阵的形式表示对话信息中蕴含的特征和特征之间的语义关系信息,提高关于对话信息中的特征的提取效率。

步骤203,解析所述对话信息样本向量以确定包含多维度特征的状态信息向量。

在一实施例中,可以通过包含BERT优化器、双向长短期记忆网络和条件随机场的神经网络模型对词向量进行特征提取,进而根据神经网络提取的特征向量确定对话信息向量对应的包含多维度特征的状态信息向量。进一步的,状态信息向量涉及到的维度特征可以有多种类别,在一示例性但并非限制性的实施例中,状态信息向量中涉及到的特征可以为实体特征、意图特征和情感特征,相应的,将对话信息中涉及到的对话主体、对话意图和情感状态作为标识所接收到的对话信息的特征。

步骤204,将所述状态信息向量和所述历史对话信息的对话信息向量输入应答策略匹配模型,以由所述应答策略匹配模型对所述状态信息向量和历史对话信息的对话信息向量进行特征提取。

在一实施例中,在将状态信息向量和历史对话信息的对话信息向量输入应答策略匹配模型之前,可以确定匹配于状态信息向量的话术模板,进而基于状态信息向量对话术模板中的词槽进行信息填充,并在填充后的话术模板存在空词槽的情况下,根据空词槽对应的话术信息构造用于话术澄清的提示信息,以由系统基于该提示信息重新对对话信息样本向量进行解析,或者发送与该提示信息有关的告警信息,以由管理员补充该提示信息所表征的话术模板中的空词槽对应的特征信息。

步骤205,根据提取的特征确定所述对话信息样本对应的应答策略预测信息向量。

在一实施例中,根据提取的特征确定对话信息样本所对应的多个对话策略预测信息,其中,各个对话策略预测信息的置信度的取值可以包括将特征经过概率归一化处理后的特征值,进一步的,将多个对话策略预测信息中置信度的取值最高的对话策略预测信息确定为对话信息样本对应的对话策略预测信息向量。

步骤206,基于所述应答策略预测信息向量与所述应答策略标注信息的信息向量之间的差异调整所述应答策略匹配模型的模型参数。

在一实施例中,可以确定应答策略匹配模型对应的损失函数,在基于该损失函数确定对话策略预测信息向量和对话策略标注信息向量之间的误差大于预设阈值的情况下,基于误差反向传播算法对该应答策略匹配模型的参数进行更新。

步骤207,根据训练完成的所述应答策略匹配模型对咨询方输入的对话信息进行分析,确定出与所述对话信息相匹配的应答策略,以将所述应答策略作为与所述对话信息对应的应答信息。

通过上述实施例可知,可以通过包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息的对话信息样本集对用于对话应答的应答策略匹配模型进行训练,在训练过程中,对经过向量化处理的对话信息样本进行解析,以确定与对话信息样本对应的包含多维度特征的状态信息向量,进而将应答策略匹配模型根据提取的特征而确定的应答策略预测信息向量与应答策略标注信息的信息向量之间的差异调整应答策略匹配模型的模型参数,从而可通过训练完成的应答策略匹配模型对咨询方输入的对话信息智能地进行应答响应,在保证应答信息的准确性的基础上,提高了对对话信息的处理效率。

为对本申请的技术方案进行进一步的说明,下面通过图3、图4对应的实施例对本申请的技术方案进行详细阐述:

图3是根据本申请一示例性实施例中的另一种对话应答方法的流程图,如图3所示,该方法可以包括以下步骤:

步骤301,接收咨询方在本次对话中发送的对话信息。

咨询方可以结合实际场景的应用需求组织并发送对话信息,对话信息可以为问题咨询、招呼用语、用于提供信息的陈述语等。诸如咨询方所发送的对话信息可以为“想问一下奥迪车的最新款式”、“请问今天天气如何”等问题咨询;咨询方发送的对话信息也可以为“好智能的对话系统”、“很高兴跟你对话”等招呼用语;咨询方发送的对话信息也可以为“我知道了”、“我不清楚这个活动”等用于反馈信息的陈述语。

进一步的,本系统可以与咨询方进行多轮对话,每轮对话中可以包含由咨询方发送的多次对话信息以及针对多次对话信息进行的应答信息,在实际应用过程中,可以监控咨询方发送的对话信息和针对对话信息做出的应答信息,以实现对各轮对话中的对话信息和应答信息进行维护。

具体的,可以设置在经过预设时长后接收到的对话信息或者发送的信息为新一轮对话的首条信息,或者可以将判定为招呼用语的对话信息确定为新一轮对话的首条信息,诸如“你好”、“咨询一个问题”等。在确定新一轮对话的首条信息后,将针对首条信息的应答信息确定为与该首条信息处于同一轮对话中的对话信息,为了描述方便,将咨询方发送的对话信息和针对该对话信息做出的应答信息确定为一次对话,同一轮对话中可以包含多次对话。

在发送对话信息的过程中,咨询方可以通过终端的web页面或者应用程序的界面等前端界面发送对话信息,其中应用程序可以为终端中预装的软件或者由用户后期所安装的第三方软件等。在咨询方为用户的情况下,咨询用户可以直接在前端界面中键入用于咨询的对话信息,或者咨询用户可以在前端界面中选定用于提问的问题信息,进而设备将咨询用户选择的问题信息确定为咨询用户所发送的对话信息。在咨询方为程序代码组成的虚拟用户的情况下,咨询方可以根据预配置的对话信息集合自动生成并发送对话信息,其中,可以按照对话信息集合中各个对话信息的提问频率确定用于发送的对话信息。

步骤302,对接收到的对话信息进行处理,以确定该对话信息对应的包含多维度特征的状态信息向量。

在一实施例中,可以对对话信息进行实体识别、意图识别和情感识别,以确定包含实体特征、意图特征和情感特征的多维度的状态信息向量。在一实际应用过程中,实体识别后确定的实体特征可以为对话信息中被咨询的主体,经过意图识别后确定的意图特征可以对应于咨询方的咨询意图,经过情感识别后确定的情感特征对应于对话信息中该咨询方的情感,诸如若接收到咨询方发送的对话信息为“请问关于奥迪A4最近有什么活动么”,则对对话信息进行实体识别后而确定的实体特征可以为“奥迪A4”,经过意图识别后确定的意图特征可以为“获取活动信息”,相应的,情感特征可以为中性。

在其他应用场景中,情感特征还可以包括积极、消极,诸如对话信息为“我愿意了解”相较于对话信息为“下次再说”而言,前者对应的情感特征更为积极。因而,情感特征能够进一步挖掘咨询方所发送的对话信息中的行为倾向,诸如在实体特征相同、意图特征均表明“存在了解意图”的情况下,可以通过情感特征定义关于“了解意图”的情感倾向,例如积极主动、消极接受等。在本实施例中,在针对对话信息进行处理的过程中,增加情感识别的过程,使得基于对话信息确定的状态信息向量中包含情感特征,从而根据情感特征进一步细分咨询方的情感动机,提高对分析对话信息的精准性。

进一步的,解析对话信息中包含的特征以确定与对话信息对应的包含多维度特征的状态信息向量。具体的,可以通过包含BERT优化器、双向长短期记忆网络(简称bilstm)和条件随机场网络(简称crf)对对话信息向量进行特征提取,进而根据神经网络提取的特征向量确定该对话信息向量所对应的包含多维度特征的状态信息向量,如图4所示,图4是根据本申请一示例性实施例中的一种用于确定状态信息向量的神经网络模型结构的示意图,示例性的用于确定状态信息向量的神经网络模型中包含多层双向长短期记忆网络和一层条件随机场网路,待解析的对话信息字典化为词向量后,输入包含有双向长短期记忆网络和条件随机场网路的神经网络模型中进行特征提取,其中,条件随机场网络作为模型的解码层,以根据各个应答策略之间的关系对双向长短期记忆网络的输出结果做进一步地优化调整,从而获得与所输入的对话信息对应的特征值输出。

BERT(Bidirectional Encoder Representations form Transformers)优化器借助于双向训练的语言模型执行对对话信息中的语义解析,即在BERT优化器中设置两个独立的深度注意力机制,一次性地读取对话信息中的整个文本序列,区别于相关技术中单单按照从左向右或者从右到左的顺序读取,BERT优化器相当于双向解析对话信息中的各个词语之间的上下文关系,实现对对话信息中的文本信息的高效抽取。

在实际应用过程中,由BERT优化器提取特征的信息可以为经过分词处理后的词向量对应的词向量序列,在实际应用过程中,可以通过BERT优化器中的Embedding层确定对话信息对应的词向量,具体的,对于咨询方发送的对话信息进行分词处理,以确定对话信息字典化后的多个不重叠的词语,进而根据预设的WordEmbedding矩阵确定多个不重叠词语分别对应的词向量,以将词向量形式所表征的对话信息输入包含BERT优化器、双向长短期记忆网络和条件随机场的神经网络模型,通过以维数较低的密集矩阵的形式表示对话信息中蕴含的特征和特征之间的语义关系信息,提高神经网络模型提取对话信息中的特征的效率。

步骤303,基于预设的话术模板判断状态信息向量是否完成话术澄清,若未完成,则进入步骤304,否则进入步骤305。

步骤304,向咨询方发送用于话术澄清的提问应答,在接收到的咨询方返回的回复信息中提取特征向量,以对状态信息向量进行补充更新,并在更新完成后返回步骤303。

在一实施例中,可以通过话术澄清机制确定根据对话信息而提取的状态信息向量是否完整,在状态信息向量不完整的情况下,基于缺失的特征构造用于话术澄清的提问应答,以使得咨询方针对该提问应答进行回复,进而根据回复信息对状态信息向量进行补充更新。

具体的,可以确定用于澄清状态信息向量的话术模板,以基于状态信息向量对话术模板中的词槽进行信息填充,进而根据填充后的话术模板中的空词槽构造用于话术澄清的提问应答,并将所构造的提问应答发送至咨询方,以接收咨询方对该提问应答的回复信息并将回复信息添加至状态信息向量中。

诸如在确定接收到的对话信息为“奥迪A8有哪些”,确定匹配到的话术模板为“奥迪A8的<车型>有哪些”、“奥迪A8的<近期活动>有哪些”,则由于匹配到的话术模板中存在空词槽“车型”和“近期活动”,则可以基于空词槽构造用于话术澄清的提问应答,例如“请问所询问的是关于奥迪A8的车型还是近期活动”或者“您希望获得关于奥迪A8的什么信息”等,并将所构造的提问应答发送至咨询方。相应的,在接收到咨询方返回的关于希望了解到的奥迪A8具体信息的回复信息情况下,可基于神经网络模型提取该回复信息中包含的特征,进而根据将该回复信息对应的特征向量补充至原对话信息对应的状态信息向量中。

进一步的,可以根据对话信息中已提取的特征确定用于对对话信息进行话术澄清的话术模板,或者根据与该对话信息处于同一轮对话的历史对话信息确定用于进行话术澄清的话术模板,本申请对话术模板的确定方式不做限制。

步骤305,将完成话术澄清的状态信息向量和与本次对话处于同一轮中的历史对话信息的历史对话信息向量输入应答策略匹配模型中,以由应答策略匹配模型根据提取的特征向量确定所映射到的预设数量的应答策略。

通过解析对话信息而得到多维度特征的状态信息向量,并将所得到的多维度特征的状态信息向量和与该对话信息处于同一轮中的历史对话信息向量输入预先训练完成的应答策略匹配模型中,以由应答策略匹配模型对输入的信息进行特征提取。

在一实施例中,在应答策略匹配模型中的全连接层后的输出层添加奖励函数,以对全连接层得到的对应于多个应答策略的值进行归一化处理,进而获得各个应答策略的预测概率。图5是根据本申请一示例性实施例中的一种在全连接层后添加奖励机制的示意图,如图5所示,预先训练完成的权重向量w与特征向量

在实际应用过程中,所添加的奖励机制可以为softmax函数,相应的,在将特征向量映射于预设数量的应答策略的过程中,可以将特征向量经过概率归一化处理后的特征值确定为应答策略的取值,进行将特征向量经过概率归一化处理后的特征值确定为应答策略对应的置信度。具体的,用于确定特征向量所对应的特征值的概率归一化函数为

进一步的,可以对与本次对话处于同一轮中的历史对话信息进行记录,进而不仅将本次对话中的对话信息输入应答策略匹配模型,而且将包含对话信息对应的状态信息向量的历史对话信息输入该应答策略匹配模型,以由应答策略匹配模型对对话信息和与对话信息处于同一轮中的历史对话信息进行特征提取,以确定与对话信息对应的应答策略;类似的,可以在该轮对话中记录根据应答策略中的取值最高的应答策略而确定的应答信息,以实现根据咨询方发送的对话信息和回复至咨询方的应答信息更新对话状态的对话进度,请参考图6,图6是根据本申请一示例性实施例中的一种对话状态跟踪过程的示意图,如图6所示,在咨询方输入的对话信息经过解析处理后,基于解析后得到的特征更新对话进度,进而将进度更新完成后的包含对话信息的历史对话信息的历史对话信息向量输入应答策略匹配模型,并基于匹配到的应答策略确定用于信息回复的应答信息,一方面将应答信息回复至咨询方,另一方面基于应答信息更新对话状态,以确保对话状态中含有最新对话进度的情况。

步骤306,基于预设数量的应答策略中取值最高的应答策略发送应答信息。

基于应答策略的取值确定各个应答策略与特征向量之间的相关性,进而将与特征向量之间的相关性较高的应答策略确定为用于回复对话信息的应答策略。在本申请中,可以基于应答策略的取值确定各个应答策略与对话信息之间的相关程度,进而基于各个应答策略中取值最高的应答策略发送应答信息。

以本轮对话中一次对话为例,诸如该次对话中咨询方发送对话信息“好的,我去参加这个活动”,经过对该对话信息和与该对话信息处于同一轮的历史对话信息的预处理过程、由应答策略匹配模型执行的特征提取等过程,可以确定对话信息中的实体特征slot与奥迪A4有关,意向特征Intent为愿意参加活动,情感特征Sentiment为积极的,正如模型得到的下述分析结果:

Intent:interest,prob:0.75

Sentiment:pos,prob:0.90

neutral,prob:0.7

Neg,prob:0.2

Slot:A4

Action1:invitation,prob:0.97

Action2:deny,prob:0.3

针对咨询方发起的本次对话,确定的应答策略有应答策略1:向咨询方发出邀请,应答策略2:拒绝咨询方,其中,应答策略1的取值所对应的概率值为0.97,应答策略2的取值所对应的概率值为0.3,则基于应答策略1发送应答信息,即发送关于邀请咨询方参加活动的信息。

通过上述实施例,在完成对接收到的来自咨询方的对话信息的过程后,基于预设的话术模板判断状态信息向量是否完成话术澄清,以在未完成话术澄清的情况下,向咨询方发送用于话术澄清的提问应答,从而确保输入应答策略匹配模型中的状态信息向量的特征完整性,避免由于特征缺失造成所匹配的应答策略准确性低下,甚至因无法确定应答策略而导致返工,提高了对应答信息的确定效率。

图7是根据本申请一示例性实施例中的另一种用于对话应答的应答策略匹配模型的训练方法的流程图,如图7所示,该方法可以包括以下步骤:

步骤701,确定用于训练应答策略匹配模型的对话信息样本集。

在一实施例中,用于训练应答策略匹配模型的对话信息样本集中包含有应答策略标注信息的对话信息样本。

在实际应用过程中,可以建立包含有应答策略标注信息的对话信息样本集合后,可以在该对话信息样本集合中按照预设比例值选择用于建立训练集、验证集和测试集的对话信息样本,其中,训练集的样本集合主要用来训练神经网络中的参数,在神经网络基于训练集训练结束后,可以通过验证集来比较和判断各个模型的性能,借助于测试集的样本确定神经网络模型的评价指标,并基于验证集能够实现对无法基于训练集进行优化的超参数进行训练优化。具体的,可以对话信息样本集合中的75%样本作为训练集,10%的样本作为验证集,其余的5%样本作为测试集,或者对话信息样本集合中的80%作为训练集、10%的样本作为验证集,其余的10%的样本作为测试集等,本申请不对具体的比例数值进行限制。

步骤702,对对话信息样本集中的对话信息样本进行处理,以确定包含多维度特征的状态信息向量。

在一实施例中,对对话信息样本集中的对话信息样本进行处理的过程可以包括实体识别、意图识别和情感识别,相应的,可以确定对话信息样本对应的实体特征向量、意图特征向量和情感特征向量。

在一实际应用过程中,实体识别后确定的实体特征可以为对话信息中被咨询的主体,经过意图识别后确定的意图特征可以对应于咨询方的咨询意图,经过情感识别后确定的情感特征对应于对话信息中该咨询方的情感,诸如若接收到咨询方发送的对话信息为“请问关于奥迪A4最近有什么活动么”,则对对话信息进行实体识别后而确定的实体特征可以为“奥迪A4”,经过意图识别后确定的意图特征可以为“获取活动信息”,相应的,情感特征可以为中性。

在其他应用场景中,情感特征还可以包括积极、消极,诸如对话信息为“我愿意了解”相较于对话信息为“下次再说”而言,前者对应的情感特征更为积极。因而,情感特征能够进一步挖掘咨询方所发送的对话信息中的行为倾向,诸如在实体特征相同、意图特征均表明“存在了解意图”的情况下,可以通过情感特征定义关于“了解意图”的情感倾向,例如积极主动、消极接受等。在本实施例中,在针对对话信息进行处理的过程中,增加情感识别的过程,使得基于对话信息确定的状态信息向量中包含情感特征,从而根据情感特征进一步细分咨询方的情感动机,提高对分析对话信息的精准性。

进一步的,在解析对话信息样本中的所包含的多维度特征向量的过程中,可以通过包含BERT优化器、双向长短期记忆网络(简称bilstm)和条件随机场网络(简称crf)对对话信息向量进行特征提取,进而根据神经网络提取的特征向量确定该对话信息向量所对应的包含多维度特征的状态信息向量。

在实际应用过程中,由BERT优化器提取特征的信息可以为经过分词处理后的词向量对应的词向量序列,在实际应用过程中,可以通过BERT优化器中的Embedding层确定对话信息样本对应的词向量,具体的,对于咨询方发送的对话信息进行分词处理,以确定对话信息字典化后的多个不重叠的词语,进而根据预设的WordEmbedding矩阵确定多个不重叠词语分别对应的词向量,以将词向量形式所表征的对话信息输入包含BERT优化器、双向长短期记忆网络和条件随机场的神经网络模型,通过以维数较低的密集矩阵的形式表示对话信息中蕴含的特征和特征之间的语义关系信息,提高神经网络模型提取对话信息中的特征的效率。

步骤703,将状态信息向量和与对话信息样本处于同一轮的历史对话信息的对话信息向量输入应答策略匹配模型。

步骤704,根据应答策略匹配模型提取的特征确定对话信息样本对应的应答策略预测信息向量。

通过解析对话信息而得到多维度特征的状态信息向量,并将所得到的多维度特征的状态信息向量和与该对话信息处于同一轮中的历史对话信息向量输入预先训练完成的应答策略匹配模型中,以由应答策略匹配模型对输入的信息进行特征提取。

在一实施例中,在应答策略匹配模型中的全连接层后的输出层添加奖励函数,以对全连接层得到的对应于多个应答策略的值进行归一化处理,进而获得各个应答策略的预测概率。

具体的,所添加的奖励函数可以为softmax函数,相应的,在将特征向量映射于预设数量的应答策略的过程中,可以将特征向量经过概率归一化处理后的特征值确定为应答策略的取值,进行将特征向量经过概率归一化处理后的特征值确定为应答策略对应的置信度。进一步的,可以将多个对话策略预测信息中置信度的取值最高的对话策略预测信息确定为对话信息样本对应的对话策略预测信息向量。

步骤705,基于应答策略预测信息向量、应答策略标注信息向量和应答策略匹配模型对应的损失函数,判断该损失函数的损失值是否低于预设阈值,若是,完成对应答策略匹配模型的训练,否则,基于应答策略预测信息向量与应答策略标注信息的信息向量之间的差异调整应答策略匹配模型的模型参数。

在一实施例中,确定应答策略匹配模型对应的损失函数,在基于该损失函数确定对话策略预测信息向量和对话策略标注信息向量之间的误差大于预设阈值的情况下,基于误差反向传播算法对该应答策略匹配模型的参数进行更新。

具体的,可以通过交叉熵函数计算应答策略预测信息向量对应的概率分布与应答策略标注信息的信息向量对应的概率分布之间的距离,诸如在应答策略预测信息向量对应的期望概率分布为q(x

进一步的,在基于应答策略预测信息向量、应答策略标注信息向量和损失函数而确定的损失值低于预设阈值的情况下,确定完成对应答策略匹配模型的训练,进而可以根据训练完成的应答策略匹配模型对咨询方输入的对话信息进行分析,确定出与对话信息相匹配的应答策略,以将所述应答策略作为与所述对话信息对应的应答信息。

图8是根据本申请一示例性实施例中的一种电子设备的示意结构图。请参考图8,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成对话应答装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

请参考图9,图9是根据本申请一示例性实施例中的一种对话应答装置的框图,在软件实施方式中,对话应答装置可以包括:

处理单元901,在与咨询方进行本轮对话的过程中,对所述咨询方在本次对话中发送的对话信息进行向量化处理,以得到与所述对话信息对应的对话信息向量;

解析单元902,解析所述对话信息向量以确定包含多维度特征的状态信息向量;

输入单元903,将所述状态信息向量和本轮对话中对应于所述对话信息的历史对话信息的历史对话信息向量输入应答策略匹配模型,其中,所述应答策略匹配模型预先采用包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息训练完成;

第一确定单元904,确定由所述应答策略匹配模型提取的特征向量所对应的多个应答策略和各个应答策略对应的置信度;

第二确定单元905,将所述多个应答策略中置信度最高的应答策略作为所述对话信息对应的应答信息。

可选的,处理单元901,具体用于:

对本次对话中咨询方发送的对话信息进行分词处理,以确定所述对话信息字典化后的多个不重叠的词语;

根据预设的WordEmbedding矩阵确定所述多个不重叠的词语分别对应的词向量,以将所述词向量确定为与所述对话信息对应的对话信息向量。

可选的,解析单元902,具体用于:

通过包含BERT优化器、双向长短期记忆网络和条件随机场的神经网络模型对所述词向量进行特征提取;

根据所述神经网络模型提取的特征向量确定所述对话信息向量对应的包含多维度特征的状态信息向量。

可选的,所述本轮历史对话的对话信息向量包含所述对话信息向量。

可选的,还包括:

第三确定单元906,确定匹配于所述状态信息向量的话术模板;

信息填充单元907,基于所述状态信息向量对所述话术模板中的词槽进行信息填充;

话术澄清单元908,若填充后的话术模板存在空词槽,则根据空词槽对应的话术信息构造用于话术澄清的提问应答;

信息添加单元909,接收咨询方对所述提问应答的回复信息以将所述回复信息添加至所述状态信息向量中。

可选的,第一确定单元904,具体用于:

将所述特征向量映射于预设数量的应答策略,其中,所述应答策略的取值包含所述特征向量经过概率归一化处理后的特征值,所述概率归一化函数为:

将所述特征向量经过概率归一化处理后的特征值确定为所述应答策略对应的置信度。

可选的,所述应答策略匹配模型为强化学习中的学习模型或者深度学习中的循环神经网络模型。

图10是根据本申请一示例性实施例中的另一种电子设备的示意结构图。请参考图10,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成用于对话应答的应答策略匹配模型的训练装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

请参考图11,图11是根据本申请一示例性实施例中的一种用于对话应答的应答策略匹配模型的训练装置的框图,在软件实施方式中,用于对话应答的应答策略匹配模型的训练装置可以包括:

第一确定单元1101,确定作为训练样本的对话信息样本集,所述对话信息样本集中包含有应答策略标注信息的对话信息样本和同一轮对话中对应于所述对话信息样本的历史对话信息训练完成;

处理单元1102,对所述对话信息样本进行向量化处理,以得到与所述对话信息样本对应的对话信息样本向量;

解析单元1103,解析所述对话信息样本向量以确定包含多维度特征的状态信息向量;

输入单元1104,将所述状态信息向量和所述历史对话信息的对话信息向量输入应答策略匹配模型,以由所述应答策略匹配模型对所述状态信息向量和历史对话信息的对话信息向量进行特征提取;

第二确定单元1105,根据提取的特征确定所述对话信息样本对应的应答策略预测信息向量;

参数调整单元1106,基于所述应答策略预测信息向量与所述应答策略标注信息的信息向量之间的差异调整所述应答策略匹配模型的模型参数;

信息应答单元1107,根据训练完成的所述应答策略匹配模型对咨询方输入的对话信息进行分析,确定出与所述对话信息相匹配的应答策略,以将所述应答策略作为与所述对话信息对应的应答信息。

所述装置与上述方法相对应,更多相同的细节不再一一赘述。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。

以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

相关技术
  • 一种对话应答及应答策略匹配模型的训练方法和装置
  • 用于确定对话系统应答策略的方法及装置
技术分类

06120113284031