句向量预测方法、问答匹配方法、装置及相关设备

文献发布时间：2024-04-18 19:58:21

技术领域

本发明涉及句向量预测技术领域，尤其涉及一种句向量预测方法、问答匹配方法、装置及相关设备。

背景技术

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。随着自然语言处理技术的进步和工程落地经验的积累，智能客服系统近年来在各行业中，已经逐渐应用于实际业务场景、服务于实际客户，降低了人工客服的压力和成本。现有的客服系统基于NLP预训练模型如Bert构建，通过识别用户问题中的句向量，再通过句向量与问答数据库中的问答匹配，从而自动给出答复，但预训练模型Bert需要经过大量数据进行训练后，才能够学习到人类语言语义。在一些项目启动初期，数据量很少，模型就需要多个轮次的训练，使模型能够充足的学习到相关知识，但由于数据量少、模型巨大的原因，模型的多轮训练有可能很好的拟合了现有数据，但由于实际业务场景中数据噪点很多，模型也对这些数据噪点进行了拟合，那么在使用模型预测的时候就无法达到很好的效果，最终由于过拟合导致模型泛化能力很差；如果使用较小的预训练模型，会导致模型的推理能力较弱，不能模拟实际业务的多个场景，降低实际业务的收益。

发明内容

本发明提供一种句向量预测方法、问答匹配方法、装置及相关设备，用以解决传统预训练模型或推理能力较弱，或由于训练数据量较少，导致模型泛化能力差的缺陷。

本发明提供一种句向量预测方法，包括：

将待识别语句输入至当前业务的第一句向量预测模型中，得到所述待识别语句对应的句向量预测结果；其中，所述当前业务的第一句向量预测模型是根据与所述当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建的；

所述当前业务的第一句向量预测模型是经过自学习和对比学习训练得到的。

根据本发明提供的一种句向量预测方法，所述当前业务的第一句向量预测模型的构建方法包括：

将与所述当前业务相似的历史业务的第二句向量预测模型中的预设层的参数赋值到所述当前业务的第一句向量预测模型的对应层中。

根据本发明提供的一种句向量预测方法，所述第二句向量预测模型包括n层，所述第一句向量预测模型包括m层，所述第二句向量预测模型中的预设层包括：

第1层、第n/2层和第n层；

相应地，所述的第一句向量预测模型的对应层包括第1层、第m/2-1层和第m-1层。

根据本发明提供的一种句向量预测方法，对所述当前业务的第一句向量预测模型进行自学习和对比学习训练，包括：

获取自学习前第一句向量预测模型输出的第一句向量预测结果；

获取自学习后第一句向量预测模型输出的第二句向量预测结果；

计算所述第一句向量预测结果与所述第二句向量预测结果的相似度得分；

计算所述相似度得分与预设标签之间的交叉熵损失，根据所述交叉熵损失更新所述第一句向量预测模型。

根据本发明提供的一种句向量预测方法，所述获取自学习前第一句向量预测模型输出的第一句向量预测结果，包括：

将训练数据输入根据与所述当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建的第一句向量预测模型，得到第一句向量预测结果。

根据本发明提供的一种句向量预测方法，所述获取自学习后第一句向量预测模型输出的第二句向量预测结果，包括：

对所述自学习前第一句向量预测模型的每一层的输出结果进行平均池化处理；

将每一层平均池化处理后的输出结果按照丢弃比率函数进行特征丢弃，得到每一层最终输出结果；

对每一层最终输出结果与自学习权重参数进行广播相乘后求和，输出第二句向量预测结果。

本发明还提供一种问答匹配方法，包括：

获取待识别语句对应的句向量，所述句向量根据上述任一项所述的句向量预测方法预测得到；

将所述句向量与问答数据库中的问题项进行匹配；

在匹配成功时，输出匹配到的问题项对应的答复。

本发明还提供一种句向量预测装置，包括：

预测模块，用于将待识别语句输入至当前业务的第一句向量预测模型中，得到所述待识别语句对应的句向量预测结果；

构建模块，用于根据与所述当前业务相似的历史业务的第二句向量预测模型进行蒸馏，以构建所述当前业务的第一句向量预测模型；

训练模块，用于对所述当前业务的第一句向量预测模型进行自学习和对比学习训练。

本发明还提供一种客服问答系统，包括：

获取模块，用于获取待识别语句对应的句向量，所述句向量根据上述任一项所述的句向量预测方法预测得到；

匹配模块，用于将所述句向量与问答数据库中的问题项进行匹配；

输出模块，用于在匹配成功时，输出匹配到的问题项对应的答复。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的句向量预测方法，和/或，如上述所述的问答匹配方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的句向量预测方法。

本发明提供的句向量预测方法、问答匹配方法、装置及相关设备，通过将待识别语句输入至当前业务的第一句向量预测模型中，得到待识别语句对应的句向量预测结果；其中，当前业务的第一句向量预测模型是根据与当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建的；当前业务的第一句向量预测模型是经过自学习和对比学习训练得到的，通过根据与当前业务相似的历史业务的第二句向量预测模型蒸馏而构建第一句向量预测模型，可以增强第一句向量预测模型的预测能力，并且，通过自学习和对比学习训练，可以提升句向量预测结果的准确性，从而提升句向量的表示能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的句向量预测方法的流程示意图之一；

图2是本发明提供的模型蒸馏示意图；

图3是本发明提供的句向量预测方法的流程示意图之二；

图4是本发明提供的模型平均池化示意图；

图5是本发明提供的模型丢弃示意图；

图6是本发明提供的问答匹配方法的流程示意图；

图7是本发明提供的句向量预测装置的功能结构示意图；

图8是本发明提供的问答匹配装置的功能结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的句向量预测方法的流程图，如图1所示，本发明实施例提供的句向量预测方法包括：

步骤101、根据与当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建第一句向量预测模型；

步骤102、对当前业务的第一句向量预测模型进行自学习和对比学习训练；

步骤103、将待识别语句输入至训练好的第一句向量预测模型中，得到待识别语句对应的句向量预测结果。

在一些使用句向量的项目启动初期，数据量很少，模型需要多个轮次的训练，以使模型能够充足的学习到相关知识，但由于数据量少、模型巨大的原因，模型的多轮训练有可能很好的拟合了现有数据，但由于实际业务场景中数据噪点很多，模型也对这些数据噪点进行了拟合，那么在使用模型预测的时候就无法达到很好的效果，最终由于过拟合导致模型泛化能力很差；如果使用较小的预训练模型，会导致模型的推理能力较弱，不能模拟实际业务的多个场景，句向量预测能力差，降低实际业务的收益。

本发明实施例提供的句向量预测方法通过将待识别语句输入至当前业务的第一句向量预测模型中，得到待识别语句对应的句向量预测结果；其中，当前业务的第一句向量预测模型是根据与当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建的；当前业务的第一句向量预测模型是经过自学习和对比学习训练得到的，通过根据与当前业务相似的历史业务的第二句向量预测模型蒸馏而构建第一句向量预测模型，可以增强第一句向量预测模型的预测能力，并且，通过自学习和对比学习训练，可以提升句向量预测结果的准确性，从而提升句向量的表示能力。

基于上述任一实施例，如图2所示，当前业务的第一句向量预测模型的构建方法包括：

将与当前业务相似的历史业务的第二句向量预测模型A中的预设层的参数赋值到当前业务的第一句向量预测模型A’的对应层中。

在本发明实施例中，第二句向量预测模型A包括n层，第一句向量预测模型A’包括m层，第二句向量预测模型A中的预设层包括：第1层、第n/2层和第n层；

相应地，第一句向量预测模型A’的对应层包括第1层、第m/2-1层和第m-1层。

在本发明实施例中，当前业务的第一句向量预测模型为较小模型，与当前业务相似的历史业务的第二句向量预测模型为较大的成熟模型，通过将现有相似业务较大模型的不同层参数，抽层蒸馏到较小模型中，达到了增强小模型能力的目的，从而提升句向量预测准确性。

基于上述任一实施例，如图3所示，对当前业务的第一句向量预测模型进行自学习和对比学习训练，包括：

步骤301、获取自学习前第一句向量预测模型输出的第一句向量预测结果；

在本发明实施例中，获取自学习前第一句向量预测模型输出的第一句向量预测结果，包括：

将训练数据输入根据与当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建的第一句向量预测模型，得到第一句向量预测结果。

步骤302、获取自学习后第一句向量预测模型输出的第二句向量预测结果；

在本发明实施例中，获取自学习后第一句向量预测模型输出的第二句向量预测结果，包括：

步骤3021、对自学习前第一句向量预测模型的每一层的输出结果进行平均池化处理；

当有用户问题数据输入模型时，将蒸馏后所得第一句向量预测模型A’每一层的输出结果平均池化，如图4所示。

步骤3022、将每一层平均池化处理后的输出结果按照丢弃比率函数进行特征丢弃，得到每一层最终输出结果；

在本发明实施例中，初始化一个dropout网络层如图5所示，其丢弃比率函数如下，

对每一次进行特征丢弃，得到每一层最终输出结果。

Dropout网络层是指假设现有300个神经元，若设定dropout比率为0.1，那么每个神经元有0.1的概率“失活”，即不发挥任何作用。

步骤3023、对每一层最终输出结果与自学习权重参数进行广播相乘后求和，输出第二句向量预测结果。

在本发明实施例中，初始化一个模型可学习参数Weight，经过softmax激活函数激活后对每一层进行加权求和，得到第二句向量预测结果Embed

步骤303、计算第一句向量预测结果与第二句向量预测结果的相似度得分；

步骤304、计算相似度得分与预设标签之间的交叉熵损失，根据交叉熵损失更新第一句向量预测模型。

在本发明实施例中，在模型中构造最小训练单元batch，获取用户提取的问题：

对上述问题进行编码，将编码结果输入自学习前第一句向量预测模型和自学习后第一句向量预测模型，输出的第一句向量预测结果、第一句向量预测结果如下：

使用预设相似度方程计算embeddings之间的相似度：

构建标签：

计算score、label之前的交叉熵损失：

final_loss＝cross_entropy_loss(score，label)

将得到的损失进行反向传播，更新模型。

通过结合多层加权(由模型自学习加权权重)、对比学习的训练方式，增强小模型的句向量表示能力。

在本发明实施例中，将现有较为成熟业务的较大模型进行蒸馏，从较大模型的底、中、上分别抽取出其参数赋值到较小模型中。将较大模型的每一层进行平均池化，从低层至高层进行dropout，并将结果加权求和(权重为模型可学习参数W),最后通过对比学习方法优化模型，可以增强较小的第一句向量模型的预测能力；自学习多层加权方法可辅助较小模型理解较大模型，借鉴知识并更好的利用数据，提升句向量预测能力和预测准确性。

图6为本发明实施例提供的问答匹配方法的流程图，如图6所示，本发明实施例提供的问答匹配方法包括：

步骤601、获取待识别语句对应的句向量，句向量根据上述任一实施例所述的句向量预测方法预测得到；

步骤602、将句向量与问答数据库中的问题项进行匹配；

步骤603、在匹配成功时，输出匹配到的问题项对应的答复。

本发明提供的问答匹配方法通过获取待识别语句对应的句向量，所述句向量根据上述的句向量预测方法预测得到；将句向量与问答数据库中的问题项进行匹配；在匹配成功时，输出匹配到的问题项对应的答复，在问答系统实际业务场景中，引入本实施例的问答匹配方法，解决问题率相较传统问答系统提升了约3％，提升用户体验。

下面对本发明提供的句向量预测装置进行描述，下文描述的句向量预测装置与上文描述的句向量预测方法可相互对应参照。

图7为本发明实施例提供的句向量预测装置的示意图，如图7所示，本发明实施例提供的句向量预测装置包括：

预测模块701，用于将待识别语句输入至当前业务的第一句向量预测模型中，得到待识别语句对应的句向量预测结果；

构建模块702，用于根据与当前业务相似的历史业务的第二句向量预测模型进行蒸馏，以构建当前业务的第一句向量预测模型；

训练模块703，用于对当前业务的第一句向量预测模型进行自学习和对比学习训练。

本发明实施例提供的句向量预测装置通过将待识别语句输入至当前业务的第一句向量预测模型中，得到待识别语句对应的句向量预测结果；其中，当前业务的第一句向量预测模型是根据与当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建的；当前业务的第一句向量预测模型是经过自学习和对比学习训练得到的，通过根据与当前业务相似的历史业务的第二句向量预测模型蒸馏而构建第一句向量预测模型，可以增强第一句向量预测模型的预测能力，并且，通过自学习和对比学习训练，可以提升句向量预测结果的准确性，从而提升句向量的表示能力。

下面对本发明提供的客服问答系统进行描述，下文描述的客服问答系统与上文描述的问答匹配方法可相互对应参照。

图8为本发明实施例提供的客服问答系统的示意图，如图8所示，本发明实施例提供的客服问答系统包括：

获取模块801，用于获取待识别语句对应的句向量，句向量根据上述任一项所述的句向量预测方法预测得到；

匹配模块802，用于将句向量与问答数据库中的问题项进行匹配；

输出模块803，用于在匹配成功时，输出匹配到的问题项对应的答复。

本发明提供的问答匹配装置通过获取待识别语句对应的句向量，所述句向量根据上述的句向量预测方法预测得到；将句向量与问答数据库中的问题项进行匹配；在匹配成功时，输出匹配到的问题项对应的答复，在问答系统实际业务场景中，引入本实施例的问答匹配方法，解决问题率相较传统问答系统提升了约3％，提升用户体验。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行句向量预测方法，该方法包括：将待识别语句输入至当前业务的第一句向量预测模型中，得到待识别语句对应的句向量预测结果；其中，当前业务的第一句向量预测模型是根据与当前业务相似的历史业务的第二句向量预测模型进行蒸馏而构建的；当前业务的第一句向量预测模型是经过自学习和对比学习训练得到的，和/或，执行问答匹配方法，该方法包括：获取待识别语句对应的句向量，所述句向量根据上述的句向量预测方法预测得到；将句向量与问答数据库中的问题项进行匹配；在匹配成功时，输出匹配到的问题项对应的答复。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：贝壳找房(北京)科技有限公司;

上一篇：一种示波法与光电容积脉搏波结合的血压测量装置
下一篇：一种基于边缘计算的碳排放监测预警分析系统及其方法