一种用于智能问答的文本嵌入式表达方法

文献发布时间：2023-06-19 12:10:19

技术领域

本发明涉及自然语言处理技术领域，具体地说是一种用于智能问答的文本嵌入式表达方法。

背景技术

随着人工智能的快速发展，机器人越来越多的成为生活中的辅助工具，例如百度小度、小米小爱同学，而智能问答已经成为我们生活中比较常见的工具。

智能对话系统分为离线和在线两种方式，离线是指把少部分功能部署到边端，也就是机器人本体上，例如简单的语料库和NLU能力。如果是联网状态，对于复杂的问题，可以通过云端强大的计算能力进行回答结合知识图谱、百度搜索、ES等方式进行回答。智能对话一个亟待解决的问题就是如何度量文本之间的相似度，由于对于一个问题，往往我们系统中会有多个候选答案，如何从多个候选答案选择出最合适的那个答案成为一个非常重要的任务，返回答案是否符合用户要求，这能很大程度决定用户体验如何。

发明内容

本发明的技术任务是针对以上不足之处，提供一种用于智能问答的文本嵌入式表达方法，能够更好的进行文本向量的提取，使得提出来的文本向量具有更好的相似度分析能力，准确率更高。

本发明解决其技术问题所采用的技术方案是：

一种用于智能问答的文本嵌入式表达方法，通过无监督的对比学习与Bert预训练模型结合进行文本向量的提取，利用对比损失完成Bert模型的微调，实现过程包括：

搭建Bert预训练模型，加载Bert预训练权重；

依据新的数据集，进行Bert模型的微调，通过构建损失函数，使用优化器进行优化；

利用无监督的对比学习方法微调Bert模型，获取向量表示用以构造所述损失函数；

根据训练好的模型，获取相应的句子表示。

该方法提取的文本向量可以更好的用于文本相似度分析。传统常见的文本特征提取方法包括TF-IDF、独热编码、词性分析和语法分析等传统的机器学习方法，深度学习方法包括Word2vec、FastText、Glove、Bert、GPT、Elmo等，本方法利用对比学习和深度学习结合的方法，提高文本向量表达包含的语义信息，可以更好的把文本向量用于文本相似度分析任务，相比较传统的机器学习和深度学习方法，本方法提取出来的向量准确率更高。

优选的，为了从Bert中获取句子的向量表示，在进行Bert模型微调时，把Bert输出层的向量进行相加取平均获得句子的向量表示。

优选的，Bert模型采用Transformer中的Encoder层，将输入的向量表示的文本进行残差连接，并进行线性转换。

优选的，微调时采用的损失函数如下：

公式中的sim表示如下计算公式(也就是表现向量之间的相似性)：

i表示第i个句子，j表示第j个句子；

τ表示温度超参数；

N表示batchsize的大小。

优选的，使用Adam优化器进行优化。

Adam优化器，结合AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计(First Moment Estimation，即梯度的均值)和二阶矩估计(SecondMoment Estimation，即梯度的未中心化的方差)进行综合考虑，计算出更新步长。其优点在于，实现简单，计算高效，对内存需求少；参数的更新不受梯度的伸缩变换影响；超参数具有很好的解释性，且通常无需调整或仅需很少的微调；更新的步长能够被限制在大致的范围内(初始学习率)；能自然地实现步长退火过程(自动调整学习率)；很适合应用于大规模的数据及参数的场景，适用于不稳定目标函数，适用于梯度稀疏或梯度存在很大噪声的问题。Adam在很多情况下算作默认工作性能比较优秀的优化器。

进一步的，多个句子表示一个Batch的数据，每个句子都有多种不同的dropout；

得到相同句子不同dropout产生的向量表示和不同句子之间的向量表示，用这些向量构造所述的损失函数，然后进行训练。

优选的，用三个句子表示一个Batch的数据，即BatchSize为3；每个句子都有两种不同的dropout。

进一步的，训练好的模型，把dropout设置为1，进行推理，然后把Bert最后一层的向量，进行相加取平均获得相应的句子表示。

本发明还要求保护一种用于智能问答的文本嵌入式表达装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述的用于智能问答的文本嵌入式表达方法。

本发明还要求保护一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述的用于智能问答的文本嵌入式表达方法。

本发明的一种用于智能问答的文本嵌入式表达方法与现有技术相比，具有以下有益效果：

本方法使用无监督的对比学习技术结合Bert预训练模型进行文本向量的提取，相比较传统的机器学习和深度学习方法，该方法提取出来的向量，准确率更高，可以更好的把文本向量用于文本相似度分析任务。

本方法可将云计算与机器人相结合，使云化机器人拥有更强大的对话能力。

附图说明

图1是本发明实施例提供的Bert模型采用的Transformer中的Encoder层示意图；

图2是本发明实例提供的利用无监督的对比学习方法微调Bert模型框架的示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明实施例提供一种用于智能问答的文本嵌入式表达方法，通过无监督的对比学习与Bert预训练模型结合进行文本向量的提取，利用对比损失完成Bert模型的微调。在训练模型的基础上，加上对比学习目标，使得提出来的文本向量更具有表示意义，该方法提取的文本向量可以更好的用于文本相似度分析。

传统常见的文本特征提取方法包括TF-IDF、独热编码、词性分析和语法分析等传统的机器学习方法，深度学习方法包括Word2vec、FastText、Glove、Bert、GPT、Elmo等，本方法利用对比学习和深度学习结合的方法，提高文本向量表达包含的语义信息，可以更好的把文本向量用于文本相似度分析任务，相比较传统的机器学习和深度学习方法，本方法提取出来的向量准确率更高。

本方法结合深度学习预训练模型BERT，完成对BERT的微调，利用对比损失完成对BERT模型的微调。实验证明通过对比损失微调之后的模型，获得文本向量具有更好的相似度分析能力。

其具体的实现过程如下：

1、搭建Bert预训练模型，加载Bert预训练权重；

依据新的数据集，Bert模型主要采用Transformer中的Encoder层，Transformer的Encoder层如图1所示，将输入的向量表示的文本进行残差连接，并进行线性转换，然后加载BERT预训练权重。

2、依据新的数据集，开始进行Bert模型的微调，为了从Bert中获取句子的向量表示，在进行Bert模型微调时，把Bert输出层的向量进行相加取平均获得句子的向量表示。

微调时采用的损失函数如下：

公式中的sim表示如下计算公式(也就是表现向量之间的相似性)：

i表示第i个句子，j表示第j个句子；

τ表示温度超参数；

N表示batchsize的大小。

通过构建上述的损失函数，利用Adam优化器进行优化。

3、利用无监督的对比学习方法微调Bert模型框架如图2所示，其中E表示Bert模型，左边的三个句子表示一个Batch的数据，也就是BatchSize为3，E右边表示Bert的不同dropout下的输出，每个句子都有两个圆圈，表示有两种不同的dropout，例如0.1和0.2，实线表示相同句子不同dropout产生的向量表示，虚线表示不同的句子之间的向量表示。然后利用这些向量去构造第二步所说的损失函数，然后进行训练。

4、训练好的模型，把dropout设置为1，进行推理，然后把Bert最后一层的向量，进行相加取平均获得相应的句子表示。

本发明实施例还提供了一种用于智能问答的文本嵌入式表达装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述的用于智能问答的文本嵌入式表达方法。

本发明实施例还提供了一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行本发明上述实施例中所述的用于智能问答的文本嵌入式表达方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：冯落落;李锐;王建华;
专利申请人：山东新一代信息产业技术研究院有限公司;

上一篇：虚拟角色展示方法、装置、电子设备及存储介质
下一篇：多数据中心的容灾系统、方法、计算机设备及介质