一种文本处理的方法、相关装置及设备

文献发布时间：2023-06-19 18:35:48

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种文本处理的方法、相关装置及设备。

背景技术

随着互联网技术和数字技术地快速发展，以及人们生活需求不断提高，各种智能化翻译的发展迅速需求持续扩大。但目前互联网中具有海量的各种语言的文本信息数据，使得用户需要花费较长的时间去阅读、筛选或翻译文本，才能更好地了解文本中的相关信息或内容。文本摘要的翻译就能够更加快速地方便用户去迅速地了解大篇幅的文本的主要内容。而目前跨语言摘要的处理方式通常是通过端到端的训练方法来处理摘要。

然而，端对端的摘要处理方法一般是先对待处理的文本进行翻译，才能对翻译得到的文本进行摘要概括，容易出现因翻译的不准确而导致摘要错误的情况，或者是先对待处理的文本进行摘要概括，才能对概括得到的摘要文本进行翻译，最终翻译出待处理文本的摘要，也容易出现因摘要不准确而导致翻译出来的摘要不准确，且该处理方法只能在翻译完成后才能进行摘要概括，或者摘要概括完成后才能进行翻译，需要经过一系列繁琐的分步式处理流程，才能完成待处理文本的摘要翻译，不仅容易造成错误传播或错误累积的问题，还增加了文本处理的复杂度，从而导致文本处理的效率降低。

发明内容

本申请实施例提供了一种文本处理的方法、相关装置及设备，用于通过第一先验网络以及第二先验网络，能够实现目标嵌入向量第一隐向量以及第二隐向量的同步转换，以及将第一隐向量、第二隐向量以及目标嵌入向量作为第三先验网络输入，能够获取到表示文本摘要属于第二语种的第三隐向量，然后通过对第三隐向量以及目标嵌入向量的解码，可以无需经过一系列繁琐的分步式处理流程，就能够同步实现对目标嵌入向量所对应的待处理文本的摘要概括和翻译，能够降低文本处理的复杂度，从而提高文本处理的效率。

有鉴于此，本申请一方面提供一种文本处理的方法，包括：

获取待处理文本所对应的N个词嵌入向量，待处理文本属于第一语种所对应的文本，N为大于1的整数；

根据N个词嵌入向量生成目标嵌入向量；

将目标嵌入向量输入至第一先验网络，通过第一先验网络输出第一隐向量，第一隐向量表示目标嵌入向量属于第二语种的向量表示；

将目标嵌入向量输入至第二先验网络，通过第二先验网络输出第二隐向量，第二隐向量为文本摘要的向量表示，文本摘要为待处理文本的摘要表达；

将第一隐向量、第二隐向量以及目标嵌入向量输入至第三先验网络，通过第三先验网络输出第三隐向量，第三隐向量文本摘要属于第二语种的向量表示；

根据第三隐向量以及目标嵌入向量，生成待处理文本的摘要文本，其中，摘要文本属于第二语种所对应的文本。

本申请的另一方面提供一种文本处理的装置，包括：

获取单元，用于获取待处理文本所对应的N个词嵌入向量，待处理文本属于第一语种所对应的文本，N为大于1的整数；

生成单元，用于根据N个词嵌入向量生成目标嵌入向量；

处理单元，用于将目标嵌入向量输入至第一先验网络，通过第一先验网络输出第一隐向量，第一隐向量表示目标嵌入向量属于第二语种的向量表示；

处理单元，还用于将目标嵌入向量输入至第二先验网络，通过第二先验网络输出第二隐向量，第二隐向量为文本摘要的向量表示，文本摘要为待处理文本的摘要表达；

处理单元，还用于将第一隐向量、第二隐向量以及目标嵌入向量输入至第三先验网络，通过第三先验网络输出第三隐向量，第三隐向量文本摘要属于第二语种的向量表示；

生成单元，还用于根据第三隐向量以及目标嵌入向量，生成待处理文本的摘要文本，其中，摘要文本属于第二语种所对应的文本。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，生成单元具体可以用于：

将N个词嵌入向量转换为N*d维向量矩阵，d为大于1的整数；

对N*d维向量矩阵进行降维处理，得到目标嵌入向量，目标嵌入向量为1*d维的向量。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，

获取单元，还用于获取样本训练集，样本训练集包括第一原始样本、第一目标样本、第二原始样本、第二目标样本、第三原始样本以及第三目标样本，第一目标样本为第一原始样本的翻译文本，第二目标样本为第二原始样本的摘要文本，第三目标样本为第三原始样本经过翻译后的摘要文本；

处理单元，还用于根据第一原始样本通过第一先验网络输出第一预测概率分布，并，根据第二原始样本通过第二先验网络输出第二预测概率分布，并，根据第三原始样本通过第三先验网络输出第三预测概率分布；

处理单元，还用于根据第一目标样本通过第一识别网络输出第一真实概率分布，并，根据第二目标样本通过第二识别网络输出第二真实概率分布，并，根据第三目标样本、第一真实概率分布以及第二真实概率分布通过第三识别网络输出第三真实概率分布；

处理单元，还用于根据第一预测概率分布与第一真实概率分布之间的散度，对第一先验网络的模型参数进行更新；

处理单元，还用于根据第二预测概率分布与第二真实概率分布之间的散度，对第二先验网络的模型参数进行更新；

处理单元，还用于根据第三预测概率分布与第三真实概率分布之间的散度，对第三先验网络的模型参数进行更新。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，处理单元具体可以用于：

获取第一原始样本所对应的至少两个词嵌入向量,第一原始样本属于第一语种所对应的文本；

根据第一原始样本所对应的至少两个词嵌入向量，生成第一原始样本的嵌入向量；

将第一原始样本的嵌入向量输入至第一先验网络，通过第一先验网络输出第一预测概率分布。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，处理单元具体可以用于：

获取第二原始样本所对应的至少两个词嵌入向量,第二原始样本属于第一语种所对应的摘要文本；

根据第二原始样本所对应的至少两个词嵌入向量，生成第二原始样本的嵌入向量；

将第二原始样本的嵌入向量输入至第二先验网络，通过第二先验网络输出第二预测概率分布。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，处理单元具体可以用于：

获取第三原始样本所对应的至少两个词嵌入向量,第三原始样本属于第一语种所对应的文本；

根据第三原始样本所对应的至少两个词嵌入向量，生成第三原始样本的嵌入向量；

将第三原始样本的嵌入向量输入至第三先验网络，通过第三先验网络输出第三预测概率分布。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，处理单元具体可以用于：

获取第一预测概率分布与第一真实概率分布的散度；

将第一预测概率分布与第一真实概率分布的散度作为第一损失值；

根据第一损失值对第一先验网络的模型参数进行更新；

处理单元具体可以用于：

获取第二预测概率分布与第二真实概率分布的散度；

将第二预测概率分布与第二真实概率分布的散度作为第二损失值；

根据第二损失值对第二先验网络的模型参数进行更新；

处理单元具体可以用于：

获取第三预测概率分布与第三真实概率分布的散度；

将第三预测概率分布与第三真实概率分布的散度作为第三损失值；

根据第三损失值对第三先验网络的模型参数进行更新。

本申请另一方面提供了一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序时实现如上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。网络设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该网络设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取属于第一语种的待处理文本所对应的N个词嵌入向量，并根据N个词嵌入向量生成目标嵌入向量，进而将目标嵌入向量输入至第一先验网络，通过第一先验网络输出能够用于表示目标嵌入向量属于第二语种的向量表示的第一隐向量，同时，可以将目标嵌入向量输入至第二先验网络，通过第二先验网络输出能够用于表示文本摘要的向量表示的第二隐向量，然后，可以将第一隐向量、第二隐向量以及目标嵌入向量输入至第三先验网络，通过第三先验网络输出能够用于表示文本摘要属于第二语种的向量表示的第三隐向量，最后，可以根据第三隐向量以及目标嵌入向量，生成待处理文本的摘要文本。通过上述方式，实现了通过第一先验网络以及第二先验网络，能够将属于第一语种的目标嵌入向量同步转换为属于第二语种的第一隐向量以及表示文本摘要的第二隐向量，并通过将第一隐向量、第二隐向量以及目标嵌入向量作为第三先验网络输入，可以获取到能够用于表示文本摘要属于第二语种的第三隐向量，然后对第三隐向量以及目标嵌入向量进行解码，可以实现对目标嵌入向量的同步翻译以及摘要概括，无需经过一系列繁琐的分步式处理流程，就能够同步完成待处理文本的摘要概括和翻译，能够降低文本处理的复杂度，从而提高文本处理的效率。

附图说明

图1是本申请实施例中文本处理控制系统的一个架构示意图；

图2是本申请实施例中文本处理的方法的一个实施例示意图；

图3是本申请实施例中文本处理的方法的另一个实施例示意图；

图4是本申请实施例中文本处理的方法的另一个实施例示意图；

图5是本申请实施例中文本处理的方法的另一个实施例示意图；

图6是本申请实施例中文本处理的方法的另一个实施例示意图；

图7是本申请实施例中文本处理的方法的另一个实施例示意图；

图8是本申请实施例中文本处理的方法的另一个实施例示意图；

图9是本申请实施例中文本处理的方法的一个原理流程示意图；

图10是本申请实施例中文本处理的方法的另一个原理流程示意图；

图11是本申请实施例中文本处理的装置的一个实施例示意图；

图12是本申请实施例中计算机设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的文本处理的方法可以应用于通过建模完成文本的摘要概括和翻译的场景中，作为示例，例如通过建模将一篇英文论文概括和翻译完成为中文摘要。作为另一个示例，例如通过建模将一则法语新闻概括和翻译完成为英文摘要。作为再一示例，例如通过建模将一篇英文故事概括和翻译完成为法文摘要，在上述种种场景中，为了完成文本的摘要概括和翻译，现有技术中提供的解决方案为，通过端到端的训练方法来处理摘要，但是端对端的摘要处理方法一般是先对待处理的文本进行翻译，才能对翻译得到的文本进行摘要概括，或者是先对待处理的文本进行摘要概括，才能对概括得到的摘要文本进行翻译，最终翻译出待处理文本的摘要，该处理方法只能在翻译完成后才能进行摘要概括，或者摘要概括完成后才能进行翻译，需要经过一系列繁琐的分步式处理流程，才能完成待处理文本的摘要翻译，增加了文本处理的复杂度，从而导致文本处理的效率降低。

为了解决上述问题，本申请提出了一种文本处理的方法，该方法应用于图1所示的文本处理控制系统，请参阅图1，图1为本申请实施例中文本处理控制系统的一个架构示意图，如图1所示，服务器通过获取终端设备发送的属于第一语种的待处理文本所对应的N个词嵌入向量，并根据N个词嵌入向量生成目标嵌入向量，进而将目标嵌入向量输入至第一先验网络，通过第一先验网络输出能够用于表示目标嵌入向量属于第二语种的向量表示的第一隐向量，同时，可以将目标嵌入向量输入至第二先验网络，通过第二先验网络输出能够用于表示文本摘要的向量表示的第二隐向量，然后，可以将第一隐向量、第二隐向量以及目标嵌入向量输入至第三先验网络，通过第三先验网络输出能够用于表示文本摘要属于第二语种的向量表示的第三隐向量，最后，可以根据第三隐向量以及目标嵌入向量，生成待处理文本的摘要文本。通过上述方式，实现了通过第一先验网络以及第二先验网络，能够将属于第一语种的目标嵌入向量同步转换为属于第二语种的第一隐向量以及表示文本摘要的第二隐向量，并通过将第一隐向量、第二隐向量以及目标嵌入向量作为第三先验网络输入，可以获取到能够用于表示文本摘要属于第二语种的第三隐向量，然后对第三隐向量以及目标嵌入向量进行解码，可以实现对目标嵌入向量的同步翻译以及摘要概括，无需经过一系列繁琐的分步式处理流程，就能够同步完成待处理文本的摘要概括和翻译，能够降低文本处理的复杂度，从而提高文本处理的效率。

可以理解的是，图1中仅示出了一种终端设备，在实际场景中可以由更多种类的终端设备参与到数据处理的过程中，例如个人电脑(personal computer，PC)，具体数量和种类因实际场景而定，具体此处不做限定。另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，服务器的数量因实际场景而定，具体此处不做限定。

需要注意的是，本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端设备以及服务器可以连接组成区块链网络，本申请在此不做限制。

为了解决上述问题，本申请提出了一种文本处理的方法，该方法一般由服务器或终端设备执行，相应地，应用于文本处理的装置一般设置于服务器或终端设备中。

可以理解的是，如本申请所公开的文本处理的方法、相关设备以及装置，其中多个服务器/终端设备可以组成为一区块链，而服务器/终端设备为区块链上的节点。在实际应用中，可以在区块链中需要进行节点与节点之间的数据共享，每个节点上可以存储有文本数据。

下面将对本申请中文本处理的方法进行介绍，请参阅图2以及图9，本申请实施例中文本处理的方法一个实施例包括：

在步骤S101中，获取待处理文本所对应的N个词嵌入向量，待处理文本属于第一语种所对应的文本，N为大于1的整数；

在本实施例中，当有需要进行翻译和摘要概括的待处理文本时，可以获取待处理文本，可以理解的是，为了使机器学习能够更好地学习到文本中的特征，可以将待处理文本转换为机器学习算法易于利用的一种形式，即可以将获取到的待处理文本转化为N个词嵌入向量，以使后续能够通过对获取到N个词嵌入向量进行相应的处理，可以将属于第一语种的待处理文本翻译和概括为摘要。

其中，第一语种具体可以表现为中文、英文、法文等，还可以是其他语种，此处不作具体限制。属于第一语种的待处理文本具体可以表现为一个句子、一个段落或者是一篇文章等，还可以是其他形式的文本，此处不作具体限制，例如，一篇英文的人物传记，一段中文的随笔记、一则法文的小镇新闻或者英文的论文等，此处不作具体限制。

具体地，如图9所示，当获取到待处理文本之后，本实施例可以获取待处理文本所对应的N个词嵌入向量，具体可以是先对待处理文本进行分词处理，进而可以基于热独(one-hot)编码的方式，将处理得到的每一个词语或字，对应成由一个词语总数或字总数组成元素的数组或列表，其中，每一个字或词语都可以用唯一对应的数组或列表对应，以及数组或列表的唯一性用1表示，可以将每一个文本整合成一个稀疏矩阵，即待处理文本所对应的稀疏矩阵。

进一步地，为了避免由于文本字数过多而导致文本运算处理量变大，运算复杂度增加等情况，本实施例可以将待处理文本所对应的稀疏矩阵经过嵌入(Embedding)层，如词嵌入(token embeddings)层以及位置(positional embeddings)等，可以将稀疏矩阵映射成一个密集矩阵，具体可以是通过一些线性变换(如查表操作)，可以将稀疏矩阵转化成一个密集矩阵，该密集矩阵可以用N个特征来表征所有的文字，可以理解的是，由于在密集矩阵中，表象上代表着密集矩阵跟单个字的一一对应关系，实际上还蕴含了大量的字与字之间，词与词之间甚至句子与句子之间的内在关系，这些关系都可以用嵌入层学习到的参数来进行表征，能够通过对稀疏矩阵进行降维处理，可以有效降低运算复杂度，从而在一定程度上提高文本处理的效率。

例如，假设有一个待处理文本为“公主很漂亮”，则将该待处理文本进行分词处理，可以得到“公主/很/漂亮”的3个词语，进而可以将“公主/很/漂亮”编码为一个稀疏矩阵，然后可以经过嵌入层将稀疏矩阵映射成一个密集矩阵，如可以将“公”＝[0 0 0 0 1 0 0 0 00]以及“主”＝[0 0 0 1 0 0 0 0 0 0]映射成“公主”＝[1.0 0.25 1.0]的词向量，同理可以将其他词语或字进行映射，以生成文本“公主很漂亮”所对应的密集矩阵。

进一步地，获取到待处理文本所对应的密集矩阵后，可以词语编码器(Encoder)对密集矩阵进行编码，可以理解为是基于词表与矩阵之间的映射关系，来准确获取待处理文本中的每个词语或字所对应的向量表示，得到待处理文本所对应的N个词嵌入向量。

在步骤S102中，根据N个词嵌入向量生成目标嵌入向量；

在本实施例中，在获取到N个词嵌入向量之后，可以将N个词嵌入向量转为能够用于表示或概括待处理文本的核心语义的一个目标嵌入向量，旨在为后续获取待处理文本所对应的隐向量即隐变量的采集做准备，以使后续模型能够基于对隐向量的学习，能够更好地对文本进行摘要概括或翻译。

具体地，如图9所示，当获取到N个词嵌入向量之后，本实施例可以基于N个词嵌入向量生成目标嵌入向量，具体可以是，对N个词嵌入向量采用向量维度取平均，或者向量维度取最大值的方式，还可以采用其他方式来获取目标嵌入向量，此处不作具体限制。

例如，假设有一个待处理文本对应有10个512维的词嵌入向量，可以将10个512维的词嵌入向量看作是一个10*512维的矩阵表示，进而通过在一个512维的每一维上取最大值(一共10个值)，再进行相加融合可以得到一个1*512维的向量，即目标嵌入向量。

在步骤S103中，将目标嵌入向量输入至第一先验网络，通过第一先验网络输出第一隐向量，第一隐向量表示目标嵌入向量属于第二语种的向量表示；

在本实施例中，在获取到目标嵌入向量后，可以将目标嵌入向量输入至能够用于将文本中的语义进行对齐的第一先验网络中进行学习，以通过第一先验网络输出能够用于表示目标嵌入向量属于第二语种的向量表示，即第一隐向量。

其中，第一先验网络具体可以表现为添加有先验分布的语言翻译模型，能够用于提高对待处理文本中的字与字之间，词与词之间甚至句子与句子之间的语义关系的特定信息进行预测的准确性和完整性，第一隐向量是指能够用于表示目标嵌入向量属于第二语种的隐含变量(latent variable)，可以理解为，目标嵌入向量中可能存在有能够直接表示目标嵌入向量属于第二语种的归属，却无法直接观察到的特征，因此，可以引入一个隐含变量来描述目标嵌入向量属于第二语种的归属的特征，即第一隐变量。其中，第二语种是不同于第一语种的其他语种类别，如第一语种为中文，则第二语种可以表现为英文、日文或者韩文等，还可以是其他语种，此处不作具体限制。

具体地，如图9所示，当获取到目标嵌入向量后，由于目标嵌入向量可以理解为是待处理文本中的大量的字与字之间，词与词之间甚至句子与句子之间的内在关系的参数表征，但是其中可能还隐藏有一些难以被观察到的语义表达、语义关系或关联关系等，而这些隐藏的信息对待处理文本的翻译有显然的影响，但是这些隐藏的信息无法直接观测到，因此，本实施例可以通过将目标嵌入向量输入至能够用于将文本中的语义进行对齐的第一先验网络中进行学习，以获取能够用于描述这些隐藏信息以及能够用于表示目标嵌入向量属于第二语种的向量表示，即第一隐向量如Z

在步骤S104中，将目标嵌入向量输入至第二先验网络，通过第二先验网络输出第二隐向量，第二隐向量为文本摘要的向量表示，文本摘要为待处理文本的摘要表达；

在本实施例中，在获取到目标嵌入向量后，可以将目标嵌入向量输入至能够用于将文本进行语义概括的第二先验网络中进行学习，以通过第二先验网络输出能够用于表示文本摘要的向量表示，即第二隐向量。

其中，第二先验网络具体可以表现为添加有先验分布的单语摘要生成模型，能够用于提高对文本中具备概括意义或总结意义的特定信息进行预测的准确性和完整性，第二隐向量可以理解为在目标嵌入向量中可能存在有能够直接表示具有概括意义或总结意义的归属，却无法直接观察到的特征，因此，可以引入一个隐含变量来描述概括意义或总结意义的归属特征，即第二隐变量。

具体地，如图9所示，当获取到目标嵌入向量后，由于目标嵌入向量可以包含有大量的字与字之间，词与词之间甚至句子与句子之间的内在关系的参数表征，且其中可能还隐藏有一些难以被观察到的更加能够反映待处理文本的语义表达、语义关系或关联关系等，且这些隐藏的信息能够更好地帮助模型对待处理文本进行概括学习，但是这些隐藏的信息无法直接观测到，因此，本实施例可以通过将目标嵌入向量输入至能够用于将文本进行语义概括的第二先验网络中进行学习，以获取能够用于描述这些隐藏信息以及能够用于表示文本摘要的向量表示，即第二隐向量如Z

在步骤S105中，将第一隐向量、第二隐向量以及目标嵌入向量输入至第三先验网络，通过第三先验网络输出第三隐向量，第三隐向量文本摘要属于第二语种的向量表示；

在本实施例中，在获取到目标嵌入向量后，可以将目标嵌入向量输入至能够用于将文本中的语义进行对齐以及概括的第三先验网络中进行学习，以通过第三先验网络输出能够用于表示文本摘要属于第二语种的向量表示，即第三隐向量。

其中，第三先验网络具体可以表现为添加有先验分布的跨语言摘要生成模型，不仅能够具备有对目标嵌入向量中的语义关系以及语义表达进行进一步提取的能力，还具备有能够获取表示文本摘要的归属特征能力，第三隐向量为用于描述具有概括意义或总结意义的归属的特征，以及这些具有概括意义或总结意义的归属特征属于第二语种的特征表示。

具体地，如图9所示，当获取到目标嵌入向量后，可以将目标嵌入向量与第一隐向量以及第二隐向量进行拼接，可以得到特征丰富的向量表示，然后，本实施例可以通过将拼接得到的向量表示输入至能够用于将文本的语义进行对齐以及概括的第三先验网络中进行学习，能够更加准确充分地获取到用于描述具有概括意义或总结意义的归属的特征，以及这些具有概括意义或总结意义的归属特征属于第二语种的特征表示的向量表示，即文本摘要属于第二语种的第三隐向量如Z

在步骤S106中，根据第三隐向量以及目标嵌入向量，生成待处理文本的摘要文本，其中，摘要文本属于第二语种所对应的文本。

在本实施例中，在获取到第三隐向量以及目标嵌入向量后，可以将第三隐向量以及目标嵌入向量进行拼接，然后将拼接得到的向量表示通过分类器(Softmax)进行解码，以获取待处理文本所对应的属于第二语种的摘要文本，能够将属于第一语种的待处理文本准确概括并翻译为属于第二语种的摘要文本，从而能够在一定程度上提高获取文本摘要的准确性，并能够使后续用户能够根据获取到的摘要文本快速理解待处理文本中的主要内容以及核心表达。

具体地，如图9以及图10所示，当获取到第三隐向量以及目标嵌入向量后，可以将第三隐向量、目标嵌入向量以及第(t-1)个词语的翻译结果作为解码器的输入，先对目标嵌入向量以及第(t-1)个词语的翻译结果进行编译，具体可以是通过解码器对第(t-1)个词语的翻译结果采用自注意机制进行编码学习，得到能够用于表示第t个词语的编译向量表示，具体如下(1)式：

其中，y是第(t-1)个词语的翻译结果所对应的向量表示，MultiHead为多头自注意机制。

进一步地，通过解码器中的另一个自注意机制(Self-Attention)对目标嵌入向量进行编码学习，得到对应的编译向量表示为H

其中，FFN为前馈神经网络。

进一步地，可以将目标嵌入向量以及第(t-1)个词语的翻译结果所分别对应的编译向量表示与第三隐向量进行拼接，可以拼接得到得到如下(3)式的向量表示，以丰富学习文本翻译以及摘要概括的参考因素，进而将拼接得到的向量表示通过分类器进行解码，可以准确获取到如下(4)式的第t个词语的翻译结果，其中，当t为1时，解码器输入的向量为固定维度的预设向量：

其中，z

进一步地，重复将目标嵌入向量以及第(t-1)个词语的翻译结果进行编译，并将将编译得到的向量表示与第三隐向量进行拼接，然后将拼接得到的向量表示通过分类器进行解码获取第t个词语的翻译结果的过程，直到到达一个特殊的终止符号，完成对待处理文本的翻译以及摘要概括，得到待处理文本的摘要文本。

在本申请实施例中，提供了一种文本处理的方法，通过上述方式，实现了通过第一先验网络以及第二先验网络，能够将属于第一语种的目标嵌入向量同步转换为属于第二语种的第一隐向量以及表示文本摘要的第二隐向量，并通过将第一隐向量、第二隐向量以及目标嵌入向量作为第三先验网络输入，可以获取到能够用于表示文本摘要属于第二语种的第三隐向量，然后对第三隐向量以及目标嵌入向量进行解码，可以实现对目标嵌入向量的同步翻译以及摘要概括，无需经过一系列繁琐的分步式处理流程，就能够同步完成待处理文本的摘要概括和翻译，能够降低文本处理的复杂度，从而提高文本处理的效率。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本处理的方法另一个可选实施例中，如图3所示，根据N个词嵌入向量生成目标嵌入向量，包括：

在步骤S301中，将N个词嵌入向量转换为N*d维向量矩阵，d为大于1的整数；

在步骤S302中，对N*d维向量矩阵进行降维处理，得到目标嵌入向量，目标嵌入向量为1*d维的向量。

在本实施例中，在获取到N个词嵌入向量之后，可以将获取到的N个词嵌入向量转换为N*d维向量矩阵，然后对N*d维向量矩阵通过取平均的方式进行降维处理，以获取目标嵌入向量，使得后续能够基于目标嵌入向量获取待处理文本所对应的隐向量，为即隐变量的采集做准备，以使后续模型能够基于对隐向量的学习，能够更好地对文本进行摘要概括或翻译。

具体地，如图9所示，当获取到N个词嵌入向量之后，本实施例可以对N个词嵌入向量采用向量维度取平均的方式获取目标嵌入向量，具体可以是将获取到的N个词嵌入向量进行叠加得到一个N*d维向量矩阵，然后，可以对该N*d维向量矩阵进行取平均，可以得到一个能够用于表示待处理文本的核心内容的1*d维的向量，即目标嵌入向量。

例如，假设有一个待处理文本对应有10个512维的词嵌入向量，可以将10个词嵌入向量进行编码，可以得到一个10*512维的向量矩阵，然后对该向量矩阵进行求平均处理，可以得到一个1*512维的向量，即目标嵌入向量。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本处理的方法另一个可选实施例中，如图4所示，该方法还包括：

在步骤S401中，获取样本训练集，样本训练集包括第一原始样本、第一目标样本、第二原始样本、第二目标样本、第三原始样本以及第三目标样本，第一目标样本为第一原始样本的翻译文本，第二目标样本为第二原始样本的摘要文本，第三目标样本为第三原始样本经过翻译后的摘要文本；

在步骤S402中，根据第一原始样本通过第一先验网络输出第一预测概率分布，并，根据第二原始样本通过第二先验网络输出第二预测概率分布，并，根据第三原始样本通过第三先验网络输出第三预测概率分布；

在步骤S403中，根据第一目标样本通过第一识别网络输出第一真实概率分布，并，根据第二目标样本通过第二识别网络输出第二真实概率分布，并，根据第三目标样本、第一真实概率分布以及第二真实概率分布通过第三识别网络输出第三真实概率分布；

在步骤S404中，根据第一预测概率分布与第一真实概率分布之间的散度，对第一先验网络的模型参数进行更新；

在步骤S405中，根据第二预测概率分布与第二真实概率分布之间的散度，对第二先验网络的模型参数进行更新；

在步骤S406中，根据第三预测概率分布与第三真实概率分布之间的散度，对第三先验网络的模型参数进行更新。

在本实施例中，第一原始样本与第一目标文本属于翻译语料训练集，其中，第一原始样本具体可以表现为属于第一语种的文本，第一目标样本为第一原始样本进行翻译得到的翻译文本，第一目标样本属于第二语种。第二原始样本与第二目标文本属于单语言语料训练集，其中，第二原始样本具体可以表现为属于第一语种的文本，第二目标样本为第二原始样本的摘要文本，第二目标样本属于第一语种。第三原始样本与第三目标文本属于跨语言语料训练集，其中，第三原始样本具体可以表现为属于第一语种的文本，第三目标样本为第三原始样本经过翻译后的摘要文本，第三原始样本属于第二语种。

具体地，当获取到第一原始样本、第一目标样本、第二原始样本、第二目标样本、第三原始样本以及第三目标样本，首先分别将第一原始样本、第一目标样本、第二原始样本、第二目标样本、第三原始样本以及第三目标样本经过嵌入层进行向量转换，可以得到第一原始样本、第一目标样本、第二原始样本、第二目标样本、第三原始样本以及第三目标样本分别对应的词嵌入向量。

进一步地，如图9所示，将第一原始样本如X

进一步地，可以将第一原始样本所对应的取平均处理得到的嵌入向量表示通过第一先验网络输出第一预测概率分布,并，可以将第二原始样本所对应的取平均处理得到的嵌入向量表示通过第二先验网络输出第二预测概率分布，并，可以将第三原始样本所对应的取平均处理得到的嵌入向量表示通过第三先验网络输出第三预测概率分布。

同理，如图9所示，将第一目标样本如Y

进一步地，可以将第一目标样本所对应的取平均处理得到的嵌入向量表示通过第一识别网络输出第一真实概率分布，并，可以将第二目标样本所对应的取平均处理得到的嵌入向量表示通过第二识别网络输出第二真实概率分布，并，可以将第三目标样本所对应的取平均处理得到的嵌入向量表示通过第三识别网络输出第三预测真实分布，其中，第一识别网络、第一识别网络、第一识别网络具体可以表现为高斯分布模型，或者其他识别网络，如朴素贝叶斯等，此处不作具体限制。

进一步地，如图9所示，在获取到第一预测概率分布与第一真实概率分布，第二预测概率分布与第二真实概率分布，以及第三预测概率分布与第三真实概率分布后，可以根据第一预测概率分布与第一真实概率分布之间的散度，对第一先验网络的模型参数进行更新，同理，根据第二预测概率分布与第二真实概率分布之间的散度，对第二先验网络的模型参数进行更新，以及根据第三预测概率分布与第三真实概率分布之间的散度，对第三先验网络的模型参数进行更新，具体可以是采用梯度下降的方式进行模型参数的更新，还可以参数更新方式，此处不作具体限制，能够稳定地向梯度更新方向进行更新收敛，以更好地更新模型参数，进而可以提高模型的学习能力，提高了模型训练精度，从而能够在一定程度上提高模型获取文本摘要的准确性。

其中，第一预测概率分布与第一真实概率分布之间的散度，第二预测概率分布与第二真实概率分布之间的散度，以及第三预测概率分布与第三真实概率分布之间的散度的计算，具体可以是采用相对熵(Kullback-Leibler，KL)来计算KL散度，还可以采用其他散度表示，如JS散度，此处不作具体限制。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的文本处理的方法另一个可选实施例中，如图5所示，根据第一原始样本通过先验网络输出第一预测概率分布，包括：

在步骤S501中，获取第一原始样本所对应的至少两个词嵌入向量,第一原始样本属于第一语种所对应的文本；

在步骤S502中，根据第一原始样本所对应的至少两个词嵌入向量，生成第一原始样本的嵌入向量；

在步骤S503中，将第一原始样本的嵌入向量输入至第一先验网络，通过第一先验网络输出第一预测概率分布。

具体地，在获取到第一原始样本之后，可以先将第一原始样本转换为至少两个词嵌入向量,其中，先将第一原始样本转换为至少两个词嵌入向量的方式，与步骤S101中获取待处理文本所对应的N个词嵌入向量的方式相似，此处不再赘述。

进一步地，可以将第一原始样本所对应的至少两个词嵌入向量，以获取第一原始样本的嵌入向量，其中，根据第一原始样本所对应的至少两个词嵌入向量，生成第一原始样本的嵌入向量的方式，与步骤S102中根据N个词嵌入向量生成目标嵌入向量的方式相似，此处不再赘述。

进一步地，将第一原始样本X

同理，可以将第一目标样本Y

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本处理的方法另一个可选实施例中，如图6所示，根据第二原始样本通过先验网络输出第二预测概率分布，包括：

在步骤S601中，获取第二原始样本所对应的至少两个词嵌入向量,第二原始样本属于第一语种所对应的摘要文本；

在步骤S602中，根据第二原始样本所对应的至少两个词嵌入向量，生成第二原始样本的嵌入向量；

在步骤S603中，将第二原始样本的嵌入向量输入至第二先验网络，通过第二先验网络输出第二预测概率分布。

具体地，在获取到第二原始样本之后，可以先将第二原始样本转换为至少两个词嵌入向量,其中，先将第二原始样本转换为至少两个词嵌入向量的方式，与步骤S101中获取待处理文本所对应的N个词嵌入向量的方式相似，此处不再赘述。

进一步地，可以将第二原始样本所对应的至少两个词嵌入向量，以获取第二原始样本的嵌入向量，其中，根据第二原始样本所对应的至少两个词嵌入向量，生成第二原始样本的嵌入向量的方式，与步骤S102中根据N个词嵌入向量生成目标嵌入向量的方式相似，此处不再赘述。

进一步地，将第二原始样本的嵌入向量输入至第二先验网络，通过第二先验网络输出第二预测概率分布具体可以是先通过第二先验网络获取第二原始样本的嵌入向量所对应的隐变量Z

同理，可以将第二目标样本Y

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本处理的方法另一个可选实施例中，如图7所示，根据第三原始样本通过先验网络输出第三预测概率分布，包括：

在步骤S701中，获取第三原始样本所对应的至少两个词嵌入向量,第三原始样本属于第一语种所对应的文本；

在步骤S702中，根据第三原始样本所对应的至少两个词嵌入向量，生成第三原始样本的嵌入向量；

在步骤S703中，将第三原始样本的嵌入向量输入至第三先验网络，通过第三先验网络输出第三预测概率分布。

具体地，在获取到第三原始样本之后，可以先将第三原始样本转换为至少两个词嵌入向量,其中，先将第三原始样本转换为至少两个词嵌入向量的方式，与步骤S101中获取待处理文本所对应的N个词嵌入向量的方式相似，此处不再赘述。

进一步地，可以将第三原始样本所对应的至少两个词嵌入向量，以获取第三原始样本的嵌入向量，其中，根据第三原始样本所对应的至少两个词嵌入向量，生成第三原始样本的嵌入向量的方式，与步骤S102中根据N个词嵌入向量生成目标嵌入向量的方式相似，此处不再赘述。

进一步地，将第三原始样本的嵌入向量输入至第三先验网络，通过第三先验网络输出第三预测概率分布具体可以是先通过第三先验网络获取第三原始样本的嵌入向量所对应的隐变量Z

同理，可以将第三目标样本Y

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的文本处理的方法另一个可选实施例中，如图8所示，根据第一预测概率分布与第一真实概率分布之间的散度，对第一先验网络的模型参数进行更新，包括：

在步骤S801中，获取第一预测概率分布与第一真实概率分布的散度；

在步骤S802中，将第一预测概率分布与第一真实概率分布的散度作为第一损失值；

在步骤S803中，根据第一损失值对第一先验网络的模型参数进行更新；

根据第二预测概率分布与第二真实概率分布之间的散度，对第二先验网络的模型参数进行更新，包括：

在步骤S804中，获取第二预测概率分布与第二真实概率分布的散度；

在步骤S805中，将第二预测概率分布与第二真实概率分布的散度作为第二损失值；

在步骤S806中，根据第二损失值对第二先验网络的模型参数进行更新；

根据第三预测概率分布与第三真实概率分布之间的散度，对第三先验网络的模型参数进行更新，包括：

在步骤S807中，获取第三预测概率分布与第三真实概率分布的散度；

在步骤S808中，将第三预测概率分布与第三真实概率分布的散度作为第三损失值；

在步骤S809中，根据第三损失值对第三先验网络的模型参数进行更新。

具体地，如图9所示，在获取到第一预测概率分布与第一真实概率分布后，可以根据如下(17)式第一预测概率分布与第一真实概率分布的散度，并可以将第一预测概率分布与第一真实概率分布的散度作为第一损失值，然后，根据第一损失值对第一先验网络的模型参数进行更新，即以将第一预测概率分布与第一真实概率分布之间的KL散度作为第一损失值可以产生更稳定的梯度更新方向，以更好地更新模型参数，进而提高了第一先验网络的训练精度，使得效果更好：

其中，q(Z

进一步地，在获取到第二预测概率分布与第二真实概率分布后，可以根据如下(18)式第二预测概率分布与第二真实概率分布的散度，并可以将第二预测概率分布与第二真实概率分布的散度作为第二损失值，然后，根据第二损失值对第二先验网络的模型参数进行更新，即以将第二预测概率分布与第二真实概率分布之间的KL散度作为第二损失值可以产生更稳定的梯度更新方向，以更好地更新模型参数，进而提高了第二先验网络的训练精度，使得效果更好：

其中，q(Z

进一步地，在获取到第三预测概率分布与第三真实概率分布后，可以根据如下(19)式第三预测概率分布与第三真实概率分布的散度，并可以将第三预测概率分布与第三真实概率分布的散度作为第三损失值，然后，根据第三损失值对第三先验网络的模型参数进行更新，即以将第三预测概率分布与第三真实概率分布之间的KL散度作为第三损失值可以产生更稳定的梯度更新方向，以更好地更新模型参数，进而提高了第三先验网络的训练精度，使得效果更好：

其中，q(Z

下面对本申请中的文本处理的装置进行详细描述，请参阅图11，图11为本申请实施例中文本处理的装置的一个实施例示意图，文本处理的装置20包括：

获取单元201，用于获取待处理文本所对应的N个词嵌入向量，待处理文本属于第一语种所对应的文本，N为大于1的整数；

生成单元202，用于根据N个词嵌入向量生成目标嵌入向量；

处理单元203，用于将目标嵌入向量输入至第一先验网络，通过第一先验网络输出第一隐向量，第一隐向量表示目标嵌入向量属于第二语种的向量表示；

处理单元203，还用于将目标嵌入向量输入至第二先验网络，通过第二先验网络输出第二隐向量，第二隐向量为文本摘要的向量表示，文本摘要为待处理文本的摘要表达；

处理单元203，还用于将第一隐向量、第二隐向量以及目标嵌入向量输入至第三先验网络，通过第三先验网络输出第三隐向量，第三隐向量文本摘要属于第二语种的向量表示；

生成单元202，还用于根据第三隐向量以及目标嵌入向量，生成待处理文本的摘要文本，其中，摘要文本属于第二语种所对应的文本。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的文本处理的装置的另一实施例中，生成单元202具体可以用于：

将N个词嵌入向量转换为N*d维向量矩阵，d为大于1的整数；

对N*d维向量矩阵进行降维处理，得到目标嵌入向量，目标嵌入向量为1*d维的向量。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的文本处理的装置的另一实施例中，

获取单元201，还用于获取样本训练集，样本训练集包括第一原始样本、第一目标样本、第二原始样本、第二目标样本、第三原始样本以及第三目标样本，第一目标样本为第一原始样本的翻译文本，第二目标样本为第二原始样本的摘要文本，第三目标样本为第三原始样本经过翻译后的摘要文本；

处理单元203，还用于根据第一原始样本通过第一先验网络输出第一预测概率分布，并，根据第二原始样本通过第二先验网络输出第二预测概率分布，并，根据第三原始样本通过第三先验网络输出第三预测概率分布；

处理单元203，还用于根据第一目标样本通过第一识别网络输出第一真实概率分布，并，根据第二目标样本通过第二识别网络输出第二真实概率分布，并，根据第三目标样本、第一真实概率分布以及第二真实概率分布通过第三识别网络输出第三真实概率分布；

处理单元203，还用于根据第一预测概率分布与第一真实概率分布之间的散度，对第一先验网络的模型参数进行更新；

处理单元203，还用于根据第二预测概率分布与第二真实概率分布之间的散度，对第二先验网络的模型参数进行更新；

处理单元203，还用于根据第三预测概率分布与第三真实概率分布之间的散度，对第三先验网络的模型参数进行更新。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的文本处理的装置的另一实施例中，处理单元203具体可以用于：

获取第一原始样本所对应的至少两个词嵌入向量,第一原始样本属于第一语种所对应的文本；

根据第一原始样本所对应的至少两个词嵌入向量，生成第一原始样本的嵌入向量；

将第一原始样本的嵌入向量输入至第一先验网络，通过第一先验网络输出第一预测概率分布。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的文本处理的装置的另一实施例中，处理单元203具体可以用于：

获取第二原始样本所对应的至少两个词嵌入向量,第二原始样本属于第一语种所对应的摘要文本；

根据第二原始样本所对应的至少两个词嵌入向量，生成第二原始样本的嵌入向量；

将第二原始样本的嵌入向量输入至第二先验网络，通过第二先验网络输出第二预测概率分布。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的文本处理的装置的另一实施例中，处理单元203具体可以用于：

获取第三原始样本所对应的至少两个词嵌入向量,第三原始样本属于第一语种所对应的文本；

根据第三原始样本所对应的至少两个词嵌入向量，生成第三原始样本的嵌入向量；

将第三原始样本的嵌入向量输入至第三先验网络，通过第三先验网络输出第三预测概率分布。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的文本处理的装置的另一实施例中，处理单元203具体可以用于：

获取第一预测概率分布与第一真实概率分布的散度；

将第一预测概率分布与第一真实概率分布的散度作为第一损失值；

根据第一损失值对第一先验网络的模型参数进行更新；

处理单元203具体可以用于：

获取第二预测概率分布与第二真实概率分布的散度；

将第二预测概率分布与第二真实概率分布的散度作为第二损失值；

根据第二损失值对第二先验网络的模型参数进行更新；

处理单元203具体可以用于：

获取第三预测概率分布与第三真实概率分布的散度；

将第三预测概率分布与第三真实概率分布的散度作为第三损失值；

根据第三损失值对第三先验网络的模型参数进行更新。

本申请另一方面提供了另一种计算机设备示意图，如图12所示，图12是本申请实施例提供的一种计算机设备结构示意图，该计算机设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)310(例如，一个或一个以上处理器)和存储器320，一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地，中央处理器310可以设置为与存储介质330通信，在计算机设备300上执行存储介质330中的一系列指令操作。

计算机设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统333，例如Windows Server

上述计算机设备300还用于执行如图2至图8对应的实施例中的步骤。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如图2至图8所示实施例描述的方法中的步骤。

本申请的另一方面提供了一种包含指令的计算机程序产品当其在计算机或处理器上运行时，使得所述计算机或处理器执行如图2至图8所示实施例描述的方法中的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：梁云龙;孟凡东;徐金安;陈钰枫;
专利申请人：腾讯科技(深圳)有限公司;

上一篇：飘窗构件
下一篇：基于短波业务运维数据的频率选择方法及装置