为自然语言文本序列生成目标文本序列的方法和系统

文献发布时间：2024-04-18 20:01:23

技术领域

本申请涉及自然语言处理技术领域，更具体地，涉及一种为自然语言文本序列生成目标文本序列的方法和系统。

背景技术

在自然语言处理领域，当给定一段自然语言文本序列，要求基于机器翻译、信息抽取、对话系统、文本摘要等不同的任务来生成目标文本序列时，现有的方法大多使用神经网络模型来建模自然语言。

常用的用于建模自然语言的神经网络模型是基于长短期记忆网络（Long Short-Term Memory，LSTM）的序列模型。LSTM是一种循环神经网络，它以门控机制（Gate）为基础，并通过在时间步骤之间传递信息来处理序列数据。尽管基于LSTM的语言模型通过记忆机制有效地缓解了梯度问题，但其不足之处在于，由于其记忆依赖于由前向后的信息线性传导机制，即当前时刻的输出仅直接依赖于前一时刻的输出，因此存在时序距离较远的节点之间的信息传递效率较低的问题，从而导致LSTM的语言模型对于长距离依赖的建模能力仍然有限。另外一种常见的自然语言文本建模方法是基于Transformer的序列模型。Transformer使用自注意力机制来直接在任意两个词之间进行信息交互，有助于建模长距离依赖，但Transformer的不足之处在于，其所依赖的自注意力机制将所有位置的信息同等看待，而弱化了位置之间的天然时序距离差异，这导致模型在预测时无法充分考虑到局部特征对当前任务的重要性，而可能导致远距离位置的信息具有不恰当的高权重。

由此可见，现有的自然语言模型要么在自然语言文本序列的长距离依赖的建模能力方面存在缺陷，要么在局部特征建模能力方面存在缺陷，目前尚未发现能够兼顾两者，从而能够对目标文本序列进行更准确地预测的方法。

发明内容

提出本申请以解决现有技术中存在的上述问题。本申请意图提供一种为自然语言文本序列生成目标文本序列的方法和系统，其能够基于用户输入的自然语言文本序列，输出与用户需求更为匹配的目标文本序列。

根据本申请的第一方案，提供一种为自然语言文本序列生成目标文本序列的方法，包括，由处理器：接收待生成目标文本序列的自然语言文本序列对应的输入向量；将所接收的输入向量中的当前元素作为输入词节点，将所述目标文本序列中的各个已生成词作为已生成词节点序列，基于所述输入词节点和各个已生成词节点构建与所述目标文本序列中的当前输出词对应的词节点图，其中，所述词节点图中还包括全局节点和局部节点，所述全局节点与所述输入词节点以及各个已生成词节点相连，所述局部节点与所述输入词节点以及所述已生成词节点序列中最新的w个已生成词节点相连；基于所述词节点图，利用训练好的第一学习网络，生成所述目标文本序列中的当前输出词。

根据本申请的第二方案，提供一种为自然语言文本序列生成目标文本序列的系统，包括：接口，其被配置为接收待生成目标文本序列的自然语言文本序列对应的输入向量；处理器，其配置为执行根据本申请各个实施例所述的为自然语言文本序列生成目标文本序列的方法。

根据本申请的第三方案，提供一种非暂时性计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现根据本申请各个实施例所述的为自然语言文本序列生成目标文本序列的方法的步骤。

利用根据本申请各个实施例的为自然语言文本序列生成目标文本序列的方法和系统，其在基于自然语言文本序列生成目标文本序列时，首先利用自然语言文本序列对应的输入向量中的当前元素和目标文本序列中的已生成词构建包含全局节点和局部节点的词节点图，通过全局节点的构建，使得任意两个节点之间的信息传递路径的长度均为2，从而能够更好地建模文本序列中的长距离依赖，通过局部节点的构建，使得与当前输出词距离较近，从而通常具有更重要的影响的若干节点的局部特征能够得到额外地增强，由此，在第一学习网络基于包含全局节点和局部节点两者的词节点图生成目标文本序列中的当前输出词时，可以具有更高的准确度，所生成的目标文本序列更加匹配用户的需求。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

应当理解，前面的大体描述以及后续的详细描述只是例示性的和说明性的，并非对所要求保护的本发明的限制。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出根据本申请实施例的为自然语言文本序列生成目标文本序列的方法的流程示意图。

图2示出根据本申请实施例的为自然语言文本序列生成目标文本序列的方法的原理示意图。

图3示出根据本申请实施例的第一学习网络的部分组成和原理示意图。

图4示出根据本申请实施例的为自然语言文本序列生成目标文本序列的系统的部分组成示意图。

具体实施方式

为使本领域技术人员更好地理解本申请的技术方案，下面结合附图和具体实施方式对本申请作详细说明。下面结合附图和具体实施例对本申请的实施例作进一步详细描述，但不作为对本申请的限定。

本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。本申请中结合附图所描述的方法中各个步骤的执行顺序并不作为限定。只要不影响各个步骤之间的逻辑关系，可以将数个步骤整合为单个步骤，可以将单个步骤分解为多个步骤，也可以按照具体需求调换各个步骤的执行次序。

还应理解，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1示出根据本申请实施例的为自然语言文本序列生成目标文本序列的方法的流程示意图。图2示出根据本申请实施例的为自然语言文本序列生成目标文本序列的方法的原理示意图。

如图1所示，在要为自然语言文本序列生成目标文本序列的情况下，可以首先在步骤101中，由处理器接收待生成目标文本序列的自然语言文本序列对应的输入向量。如图2所示，输入向量

接下来，在步骤102中，由处理器将所接收的输入向量中的当前元素作为输入词节点，将所述目标文本序列中的各个已生成词作为已生成词节点序列，基于所述输入词节点和各个已生成词节点构建与所述目标文本序列中的当前输出词对应的词节点图，其中，所述词节点图中还包括如图2所示的全局节点

然后，在步骤103中，基于所述词节点图，利用训练好的第一学习网络，生成所述目标文本序列中的当前输出词

利用根据本申请各个实施例的为自然语言文本序列生成目标文本序列的方法和系统，其在基于自然语言文本序列对应的输入向量生成目标文本序列时，首先利用输入向量中的当前元素和目标文本序列中的已生成词构建包含全局节点和局部节点的词节点图，通过全局节点和局部节点的构建，使得节点间长距离依赖关系的建模和更邻近节点的局部特征建模两者得以兼顾，从而使得所构建的目标文本序列生成模型更准确，在第一学习网络基于词节点图生成目标文本序列时具有更高的准确度，更加匹配用户的需求。

在一些实施例中，目标文本序列包括但不限于所述自然语言文本序列的源语言摘要文本、所述自然语言文本序列的目标语言摘要文本序列、所述自然语言文本序列的目标语言翻译文本序列、与所述自然语言文本序列匹配的对话文本序列中的一种或其组合，本申请对此不做限制。仅作为示例，例如需要生成的目标文本序列的是所述自然语言文本序列的源语言摘要文本序列时，可以选择与自然语言文本序列的源语言相同的语言的自动摘要训练数据集对第一学习网络进行训练，例如，在源语言为英语的情况下，可以在诸如SAMSum语料库（用于抽象摘要的人工注释的对话数据集）、CNN/DailyMail数据集（偏抽取式新闻语料数据集）、NYT Annotated Corpus（偏抽取式语料数据集）、Newsroom（抽取式+生成式语料数据集）等单语言摘要数据集上对第一学习网络进行训练。在另一些实施例中，还可以包括AMI（一种长会议摘要数据集）、XSum（极端生成式新闻摘要数据集）、DialogSum（真实场景下的对话摘要数据集）等，本申请不做具体限制。又比如，当需要生成的目标文本序列的是所述自然语言文本序列的跨语言摘要文本序列时，可以选择Zh2EnSum（社交媒体领域数据集）、DialogSumX（日常情况的对话数据集）或QMSumX（会议的对话数据集）等跨语言摘要数据集对第一学习网络进行训练。

图3示出根据本申请实施例的第一学习网络的部分组成和原理示意图。如图3所示，所述第一学习网络30由图神经网络31和输出层32依序串联而构成，所述图神经网络31进一步包括局部特征计算部311、全局特征计算部312和节点状态更新部313。图3中，

在一些实施例中，所述节点状态更新部313可以配置为：利用所述局部特征计算部311输出的局部语义特征、所述全局特征计算部312输出的全局语义特征，以及所述输入词节点

所述局部特征计算部311可以配置为：利用所述节点状态更新部313输出的与所述局部节点

所述全局特征计算部312可以配置为：利用所述节点状态更新部313输出的与所述全局节点

所述输出层32例如可以配置为基于所述图神经网络31输出的第T轮更新后的节点输出隐状态

在一些实施例中，所述局部语义特征包括局部上下文输出特征

所述局部特征计算部311可以进一步配置为：利用池化函数，基于与所述节点状态更新部313输出的与所述局部节点相连的w个已生成词节点

,公式（1-1）

,公式（1-2）

其中，

所述全局特征计算部312可以进一步配置为：利用类似于转换器（Transformer）神经网络模型中的注意力机制，基于与所述节点状态更新部313输出的与所述全局节点

公式（2-1）

公式（2-2）

公式（2-3）

公式（2-4）

公式（2-5）

其中，

公式（2-1）中给出的

由此可见，通过上述公式（2-1）-公式（2-5）所引入的注意力机制，使得能够充分利用所有历史预测结果的隐状态中的特征，从而生成关联度更高、更准确的全局上下文输出特征和全局上下文记忆特征，因此，根据本申请实施例中的图神经网络同时具有类似于Transformer模型对序列的较强的处理能力，并且，相对于Transformer模型仅关注全局特征而言，本申请实施例通过局部特征计算部311，更合理地强化了距离当前输出节点较近的各个节点的额外影响。通过这种方式，第一学习网络30在进行目标文本序列预测时能够更加专注于临近词。这种特性在文本序列预测任务中具有明显的优势，因为文本预测任务本身更多地依赖于局部特征，而长距离特征的影响相对较小。

更具体地，所述节点状态更新部313例如可以基于类似于序列状态长短期记忆网络的结构而构建，与现有的序列状态长短期记忆网络仅具有输入门、遗忘门和输出门不同，节点状态更新部313设置有输入门

在此基础上，进一步基于所述第一分量

仅作为示例，可以按照如下公式（3-1）和公式（3-6）来计算当前轮次的节点输出隐状态

=/>

, 公式（3-3）

, 公式（3-4）

,公式（3-5）

公式（3-6）

其中，

在一些实施例中，上述输入门向量

首先，基于前一轮次的节点输出隐状态

然后基于所述复合向量

此外，基于所述复合向量

仅作为示例，上述输入门向量

公式（4-1）

公式（4-2）

公式（4-3）

公式（4-4）

公式（4-5）

公式（4-6）

公式（4-7）

公式（4-8）

其中，

通过引入上述输入门向量

此外，相比于Transformer所使用的残差连接方式，本申请所使用的门控循环机制具有两个优势：1）门控循环机制能够通过输入门和遗忘门更好控制层与层之间的信息流使得本申请实施例的图神经网络能够充分学习到多层神经网络之间的潜在依赖关系，同时相较现有的Transformer模型具有更强的深层依赖建模能力，因此能够支持更多层的神经网络模型，也就是说，能够对更大规模的复杂问题进行准确建模。2）门控循环机制不需要为每一层分配独立的参数，而是实现参数共享，因此在参数效率上具有明显的优势，同时模型占用更小的存储空间。

在一些实施例中，所述输出层32可以进一步配置为：基于所述图神经网络31输出的第T轮更新后的节点输出隐状态

公式（5）

其中，

然后，基于所述概率分布

在一些实施例中，可以利用具有目标文本序列真值标注的训练数据集合

公式（6）

其中，

在另一些实施例中，在训练生成所述目标文本序列中的各个输出词时，可以以第一概率p1选择使用当前输出词的真值标注作为训练生成下一个输出词的输入，相应地，以1-p的概率选择使用训练中的第一学习网络输出的当前输出词作为训练生成下一个输出词的输入。也就是说，在第一学习网络或所述图神经网络的训练过程中，有p1的概率选择使用teachering-forcing，而有1-p1的概率选择使用模型自回归（Autoregressive）。特别地，在训练前期，p1的值可以相对较大，而随着训练过程的进行，p1可以逐步递减。如此，可以使得训练前期，第一学习网络或图神经网络预测能力较弱时，利用teachering-forcing避免过于发散，加速训练收敛；而在训练后期，较小的p1值能够使其尽可能利用自回归来修复自身生成的错误，实际上可以避免矫枉过正，同时使得目标文本序列生成具有更多的可能性，从而不错过可能的更优解。

根据本申请的实施例还提供一种为自然语言文本序列生成目标文本序列的系统。图4示出根据本申请实施例的为自然语言文本序列生成目标文本序列的系统的部分组成示意图。

如图4所示，根据本申请实施例的系统400可以是专用计算机或通用计算机，其至少包括接口401和处理器402。其中，接口401例如可以被配置为接收用户输入的待生成目标文本序列的自然语言文本序列。处理器402可以被配置为执行根据本申请各个实施例所述的为自然语言文本序列生成目标文本序列的方法的步骤，并最终生成目标文本序列中的当前输出词。

在另一些实施例中，接口401还可以被进一步配置为接收与自然语言文本序列一并输入的关于生成目标文本序列的相关要求或查询等，本申请不做具体限制。

在一些实施例中，接口401可以包括网络适配器、电缆连接器、串行连接器，USB连接器、并行连接器、高速数据传输适配器（诸如光纤、USB 3.0、雷电接口等）、无线网络适配器（诸如WiFi适配器）、电信（3G、4G/LTE等）适配器等，本申请对此不做限制。系统400可以通过接口401将所获取的用户输入的待生成目标文本序列的自然语言文本序列等传输到处理器402等其他部分。在一些实施例中，接口401还可以从例如第一学习网络训练装置（未示出）接收诸如训练好的第一学习网络等，本申请在此不一一列举。

在一些实施例中，处理器402可以是包括一个以上通用处理设备的处理设备，诸如微处理器、中央处理单元（CPU）、图形处理单元（GPU）等。更具体地，该处理器可以是复杂指令集计算（CISC）微处理器、精简指令集计算（RISC）微处理器、超长指令字（VLIW）微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备，诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、数字信号处理器（DSP）、片上系统（SoC）等。

在另一些实施例中，系统400还可能包括存储器（未示出），用于存储训练好的第一学习网络等数据。在一些实施例中，存储器还可以储存计算机可执行指令，诸如一个以上处理程序，以实现根据本申请各个实施例所述的为自然语言文本序列生成目标文本序列的方法的步骤。

根据本申请的实施例还提供一种非暂时性计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现根据本申请各个实施例所述的为自然语言文本序列生成目标文本序列的方法。

在一些实施例中，上述非暂时性计算机可读的介质可以是诸如只读存储器（ROM）、随机存取存储器（RAM）、相变随机存取存储器（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、电可擦除可编程只读存储器（EEPROM）、其他类型的随机存取存储器（RAM）、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器（CD-ROM）、数字通用光盘（DVD）或其他光学存储器、盒式磁带或其他磁存储设备，或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。

以上描述旨在是说明性的而不是限制性的。例如，上述示例（或其一个或多个方案）可以彼此组合使用。本领域普通技术人员在查看以上描述时可以使用其他实施例。而且，在上面的详细描述中，各种特征可以被组合在一起以简化本申请。这不应被解释成意图让不要求保护的公开特征对于任何权利要求而言都是必不可少的。而是，发明主题可以在于比一个公开的实施例的所有特征少的特征组合。因此，权利要求由此作为示例或实施例并入到具体实施方式中，其中每个权利要求独立作为单独的实施例，并且可以构想的是，这些实施例可以以各种组合或置换来相互组合。本发明的范围应该参考权利要求以及赋予这些权利要求的等同物的全部范围来确定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：西湖大学;

上一篇：一种财务会计分录生成方法、装置、设备及介质
下一篇：一种电力通信数据的处理方法、系统及存储介质