掌桥专利:专业的专利平台
掌桥专利
首页

基于联合训练的文本摘要抽取方法及相应装置

文献发布时间:2023-06-19 18:29:06


基于联合训练的文本摘要抽取方法及相应装置

技术领域

本申请涉及自然语言处理的技术领域,具体而言,涉及一种基于联合训练的文本摘要抽取方法及相应装置。

背景技术

摘要抽取,是指将冗长的文本压缩为较短的文本,并保证压缩后的文本不丢失压缩前的文本的主要信息,以提高用户的阅读效率和体验。

目前,现有的摘要语句抽取技术大都是将摘要抽取任务当作序列标注任务来进行的,即从长文本中选择合适的语句加入短文本的集合,并将短文本的集合作为摘要抽取的结果。然而在具体的实践过程中发现,使用现有的摘要语句抽取技术抽取出的摘要文本中存在很多语义问题,这些语义问题例如:摘要文本中存在一些不重要的摘要语句,或者,摘要文本中的语句虽然都是重要语句,但是存在两个或两个以上语义重复的语句等等,所以,使用现有的摘要语句抽取技术抽取出的摘要文本的语义正确性不够。

发明内容

本申请实施例的目的在于提供一种基于联合训练的文本摘要抽取方法及相应装置,用于改善抽取出的摘要文本的语义正确性不够的问题。

本申请实施例提供了一种基于联合训练的文本摘要抽取方法,包括:获取待处理文本,并对待处理文本进行分句,获得多个待处理语句;使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示,获得多个待处理语句对应的词向量和句向量,摘要抽取模型是通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的;使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取,获得核心特征向量和相似特征向量,核心特征向量表示待处理语句的重要程度,相似特征向量表示多个待处理语句之间的相似程度;使用摘要抽取模型中的语句抽取层根据核心特征向量和相似特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。在上述的实现过程中,通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的摘要抽取模型来对多个待处理语句进行抽取,既能够有效地提取到表示待处理语句的重要程度的核心特征向量,又能够有效地提取到表示多个待处理语句之间的相似程度的相似特征向量,并根据核心特征向量和相似特征向量对多个待处理语句进行抽取,极大地降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

可选地,在本申请实施例中,对多个待处理语句进行向量化表示,包括:对多个待处理语句中的每个待处理语句进行分词和向量化,获得每个待处理语句对应的多个词向量;将每个待处理语句对应的多个词向量中的预设词向量确定为每个待处理语句的句向量。在上述的实现过程中,通过将每个待处理语句对应的多个词向量中的预设词向量确定为每个待处理语句的句向量,能够通过预设词向量来区分出每个待处理语句,有效地辨别每个待处理语句的重要程度和语句之间的相似程度,极大地降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

可选地,在本申请实施例中,使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取,获得核心特征向量和相似特征向量,包括:对多个待处理语句中的每个待处理语句对应的词向量和句向量进行特征提取,获得每个待处理语句的核心特征向量;计算多个待处理语句中的每个待处理语句与多个待处理语句中的所有待处理语句之间的相似度,获得每个待处理语句的相似特征向量。在上述的实现过程中,通过特征提取获得核心特征向量和相似特征向量,并根据核心特征向量和相似特征向量对多个待处理语句进行抽取,极大地降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

可选地,在本申请实施例中,语句抽取层包括:Transformer层和全连接层;根据核心特征向量和相似特征向量对多个待处理语句进行抽取,包括:使用Transformer层对核心特征向量和相似特征向量进行注意力计算,获得注意力特征向量,并使用全连接层根据注意力特征向量对多个待处理语句进行抽取;或者,使用Transformer层对核心特征向量进行注意力计算,获得注意力特征向量,并使用全连接层根据注意力特征向量和相似特征向量对多个待处理语句进行抽取。在上述的实现过程中,通过Transformer层进行注意力计算,以及全连接层进行摘要抽取,从而使得摘要抽取模型更加注意降低摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

可选地,在本申请实施例中,在使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示之前,还包括:获取多个样本文本、多个核心摘要标签和多个相似度标签,核心摘要标签表征样本文本对应的每个样本语句在样本文本对应的摘要文本中的重要程度,相似度标签表征样本文本中的每个样本语句与样本文本中的所有样本语句的相似程度;使用多个样本文本、多个核心摘要标签和多个相似度标签对摘要抽取网络进行多任务联合训练,获得摘要抽取模型。在上述的实现过程中,通过使用多个样本文本、多个核心摘要标签和多个相似度标签对摘要抽取网络进行多任务联合训练,此处的多任务包括:重要程度的句子识别任务和相似程度的句子匹配任务,从而极大地降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

可选地,在本申请实施例中,使用多个样本文本、多个核心摘要标签和多个相似度标签对摘要抽取网络进行多任务联合训练,包括:使用摘要抽取网络中的向量抽取层对样本文本对应的多个样本语句进行向量化表示,获得多个样本语句对应的词向量和句向量;使用摘要抽取网络中的特征提取层对多个样本语句对应的词向量和句向量进行特征提取,获得核心预测向量和相似预测向量;计算出核心预测向量与核心摘要标签之间的核心交叉熵损失值,并计算出相似预测向量与相似度标签之间的相似度分布损失值;根据核心交叉熵损失值和相似度分布损失值计算出总损失值;根据总损失值对摘要抽取网络进行重要程度的句子识别任务和相似程度的句子匹配任务的联合训练。在上述的实现过程中,通过根据核心交叉熵损失值和相似度分布损失值计算出总损失值;根据总损失值对摘要抽取网络进行重要程度的句子识别任务和相似程度的句子匹配任务的联合训练,极大地降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

可选地,在本申请实施例中,多个样本语句包括:第一样本语句和第二样本语句;计算出相似预测向量与相似度标签之间的相似度分布损失值,包括:针对多个相似预测向量中的每个相似预测向量,计算出每个相似预测向量与多个相似预测向量中的所有相似预测向量之间的余弦相似度,获得多个余弦相似度组成的相似度矩阵;若根据相似度标签确定第一样本语句和第二样本语句是相似的,则根据公式

本申请实施例还提供了一种基于联合训练的文本摘要抽取装置,包括:处理文本获取模块,用于获取待处理文本,并对待处理文本进行分句,获得多个待处理语句;语句向量表示模块,用于使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示,获得多个待处理语句对应的词向量和句向量,摘要抽取模型是通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的;特征向量获得模块,用于使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取,获得核心特征向量和相似特征向量,核心特征向量表示待处理语句的重要程度,相似特征向量表示多个待处理语句之间的相似程度;摘要文本获得模块,用于使用摘要抽取模型中的语句抽取层根据核心特征向量和相似特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。

可选地,在本申请实施例中,语句向量表示模块,包括:词语向量获得模块,用于对多个待处理语句中的每个待处理语句进行分词和向量化,获得每个待处理语句对应的多个词向量;语句向量确定模块,用于将每个待处理语句对应的多个词向量中的预设词向量确定为每个待处理语句的句向量。

可选地,在本申请实施例中,特征向量获得模块,包括:核心特征获得模块,用于对多个待处理语句中的每个待处理语句对应的词向量和句向量进行特征提取,获得每个待处理语句的核心特征向量;相似特征获得模块,用于计算多个待处理语句中的每个待处理语句与多个待处理语句中的所有待处理语句之间的相似度,获得每个待处理语句的相似特征向量。

可选地,在本申请实施例中,语句抽取层包括:Transformer层和全连接层;摘要文本获得模块,包括:第一摘要抽取模块,用于使用Transformer层对核心特征向量和相似特征向量进行注意力计算,获得注意力特征向量,并使用全连接层根据注意力特征向量对多个待处理语句进行抽取;或者,第二摘要抽取模块,用于使用Transformer层对核心特征向量进行注意力计算,获得注意力特征向量,并使用全连接层根据注意力特征向量和相似特征向量对多个待处理语句进行抽取。

可选地,在本申请实施例中,基于联合训练的文本摘要抽取装置,还包括:文本标签获取模块,用于获取多个样本文本、多个核心摘要标签和多个相似度标签,核心摘要标签表征样本文本对应的每个样本语句在样本文本对应的摘要文本中的重要程度,相似度标签表征样本文本中的每个样本语句与样本文本中的所有样本语句的相似程度;模型联合训练模块,用于使用多个样本文本、多个核心摘要标签和多个相似度标签对摘要抽取网络进行多任务联合训练,获得摘要抽取模型。

可选地,在本申请实施例中,模型联合训练模块,包括:词句向量获得模块,用于使用摘要抽取网络中的向量抽取层对样本文本对应的多个样本语句进行向量化表示,获得多个样本语句对应的词向量和句向量;预测向量获得模块,用于使用摘要抽取网络中的特征提取层对多个样本语句对应的词向量和句向量进行特征提取,获得核心预测向量和相似预测向量;模型损失计算模块,用于计算出核心预测向量与核心摘要标签之间的核心交叉熵损失值,并计算出相似预测向量与相似度标签之间的相似度分布损失值;总损失值计算模块,用于根据核心交叉熵损失值和相似度分布损失值计算出总损失值;任务联合训练模块,用于根据总损失值对摘要抽取网络进行重要程度的句子识别任务和相似程度的句子匹配任务的联合训练。

本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的摘要抽取模型训练阶段的流程示意图;

图2示出的本申请实施例提供的摘要抽取网络的训练过程及网络结构的示意图;

图3示出的本申请实施例提供的摘要抽取模型推理阶段的基于联合训练的文本摘要抽取方法的流程示意图;

图4示出的本申请实施例提供的摘要抽取模型的第一种推理过程的网络结构示意图;

图5示出的本申请实施例提供的摘要抽取模型的第二种推理过程的网络结构示意图;

图6示出的本申请实施例提供的基于联合训练的文本摘要抽取装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的基于联合训练的文本摘要抽取方法之前,先介绍本申请实施例中所涉及的一些概念:

联合训练(Joint Training),又被称为联合学习(Joint Learning),是指利用多任务学习框架对特征提取网络、检测网络和分类注意力网络等等神经网络模型进行联合训练,即分别使用多任务学习框架对特征提取网络、检测网络和分类注意力网络等等神经网络模型进行先后训练或者同时训练;其中,可以使用的多任务学习框架包括但不限于:多门混合专家(Multi-gate Mixture-of-Experts,MMoE)框架等等。

双向编码表示编码器(Bidirectional Encoder Representations fromTransformers,BERT),又被翻译为基于Transformer的双向编码器表征,或者翻译为来自Transformer的双向编码器表示,又被称为双向自注意力层编解码,通常简称为BERT,BERT是一种语言表现层(Representation)模型,该模型的设计目的在于,利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定自然语言处理任务中作微调,最终应用于该自然语言处理任务。在使用双向编码表示编码层进行运算时,即可以使用BERT模型进行编码(encode)、解码(decode)、自注意力(self attention)机制和变形(transformer)等运算。

需要说明的是,本申请实施例提供的基于联合训练的文本摘要抽取方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)或者移动上网设备(mobile Internet device,MID)等;服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。

下面介绍该基于联合训练的文本摘要抽取方法适用的应用场景,这里的应用场景包括但不限于:使用该基于联合训练的文本摘要抽取方法对待处理文本进行摘要抽取,既能够有效地提取到表示待处理语句的重要程度的核心特征向量,又能够有效地提取到表示多个待处理语句之间的相似程度的相似特征向量,降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性等。

本申请实施例提供的基于联合训练的文本摘要抽取方法的主要思路是,通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的摘要抽取模型来对多个待处理语句进行抽取,既能够有效地提取到表示待处理语句的重要程度的核心特征向量,又能够有效地提取到表示多个待处理语句之间的相似程度的相似特征向量,并根据核心特征向量和相似特征向量对多个待处理语句进行抽取,极大地降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

请参见图1示出的本申请实施例提供的摘要抽取模型训练阶段的流程示意图;可以理解的是,上述基于联合训练的文本摘要抽取方法可以包括:摘要抽取模型训练阶段和摘要抽取模型推理阶段,下面分别介绍这两个阶段,首先介绍摘要抽取模型训练阶段,该摘要抽取模型的训练阶段可以包括:

步骤S110:获取多个样本文本、多个核心摘要标签和多个相似度标签。

核心摘要标签是指表征样本文本对应的每个样本语句在样本文本对应的摘要文本中的重要程度标签,具体例如:假设样本文本中的样本语句是“今天天气真好”,且该样本语句没有包含在该样本文本对应的摘要文本中,那么该样本文本的核心摘要标签可以设置为0%,假设样本文本中的样本语句是“今天做了一件高兴的事情”,且该样本语句包含在该样本文本对应的摘要文本中,那么该样本文本的核心摘要标签可以设置为99%。

相似度标签是指表征样本文本中的每个样本语句与样本文本中的所有样本语句的相似程度标签,具体例如:假设样本文本中的两个样本语句分别是“今天天气真好”和“今天天气不错”,那么由于这两个样本语句在语义上是非常相似的,因此,可以将这两个样本语句之间的相似度标签设置为99%;假设样本文本中的两个样本语句分别是“今天打雷下雨,天气很差”和“今天做了一件高兴的事情”,那么由于这两个样本语句在语义上根本不相似,因此,可以将这两个样本语句之间的相似度标签设置为0%。

需要说明的是,上述的多个样本文本、多个核心摘要标签和多个相似度标签可以分开获取,具体例如:人工的搜集多个样本文本,并(按照标点符号或者预设符号)对每个样本文本进行分句,获得多个样本语句,然后对多个样本语句中的每个样本语句按照重要程度(即是否在摘要文本中,或者,选择其为摘要语句的概率)进行标注,获得每个样本文本对应的多个样本语句的核心摘要标签,并计算出多个样本语句中的任意两个样本语句之间的语义相似程度,获得每个样本文本对应的多个相似度标签,从而最终获得多个核心摘要标签和多个相似度标签。当然,也可以将多个样本文本、多个核心摘要标签和多个相似度标签打包为训练数据集一起获取,这里以训练数据集一起获取为例进行说明。

上述步骤S110的实施方式有很多种,包括但不限于:第一种实施方式,接收其它终端设备发送的训练数据集,将训练数据集存储至文件系统、数据库或移动存储设备中;第二种实施方式,获取预先存储的训练数据集,具体例如:从文件系统中获取训练数据集,或者从数据库中获取训练数据集,或者从移动存储设备中获取训练数据集;第三种实施方式,使用浏览器等软件获取互联网上的训练数据集,或者使用其它应用程序访问互联网获得训练数据集。

在步骤S110之后,执行步骤S120:使用多个样本文本、多个核心摘要标签和多个相似度标签对摘要抽取网络进行多任务联合训练,获得摘要抽取模型。

请参见图2示出的本申请实施例提供的摘要抽取网络的训练过程及网络结构的示意图;需要说明的是,图中的实线是表示神经网络的网络结构,摘要抽取网络的网络结构可以包括:向量抽取层、特征提取层和语句抽取层;然而,图中的虚线是表示神经网络需要使用的数据、网络产生的数据或者中间过程产生的数据;其中,需要使用的训练数据集包括:样本文本、核心摘要标签和相似度标签;摘要抽取网络产生的数据包括:核心预测向量、相似预测向量和预测摘要文本;中间过程产生的数据包括:核心交叉熵损失值、相似度分布损失值和总损失值。摘要抽取网络,是指对文本内容进行摘要抽取且未经训练的神经网络;摘要抽取模型,是指对文本内容进行摘要抽取且已经过训练的神经网络。上述步骤S120的实施方式可以包括:

步骤S121:使用摘要抽取网络中的向量抽取层对样本文本对应的多个样本语句进行向量化表示,获得多个样本语句对应的词向量和句向量。

上述步骤S121的实施方式例如:采用生成式预训练(Generative Pre-Training,GPT)模型、GPT-2模型、BERT模型或者ELMo模型等等语言预处理模型作为摘要抽取网络中的向量抽取层,并使用该向量抽取层对样本文本对应的多个样本语句进行向量化表示,获得多个样本语句对应的词向量和句向量。

步骤S122:使用摘要抽取网络中的特征提取层对多个样本语句对应的词向量和句向量进行特征提取,获得核心预测向量和相似预测向量。

上述步骤S122的实施方式例如:采用双向编码表示编码器BERT模型或者RoBERTa模型作为摘要抽取网络中的特征提取层,并使用该特征提取层对多个样本语句对应的词向量和句向量进行特征提取,获得核心预测向量和相似预测向量。

步骤S123:计算出核心预测向量与核心摘要标签之间的核心交叉熵损失值,并计算出相似预测向量与相似度标签之间的相似度分布损失值。

上述步骤S123中计算出核心预测向量与核心摘要标签之间的核心交叉熵损失值的实施方式例如:根据公式

上述步骤S123中的计算出相似预测向量与相似度标签之间的相似度分布损失值的实施方式例如:针对多个相似预测向量中的每个相似预测向量,根据公式

假设多个样本语句包括:第一样本语句和第二样本语句,第一样本语句和第二样本语句可能是相似的,也可能是不相似的,下面分别讨论这两种情况下的损失值。在获得相似度矩阵之后,根据相似度标签(相似度标签包括:相似样本语句和不相似样本语句)计算获得相似度分布损失值;具体例如:若根据相似度标签确定第一样本语句和第二样本语句是相似的,则根据公式

步骤S124:使用摘要抽取网络中的语句抽取层根据核心预测向量和相似预测向量对多个样本语句进行抽取,获得样本文本对应的预测摘要文本。

其中,上述摘要抽取网络中的语句抽取层可以包括:Transformer层和全连接层,上述Transformer层和全连接层对核心预测向量和相似预测向量不同的计算顺序,有不同的摘要抽取方式。

上述步骤S124的实施方式有很多种,包括但不限于:第一种实施方式,先对核心特征向量和相似特征向量进行注意力计算,然后再进行摘要抽取,该实施方式可以包括:使用Transformer层对核心特征向量和相似特征向量进行注意力计算,获得注意力特征向量;使用全连接层根据注意力特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。第二种实施方式,先对核心特征向量和相似特征向量进行注意力计算,然后再进行摘要抽取,该实施方式可以包括:使用Transformer层对核心特征向量进行注意力计算,获得注意力特征向量。使用全连接层根据注意力特征向量和相似特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。

步骤S125:根据核心交叉熵损失值和相似度分布损失值计算出预测摘要文本与样本文本的真实摘要文本之间的总损失值。

上述步骤S125的实施方式例如:根据公式Loss=Loss1+£×Loss2对核心交叉熵损失值和相似度分布损失值进行计算,获得预测摘要文本与样本文本的真实摘要文本之间的总损失值;其中,Loss表示预测摘要文本与样本文本的真实摘要文本之间的总损失值,Loss1表示核心交叉熵损失值,Loss2表示相似度分布损失值,£表示可调节核心交叉熵损失与相似度分布损失之间权重的超参数。

步骤S126:根据总损失值对摘要抽取网络进行重要程度的句子识别任务和相似程度的句子匹配任务的联合训练,获得摘要抽取模型。

上述步骤S126的实施方式例如:使用多任务学习框架根据总损失值对摘要抽取网络进行重要程度的句子识别任务和相似程度的句子匹配任务的联合训练(JointTraining),获得摘要抽取模型;其中,可以使用的多任务学习框架包括但不限于:多门混合专家(Multi-gate Mixture-of-Experts,MMoE)框架等。

在上述的实现过程中,首先,使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示,获得多个待处理语句对应的词向量和句向量,并使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取,获得核心特征向量和相似特征向量,然后根据核心特征向量和相似特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。也就是说,通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的摘要抽取模型来对多个待处理语句进行抽取,既能够有效地提取到表示待处理语句的重要程度的核心特征向量,又能够有效地提取到表示多个待处理语句之间的相似程度的相似特征向量,并根据核心特征向量和相似特征向量对多个待处理语句进行抽取,极大地降低了摘要文本中不重要摘要语句和相似摘要语句的概率,从而有效地提高了抽取出的摘要文本的语义正确性。

请参见图3示出的本申请实施例提供的摘要抽取模型推理阶段的基于联合训练的文本摘要抽取方法的流程示意图;上面介绍了介绍摘要抽取模型训练阶段,下面介绍摘要抽取模型推理阶段的基于联合训练的文本摘要抽取方法,该摘要抽取模型推理阶段可以包括:

步骤S210:获取待处理文本,并对待处理文本进行分句,获得多个待处理语句。

上述步骤S210中的待处理文本的获取方式有很多种,包括但不限于:第一种获取方式,接收其它终端设备发送的待处理文本,将待处理文本存储至文件系统、数据库或移动存储设备中;第二种获取方式,获取预先存储的待处理文本,具体例如:从文件系统中获取待处理文本,或者从数据库中获取待处理文本,或者从移动存储设备中获取待处理文本;第三种获取方式,使用浏览器等软件获取互联网上的待处理文本,或者使用其它应用程序访问互联网获取待处理文本。

在步骤S210之后,执行步骤S220:使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示,获得多个待处理语句对应的词向量和句向量,摘要抽取模型是通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的。

上述步骤S220的实施方式可以包括:

步骤S221:对多个待处理语句中的每个待处理语句进行分词和向量化,获得每个待处理语句对应的多个词向量。

上述步骤S221的实施方式例如:使用机械式分词法(即基于词典)、基于统计的分词方法或者基于语法和规则的分词方法对多个待处理语句中的每个待处理语句进行分词(Tokenization),获得每个待处理语句的多个词语;其中,机械式分词法例如:以词典为依据的正向最大匹配法、逆向最大匹配法和最少切分法,基于统计的方法例如:词频逆向文件频率(Term Frequency–Inverse Document Frequency,TF-IDF)分词器、隐马尔可夫模型(Hidden Markov Model,HMM)方法、N元模型(N-gram)方法和条件随机场方法等等。然后,采用生成式预训练(Generative Pre-Training,GPT)模型、GPT-2模型、BERT模型或者ELMo模型等等语言预处理模型作为摘要抽取网络中的向量抽取层,并使用该向量抽取层对每个待处理语句的多个词语进行向量化表示,获得每个词语的令牌嵌入(Token Embeddings)向量、位置嵌入(position embedding)向量和/或逆序位置嵌入(Reverse-PositionEmbedding)向量;最后,对每个词语的令牌嵌入向量、位置嵌入向量和/或逆序位置嵌入向量进行相加求和(sum)或者连接(concat)融合,获得每个词语的词向量;针对每个待处理语句都经过上述处理,即可获得每个待处理语句对应的多个词向量。

步骤S222:将每个待处理语句对应的多个词向量中的预设词向量确定为每个待处理语句的句向量。

上述步骤S222的实施方式例如:在上述对待处理文本进行分句的过程中,还可以对待处理文本进行预处理中,此处的预处理可以是使用[CLS]和[SEP]来区分每一个待处理语句;具体例如:假设待处理语句是“今天打雷下雨,天气很差;”,那么使用[CLS]和[SEP]进行预处理后的待处理文本是“[CLS]今天打雷下雨,[SEP][CLS]天气很差;[SEP]”。然后,对预处理后的待处理文本进行分词(Tokenization)和向量化表示,可以获得每个语句中“[CLS]”的令牌嵌入(Token Embeddings)向量;最后,将每个待处理语句对应的多个词向量中“[CLS]”的令牌嵌入向量确定为每个待处理语句的句向量。

在步骤S220之后,执行步骤S230:使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取,获得核心特征向量和相似特征向量,核心特征向量表示待处理语句的重要程度,相似特征向量表示多个待处理语句之间的相似程度。

其中,上述的特征提取层可以采用双向编码表示编码器BERT模型或者RoBERTa模型等等预训练语言模型。

上述步骤S230的实施方式可以包括:使用双向编码表示编码器BERT模型或者RoBERTa模型等等预训练语言模型作为摘要抽取模型中的特征提取层,并使用特征提取层对多个待处理语句中的每个待处理语句对应的词向量和句向量进行特征提取,获得每个待处理语句的核心特征向量。然后,使用VGG模型、Resnet模型、Wide Resnet模型和Inception模型等神经网络模型提取多个待处理语句中的每个待处理语句的特征向量,根据量化相似度指标计算多个待处理语句中的每个待处理语句的特征向量与多个待处理语句中的所有待处理语句的特征向量之间的相似度,获得每个待处理语句的相似特征向量;其中,可以采用的量化相似度指标例如:余弦距离、欧氏距离(Euclidean Distance)、汉明距离(HammingDistance)或信息熵(Information Entropy)等等。

在步骤S230之后,执行步骤S240:使用摘要抽取模型中的语句抽取层根据核心特征向量和相似特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。

其中,上述的语句抽取层可以包括:Transformer层和全连接层;Transformer层可以根据具体情况选择一层Transformer层或者两层Transformer层。

上述的步骤S240的实施方式有很多种,包括但不限于如下几种:

第一种实施方式,请参见图4示出的本申请实施例提供的摘要抽取模型的第一种推理过程的网络结构示意图;先对核心特征向量和相似特征向量进行注意力计算,然后再进行摘要抽取,该实施方式可以包括:使用Transformer层对核心特征向量和相似特征向量进行注意力计算,获得注意力特征向量。使用全连接层根据注意力特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。

第二种实施方式,请参见图5示出的本申请实施例提供的摘要抽取模型的第二种推理过程的网络结构示意图;先对核心特征向量和相似特征向量进行注意力计算,然后再进行摘要抽取,该实施方式可以包括:使用Transformer层对核心特征向量进行注意力计算,获得注意力特征向量。使用全连接层根据注意力特征向量和相似特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。

请参见图6示出的本申请实施例提供的基于联合训练的文本摘要抽取装置的结构示意图。本申请实施例提供了一种基于联合训练的文本摘要抽取装置300,包括:

处理文本获取模块310,用于获取待处理文本,并对待处理文本进行分句,获得多个待处理语句。

语句向量表示模块320,用于使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示,获得多个待处理语句对应的词向量和句向量,摘要抽取模型是通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的。

特征向量获得模块330,用于使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取,获得核心特征向量和相似特征向量,核心特征向量表示待处理语句的重要程度,相似特征向量表示多个待处理语句之间的相似程度。

摘要文本获得模块340,用于使用摘要抽取模型中的语句抽取层根据核心特征向量和相似特征向量对多个待处理语句进行抽取,获得待处理文本对应的摘要文本。

可选地,在本申请实施例中,语句向量表示模块,包括:

词语向量获得模块,用于对多个待处理语句中的每个待处理语句进行分词和向量化,获得每个待处理语句对应的多个词向量。

语句向量确定模块,用于将每个待处理语句对应的多个词向量中的预设词向量确定为每个待处理语句的句向量。

可选地,在本申请实施例中,特征向量获得模块,包括:

核心特征获得模块,用于对多个待处理语句中的每个待处理语句对应的词向量和句向量进行特征提取,获得每个待处理语句的核心特征向量。

相似特征获得模块,用于计算多个待处理语句中的每个待处理语句与多个待处理语句中的所有待处理语句之间的相似度,获得每个待处理语句的相似特征向量。

可选地,在本申请实施例中,语句抽取层包括:Transformer层和全连接层;摘要文本获得模块,包括:

第一摘要抽取模块,用于使用Transformer层对核心特征向量和相似特征向量进行注意力计算,获得注意力特征向量,并使用全连接层根据注意力特征向量对多个待处理语句进行抽取。

或者,第二摘要抽取模块,用于使用Transformer层对核心特征向量进行注意力计算,获得注意力特征向量,并使用全连接层根据注意力特征向量和相似特征向量对多个待处理语句进行抽取。

可选地,在本申请实施例中,基于联合训练的文本摘要抽取装置,还包括:

文本标签获取模块,用于获取多个样本文本、多个核心摘要标签和多个相似度标签,核心摘要标签表征样本文本对应的每个样本语句在样本文本对应的摘要文本中的重要程度,相似度标签表征样本文本中的每个样本语句与样本文本中的所有样本语句的相似程度。

模型联合训练模块,用于使用多个样本文本、多个核心摘要标签和多个相似度标签对摘要抽取网络进行多任务联合训练,获得摘要抽取模型。

可选地,在本申请实施例中,模型联合训练模块,包括:

词句向量获得模块,用于使用摘要抽取网络中的向量抽取层对样本文本对应的多个样本语句进行向量化表示,获得多个样本语句对应的词向量和句向量。

预测向量获得模块,用于使用摘要抽取网络中的特征提取层对多个样本语句对应的词向量和句向量进行特征提取,获得核心预测向量和相似预测向量。

模型损失计算模块,用于计算出核心预测向量与核心摘要标签之间的核心交叉熵损失值,并计算出相似预测向量与相似度标签之间的相似度分布损失值。

总损失值计算模块,用于根据核心交叉熵损失值和相似度分布损失值计算出总损失值。

任务联合训练模块,用于根据总损失值对摘要抽取网络进行重要程度的句子识别任务和相似程度的句子匹配任务的联合训练。

应理解的是,该装置与上述的基于联合训练的文本摘要抽取方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。

本申请实施例提供的一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上的方法。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。

其中,计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。

本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。

另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

相关技术
  • 一种基于LSTM模型由文本中抽取信息的方法及装置
  • 基于BERT预训练模型的中文文本摘要抽取方法及装置
  • 基于预训练和多任务学习的文本摘要和关键词抽取方法
技术分类

06120115588836