掌桥专利:专业的专利平台
掌桥专利
首页

文本摘要生成方法、计算机设备及存储介质

文献发布时间:2023-06-19 11:14:36


文本摘要生成方法、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种文本摘要生成方法、计算机设备及存储介质。

背景技术

培训课程时长大多较长,例如,通常超过一个小时,通过生成培训课程的文本摘要,能够辅助用户课后快速的回顾和复习。

发明人在实现本发明的过程中发现,现有文本摘要的生成方式分为生成式和抽取式两种,生成式文本摘要方法是指通过“理解”原文档后生成新的摘要,可读性强,但生成的摘要的正确性较低,且目前的生成式摘要方法往往聚焦于短课程文本,对于长课程文本的应用效果较差,抽取式文本摘要方法是指提取原文档的关键词或关键句并按重要程度组合形成摘要,但生成的摘要可读性较差,且包含的信息量较小。

发明内容

鉴于以上内容,有必要提出一种文本摘要生成方法、计算机设备及存储介质,能够准确的生成文本摘要,生成的文本摘要可读性强,且对于长文本也具有较好的效果。

本发明的第一方面提供一种文本摘要生成方法,所述方法包括:

对文本进行分词处理得到目标关键词,获取所述目标关键词的词向量;

根据所述词向量生成所述文本中语句的语句向量,及根据所述词向量生成所述文本中文本片段的段向量;

根据所述语句向量计算所述语句在所述文本中的语句权重;

对所述段向量进行编码,得到所述文本片段的隐状态;

根据所述文本片段的隐状态及每个时刻的隐状态向量得到所述文本片段中的目标关键词的注意力权重;

根据所述目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布,所述词汇概率分布表示文本摘要的第k个位置出现的目标关键词,所述代理权重为所述文本片段中语句的语句权重之和;

根据所述词汇概率分布生成文本摘要。

在一个可选的实施方式中,所述根据所述语句向量计算所述语句在所述文本中的语句权重包括:

获取所述语句的第一最大边界相关度;

获取所述文本中除所述语句之外的其余语句的第二最大边界相关度;

根据所述第一最大边界相关度及所述第二最大边界相关度得到所述语句的语句权重。

在一个可选的实施方式中,所述第一最大边界相关度的计算过程包括:

根据所述语句的语句向量计算所述语句与所述文本的第一相似度;

根据所述语句的语句向量与所述其余语句的语句向量计算所述语句与所述其余语句的第二相似度;

根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度。

在一个可选的实施方式中,所述根据所述语句的语句向量计算所述语句与所述文本的第一相似度包括:根据所述语句中的词向量计算所述语句的第一特征表示;根据所述文本中的词向量计算所述文本的第二特征表示;采用相似度计算模型根据所述第一特征表示和所述第二特征表示计算得到第一相似度。

在一个可选的实施方式中,所述根据所述语句的语句向量与所述其余语句的语句向量计算所述语句与所述其余语句的第二相似度包括:根据所述其余语句中的词向量计算所述其余语句的第三特征表示;采用所述相似度计算模型根据所述第一特征表示和所述第三特征表示计算得到第二相似度。

在一个可选的实施方式中,所述根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度包括:

根据预设的超参数及所述第一相似度得到第一值;

确定所述第二相似度中的最大值;

根据所述预设的超参数及所述最大值得到第二值;

根据所述第一值与所述第二值得到第一最大边界相关度。

在一个可选的实施方式中,所述根据所述语句向量计算所述语句在所述文本中的语句权重包括:

计算所述第二最大边界相关度的和值;

计算所述第一最大边界相关度与所述和值的占比;

使用预设函数对所述占比进行映射得到所述语句的语句权重。

在一个可选的实施方式中,

所述对所述段向量进行编码,得到所述文本片段的隐状态包括:

通过第一阶段双向LSTM模型对所述段向量进行编码,得到所述文本片段中的目标关键词的隐状态;

通过第二阶段双向LSTM模型对所述目标关键词的隐状态进行编码,得到所述文本片段的隐状态。

在一个可选的实施方式中,所述根据所述词汇概率分布生成文本摘要包括:

对于任意时刻,获取所述概率分布中所述任意时刻下的最大概率;

确定所述最大概率对应的目标关键词为文本摘要中的目标关键词;

将所述文本摘要中的目标关键词按照时间顺序进行组合,得到文本摘要。

本发明的第二方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述文本摘要生成方法。

本发明的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本摘要生成方法。

综上所述,本发明所述的文本摘要生成方法、计算机设备及存储介质,对于需要生成文本摘要的文本,先提取所述文本中每个目标关键词的词向量,根据所述词向量为文本中的每个语句生成语句向量及为每个文本片段生成段向量,从而根据所述语句向量计算得到每个语句在整个文本中的语句权重,接着对段向量进行编码得到文本片段的隐状态,并根据文本片段的隐状态及每个时刻的隐状态向量得到文本片段中的目标关键词的注意力权重,最后根据目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布,词汇概率分布表示了第k个位置出现的目标关键词。生成的文本摘要不仅考虑到了语句与文本的相似度,而且考虑到摘要语句的冗余性,表述含义重复性大的语句组成的文本片段权重相对较低,其信息在解码器模块的过程中的重要性也较小,最终得到的摘要中重复含义目标关键词出现的可能性也更低,生成的文本摘要更加精准,含义明确且简练。

附图说明

图1是本发明实施例一提供的文本摘要生成方法的流程图。

图2是本发明实施例提供的生成模型的网络架构示意图。

图3是本发明实施例二提供的生成模型中的代理的结构示意图。

图4是本发明实施例二提供的文本摘要生成装置的结构图。

图5是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明实施例提供的文本摘要生成方法由计算机设备执行,相应地,文本摘要生成装置运行于计算机设备中。

图1是本发明实施例一提供的文本摘要生成方法的流程图。所述文本摘要生成方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,对文本进行分词处理得到目标关键词,获取所述目标关键词的词向量。

其中,所述文本是指书面语言的表现形式,可以为一句话,一个段落,或者一篇文章。若应用于培训场景中,所述文本则为培训课程文本,培训课程文本可以来源于培训视频。

在一个可选的实施方式中,所述文本为培训课程文本,所述对文本进行分词处理得到目标关键词,获取所述目标关键词的词向量包括:

根据预先创建的培训课程文本停用词库对培训课程文本进行去燥处理得到标准文本;

对所述标准文本进行分词处理得到目标关键词;

使用训练完成的word2vec模型提取所述目标关键词的词向量。

计算机设备可以先获取培训视频,提取所述培训视频的培训语音,采用语音识别技术(例如,Sphinx系统)识别所述培训语音的语音文本,得到培训课程文本。

计算机设备可以使用结巴分词工具对所述文本进行分词处理得到多个目标关键词。

由于在实际培训的过程中,会存在很多环境噪声,因而得到的培训课程文本带有很多噪声信息,计算机设备预先创建培训课程文本停用词库,所述培训课程文本停用词库包括:语气词、人称、感叹词等停用词以及无意义词,将培训课程文本与培训课程文本停用词库进行匹配,以此过滤培训课程文本中与培训课程文本停用词库匹配成功的词,从而实现对培训课程文本进行去燥的效果,进而得到标准文本。

由于培训课程文本中包含很多专业词汇,因此需要在常用中文词库的基础上增添与培训相关的专业词汇(如,与保险相关的词汇),得到课程语料词库。计算机设备可以采用skip-gram训练方式,根据课程语料词库中的词来训练word2vec模型,再通过训练完成的word2vec模型将标准文本中的每个目标关键词表示成一个

计算机设备可以使用gensim中的TextDictoryCorpus工具来管理创建的课程文本停用词库及课程语料词库。

S12,根据所述词向量生成所述文本中语句的语句向量,及根据所述词向量生成所述文本中文本片段的段向量。

对于任意一个语句,将语句中的所有目标关键词的词向量进行组合,得到该语句的语句向量。例如,对于语句

通常而言,培训课程文本属于长文本,为了更好的提取培训课程文本的文本摘要,计算机设备将培训课程文本分割为多个文本片段。具体实施时,可以将培训课程文本的句号随机的作为分割点,将培训课程文本分割为多个文本片段,每个文本片段可以包括一个语句,也可以包括两个或者两个以上的语句。多个文本片段可以组合成文本片段序列,记为

S13,根据所述语句向量计算所述语句在所述文本中的语句权重。

本实施例中,可以借助于抽取式摘要方式的思想,从所述文本中尽可能多的抽取文本信息,即从所述文本中提取信息量较大的语句,以便于后续借助于生成式摘要方式的思想生成文本摘要。

计算机设备先根据每个语句的语句向量计算语句在文本中的语句权重,语句权重越大,对应的语句越为文本中的重要语句,语句权重越小,对应的语句越为文本中的不重要语句。

在一个可选的实施方式中,根据所述语句向量计算所述语句在所述文本中的语句权重包括:

获取所述语句的第一最大边界相关度;

获取所述文本中除所述语句之外的其余语句的第二最大边界相关度;

根据所述第一最大边界相关度及所述第二最大边界相关度得到所述语句的语句权重。

其中,所述第一最大边界相关度的计算过程包括:根据所述语句的语句向量计算所述语句与所述文本的第一相似度,根据所述语句的语句向量与所述其余语句的语句向量计算所述语句与所述其余语句的第二相似度,根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度。

其中,所述语句与所述其余语句是相对而言的,所述其余语句是指所述文本中除所述语句之外的所有语句。例如,当所述语句为所述文本中的第一个语句,则所述其余语句为所述文本中的第二个语句至最后一个语句。当所述语句为所述文本中的第二个语句,则所述其余语句为所述文本中的第一个语句、第三个语句至最后一个语句。

应当理解的是,由于所述语句与所述其余语句是相对而言的,因而,所述第二最大边界相关度的计算过程同所述第一最大边界相关度的计算过程,不再详细阐述。

在一个可选的实施方式中,计算机设备根据所述语句的语句向量计算所述语句与所述文本的第一相似度包括:根据所述语句中的词向量计算所述语句的第一特征表示;根据所述文本中的词向量计算所述文本的第二特征表示;采用相似度计算模型根据所述第一特征表示和所述第二特征表示计算得到第一相似度。

示例性的,假设语句包括10个目标关键词,文本包括1000个目标关键词,每个目标关键词的词向量都是

在一个可选的实施方式中,计算机设备根据所述语句的语句向量与所述其余语句的语句向量计算所述语句与所述其余语句的第二相似度包括:根据所述其余语句中的词向量计算所述其余语句的第三特征表示;采用所述相似度计算模型根据所述第一特征表示和所述第三特征表示计算得到第二相似度。

将所述其余语句中目标关键词的词向量进行加和再平均得到的第三均值向量作为所述其余语句第三特征表示。

所述相似度计算模型可以为预先配置的相似度计算函数,例如,欧式距离,余弦夹角等。

在一个可选的实施方式中,所述根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度包括:

根据预设的超参数及所述第一相似度得到第一值;

确定所述第二相似度中的最大值;

根据所述预设的超参数及所述最大值得到第二值;

根据所述第一值与所述第二值得到第一最大边界相关度。

计算机设备中预先存储有第一公式,根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度可以采用如下第一公式表示:

其中,

在一个可选的实施方式中,所述根据所述语句向量计算所述语句在所述文本中的语句权重包括:

计算所述第二最大边界相关度的和值;

计算所述第一最大边界相关度与所述和值的占比;

使用预设函数对所述占比进行映射得到所述语句的语句权重。

计算机设备中预先存储有第二公式,根据所述第一最大边界相关度及所述第二最大边界相关度计算所述语句的语句权重可以采用如下第二公式表示:

其中,

计算机设备在计算文本中每个语句的最大边界相关度之后,对于任意一个语句,计算文本中除该任意一个语句之外的其他语句的最大边界相关度的和值,再计算该任意一个语句的最大边界相关度与和值的比值,最后再进行softmax函数处理,得到该任意一个语句的语句权重(或者称之为概率值)。比值越大,表明对应的语句与文本的相关性越大,冗余性越高。比值越小,表明对应的语句与文本的相关性越弱,冗余性越低。

将文本中所有语句的语句权重进行组合,得到语句权重向量表示,记为

S14,对所述段向量进行编码,得到所述文本片段的隐状态。

可以使用生成模型的编码器模块中的代理对所述段向量进行编码,得到所述文本片段的隐状态。

本实施例中,生成模型的网络架构如下图2所示,生成模型包括位于底层的编码器模块(如图2中的Encoder部分)和位于上层的解码器模块(如图2中的Decoder部分),其中,所述编码器模块包括多个相互独立的代理(如图2中的Agent1,Agent2,AgentM),每个代理中包括双向LSTM(BiLSTM)模型,所述解码器模块包括多层注意力机制层及LSTM模型,所述多层注意力机制层包括抽取注意力机制层(如图2中的抽取模型Attention)和代理注意力机制层(如图2中的Agent Attention)。

计算机设备根据文本片段的数量配置编码器模块中的代理的数量,即,有多少个文本片段,则在编码器模块中对应配置多少个代理,使得文本片段与代理一一对应。计算机设备将每一个文本片段输入编码器模块中的一个代理,通过代理对文本片段进行编码得到中间向量(即隐状态),并将中间向量传递给其他代理,使得不同的代理之间彼此能够共享文本中不同内容的全局上下文信息。每个代理输出一个中间向量,所有的中间向量组成中间向量序列。最后通过解码器模块对所有代理输出的中间向量进行解码,即对中间向量序列进行解码,得到文本摘要的概率分布,从而得到最终的文本摘要。参阅图2所示,计算机设备将文本片段

在一个可选的实施方式中,如图3所示,所述代理包括两阶段双向LSTM模型(第一阶段双向LSTM模型和第二阶段双向LSTM模型),所述对所述段向量进行编码,得到所述文本片段的隐状态包括:

通过第一阶段双向LSTM模型对所述段向量进行编码,得到所述文本片段中的目标关键词的隐状态;

通过第二阶段双向LSTM模型对所述目标关键词的隐状态进行编码,得到所述文本片段的隐状态。

每个代理中的BiLSTM为两阶段双向LSTM模型,其中,第一阶段为一个单层双向LSTM(如图3中的Local Encoder)编码器,每一个Local Encoder的输出被输入到第二阶段的上下文编码器中(如图3中的Contextual Encoder),上下文编码器是多层的双向LSTM结构,称为Contextual Encoder。

第一阶段的过程如下所示:

经过词向量

中间的隐状态:

输出的隐状态:

其中,

由上述公式可以看出,文本片段中每个目标关键词

第二阶段的过程如下所示:

每个代理在第

所述编码器模块输出

S15,根据所述文本片段的隐状态及每个时刻的隐状态向量得到所述文本片段中的目标关键词的注意力权重。

在一个可选的实施方式中,可以使用所述生成模型的解码器模块中的抽取注意力机制层根据所述文本片段的隐状态及每个时刻的隐状态向量计算得到所述文本片段中的目标关键词的注意力权重。

S16,根据所述目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布。

可以使用所述解码器模块中的代理注意力机制层根据所述目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布。

所述词汇概率分布表示文本摘要的第k个位置出现的目标关键词,所述代理权重为所述文本片段中语句的语句权重之和。

解码器模块为单向LSTM结构,因此每个文本片段的最后一个目标关键词能够包含前面所有目标关键词的状态信息。解码器模块的初始输入状态

具体实施时,利用代理最后一个隐藏层生成的隐状态向量序列

LSTM的每个时间步t,代表生成的文本摘要的第t个目标关键词的位置。生成当前时刻的隐状态

得到的文本摘要的概率分布为

该可选的实施例中,生成模型计算得到的权重不仅考虑到了语句与文本的相似度,而且考虑到摘要语句的冗余性,将这一权重结合到生成模型的解码器模块的文本片段的权重中,相比普通解码器,最终计算所得的概率中也包含了冗余性这一信息。即表述含义重复性大的语句组成的文本片段权重相对较低,其信息在解码器模块的过程中的重要性也较小,最终得到的摘要中重复含义目标关键词出现的可能性也更低,生成的文本摘要更加精准,含义明确且简练。

S17,根据所述词汇概率分布生成文本摘要。

由于概率分布表示了文本中每个目标关键词出现在文本摘要中的概率,那么概率越大,表明对应的目标关键词出现在文本摘要中的概率越大,概率越小,表明的对应的目标关键词出现在文本摘要中的概率越小。计算机设备可以根据所述概率分布中的概率确定出现在文本摘要中的目标关键词,从而根据所述目标关键词生成文本摘要。

在一个可选的实施方式中,所述根据所述词汇概率分布生成文本摘要包括:

对于任意时刻,获取所述概率分布中所述任意时刻下的最大概率;

确定所述最大概率对应的目标关键词为文本摘要中的目标关键词;

将所述文本摘要中的目标关键词按照时间顺序进行组合,得到文本摘要。

示例性的,对于某一时刻

计算机设备生成文本摘要后,可以显示所生成的文本摘要,供学习者依据生成的文本摘要进行培训课后复习和回顾,并根据文本摘要中的目标关键词(作为关键词)选取重点课程进行学习。

综上所述,本发明提供的文本摘要生成方法,对于需要生成文本摘要的文本,先对文本进行分词处理得到目标关键词,再提取所述文本中每个目标关键词的词向量,根据所述词向量为文本中的每个语句生成语句向量及为文本中的每个文本片段生成段向量,从而根据所述语句向量计算得到每个语句在整个文本中的语句权重,接着采用训练完成的LSTM模型对段向量进行编码得到文本片段的隐状态,根据文本片段的隐状态及每个时刻的隐状态向量得到文本片段中的目标关键词的注意力权重,根据目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布,词汇概率分布表示第k个位置出现的目标关键词,代理权重为语句权重之和,最后根据词汇概率分布生成文本摘要。生成的文本摘要不仅考虑到了语句与文本的相似度,而且考虑到摘要语句的冗余性,表述含义重复性大的语句组成的文本片段权重相对较低,其信息在解码器模块的过程中的重要性也较小,最终得到的摘要中重复含义目标关键词出现的可能性也更低,生成的文本摘要更加精准,含义明确且简练。

需要强调的是,为进一步保证上述文本的私密性和安全性,上述文本可存储于区块链的节点中。

图2是本发明实施例二提供的文本摘要生成装置的结构图。

在一些实施例中,所述文本摘要生成装置40可以包括多个由计算机程序段所组成的功能模块。所述文本摘要生成装置40中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)文本摘要生成的功能。

本实施例中,所述文本摘要生成装置40根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:分词处理模块401、向量生成模块402、权重计算模块403、向量编码模块404、注意力计算模块405、概率分布模块406及摘要生成模块407。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述分词处理模块401,用于对文本进行分词处理得到目标关键词,获取所述目标关键词的词向量。

其中,所述文本是指书面语言的表现形式,可以为一句话,一个段落,或者一篇文章。若应用于培训场景中,所述文本则为培训课程文本,培训课程文本可以来源于培训视频。

在一个可选的实施方式中,所述文本为培训课程文本,所述分词处理模块401对文本进行分词处理得到目标关键词,获取所述目标关键词的词向量包括:

根据预先创建的培训课程文本停用词库对培训课程文本进行去燥处理得到标准文本;

对所述标准文本进行分词处理得到目标关键词;

使用训练完成的word2vec模型提取所述目标关键词的词向量。

计算机设备可以先获取培训视频,提取所述培训视频的培训语音,采用语音识别技术(例如,Sphinx系统)识别所述培训语音的语音文本,得到培训课程文本。

计算机设备可以使用结巴分词工具对所述文本进行分词处理得到多个目标关键词。

由于在实际培训的过程中,会存在很多环境噪声,因而得到的培训课程文本带有很多噪声信息,计算机设备预先创建培训课程文本停用词库,所述培训课程文本停用词库包括:语气词、人称、感叹词等停用词以及无意义词,将培训课程文本与培训课程文本停用词库进行匹配,以此过滤培训课程文本中与培训课程文本停用词库匹配成功的词,从而实现对培训课程文本进行去燥的效果,进而得到标准文本。

由于培训课程文本中包含很多专业词汇,因此需要在常用中文词库的基础上增添与培训相关的专业词汇(如,与保险相关的词汇),得到课程语料词库。计算机设备可以采用skip-gram训练方式,根据课程语料词库中的词来训练word2vec模型,再通过训练完成的word2vec模型将标准文本中的每个目标关键词表示成一个n维的词向量。

计算机设备可以使用gensim中的TextDictoryCorpus工具来管理创建的课程文本停用词库及课程语料词库。

所述向量生成模块402,用于根据所述词向量生成所述文本中语句的语句向量,及根据所述词向量生成所述文本中文本片段的段向量。

对于任意一个语句,将语句中的所有目标关键词的词向量进行组合,得到该语句的语句向量。例如,对于语句

通常而言,培训课程文本属于长文本,为了更好的提取培训课程文本的文本摘要,计算机设备将培训课程文本分割为多个文本片段。具体实施时,可以将培训课程文本的句号随机的作为分割点,将培训课程文本分割为多个文本片段,每个文本片段可以包括一个语句,也可以包括两个或者两个以上的语句。多个文本片段可以组合成文本片段序列,记为

所述权重计算模块403,用于根据所述语句向量计算所述语句在所述文本中的语句权重。

本实施例中,可以借助于抽取式摘要方式的思想,从所述文本中尽可能多的抽取文本信息,即从所述文本中提取信息量较大的语句,以便于后续借助于生成式摘要方式的思想生成文本摘要。

计算机设备先根据每个语句的语句向量计算语句在文本中的语句权重,语句权重越大,对应的语句越为文本中的重要语句,语句权重越小,对应的语句越为文本中的不重要语句。

在一个可选的实施方式中,所述权重计算模块403根据所述语句向量计算所述语句在所述文本中的语句权重包括:

获取所述语句的第一最大边界相关度;

获取所述文本中除所述语句之外的其余语句的第二最大边界相关度;

根据所述第一最大边界相关度及所述第二最大边界相关度得到所述语句的语句权重。

其中,所述第一最大边界相关度的计算过程包括:根据所述语句的语句向量计算所述语句与所述文本的第一相似度,根据所述语句的语句向量与所述其余语句的语句向量计算所述语句与所述其余语句的第二相似度,根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度。

其中,所述语句与所述其余语句是相对而言的,所述其余语句是指所述文本中除所述语句之外的所有语句。例如,当所述语句为所述文本中的第一个语句,则所述其余语句为所述文本中的第二个语句至最后一个语句。当所述语句为所述文本中的第二个语句,则所述其余语句为所述文本中的第一个语句、第三个语句至最后一个语句。

应当理解的是,由于所述语句与所述其余语句是相对而言的,因而,所述第二最大边界相关度的计算过程同所述第一最大边界相关度的计算过程,不再详细阐述。

在一个可选的实施方式中,计算机设备根据所述语句的语句向量计算所述语句与所述文本的第一相似度包括:根据所述语句中的词向量计算所述语句的第一特征表示;根据所述文本中的词向量计算所述文本的第二特征表示;采用相似度计算模型根据所述第一特征表示和所述第二特征表示计算得到第一相似度。

示例性的,假设语句包括10个目标关键词,文本包括1000个目标关键词,每个目标关键词的词向量都是

在一个可选的实施方式中,计算机设备根据所述语句的语句向量与所述其余语句的语句向量计算所述语句与所述其余语句的第二相似度包括:根据所述其余语句中的词向量计算所述其余语句的第三特征表示;采用所述相似度计算模型根据所述第一特征表示和所述第三特征表示计算得到第二相似度。

将所述其余语句中目标关键词的词向量进行加和再平均得到的第三均值向量作为所述其余语句第三特征表示。

所述相似度计算模型可以为预先配置的相似度计算函数,例如,欧式距离,余弦夹角等。

在一个可选的实施方式中,所述根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度包括:

根据预设的超参数及所述第一相似度得到第一值;

确定所述第二相似度中的最大值;

根据所述预设的超参数及所述最大值得到第二值;

根据所述第一值与所述第二值得到第一最大边界相关度。

计算机设备中预先存储有第一公式,根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度可以采用如下第一公式表示:

其中,

在一个可选的实施方式中,所述根据所述语句向量计算所述语句在所述文本中的语句权重包括:

计算所述第二最大边界相关度的和值;

计算所述第一最大边界相关度与所述和值的占比;

使用预设函数对所述占比进行映射得到所述语句的语句权重。

计算机设备中预先存储有第二公式,根据所述第一最大边界相关度及所述第二最大边界相关度计算所述语句的语句权重可以采用如下第二公式表示:

其中,

计算机设备在计算文本中每个语句的最大边界相关度之后,对于任意一个语句,计算文本中除该任意一个语句之外的其他语句的最大边界相关度的和值,再计算该任意一个语句的最大边界相关度与和值的比值,最后再进行softmax函数处理,得到该任意一个语句的语句权重(或者称之为概率值)。比值越大,表明对应的语句与文本的相关性越大,冗余性越高。比值越小,表明对应的语句与文本的相关性越弱,冗余性越低。

所述向量编码模块404,用于对所述段向量进行编码,得到所述文本片段的隐状态。

可以使用生成模型的编码器模块中的代理对所述段向量进行编码,得到所述文本片段的隐状态。

本实施例中,生成模型的网络架构如下图2所示,生成模型包括位于底层的编码器模块(如图2中的Encoder部分)和位于上层的解码器模块(如图2中的Decoder部分),其中,所述编码器模块包括多个相互独立的代理(如图2中的Agent1,Agent2,AgentM),每个代理中包括双向LSTM(BiLSTM)模型,所述解码器模块包括多层注意力机制层及LSTM模型,所述多层注意力机制层包括抽取注意力机制层(如图2中的抽取模型Attention)和代理注意力机制层(如图2中的Agent Attention)。

计算机设备根据文本片段的数量配置编码器模块中的代理的数量,即,有多少个文本片段,则在编码器模块中对应配置多少个代理,使得文本片段与代理一一对应。计算机设备将每一个文本片段输入编码器模块中的一个代理,通过代理对文本片段进行编码得到中间向量(即隐状态),并将中间向量传递给其他代理,使得不同的代理之间彼此能够共享文本中不同内容的全局上下文信息。每个代理输出一个中间向量,所有的中间向量组成中间向量序列。最后通过解码器模块对所有代理输出的中间向量进行解码,即对中间向量序列进行解码,得到文本摘要的概率分布,从而得到最终的文本摘要。参阅图2所示,计算机设备将文本片段

在一个可选的实施方式中,如图3所示,所述代理包括两阶段双向LSTM模型(第一阶段双向LSTM模型和第二阶段双向LSTM模型),所述向量编码模块404对所述段向量进行编码,得到所述文本片段的隐状态包括:

通过第一阶段双向LSTM模型对所述段向量进行编码,得到所述文本片段中的目标关键词的隐状态;

通过第二阶段双向LSTM模型对所述目标关键词的隐状态进行编码,得到所述文本片段的隐状态。

每个代理中的BiLSTM为两阶段双向LSTM模型,其中,第一阶段为一个单层双向LSTM(如图3中的Local Encoder)编码器,每一个Local Encoder的输出被输入到第二阶段的上下文编码器中(如图3中的Contextual Encoder),上下文编码器是多层的双向LSTM结构,称为Contextual Encoder。

第一阶段的过程如下所示:

经过词向量

中间的隐状态:

输出的隐状态:

其中,

由上述公式可以看出,文本片段中每个目标关键词

第二阶段的过程如下所示:

每个代理在第

所述编码器模块输出

所述注意力计算模块405,用于根据所述文本片段的隐状态及每个时刻的隐状态向量得到所述文本片段中的目标关键词的注意力权重。

在一个可选的实施方式中,可以使用所述生成模型的解码器模块中的抽取注意力机制层根据所述文本片段的隐状态及每个时刻的隐状态向量计算得到所述文本片段中的目标关键词的注意力权重。

所述概率分布模块406,根据所述目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布。

可以使用所述解码器模块中的代理注意力机制层根据所述目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布。

所述词汇概率分布表示文本摘要的第k个位置出现的目标关键词,所述代理权重为所述文本片段中语句的语句权重之和。

解码器模块为单向LSTM结构,因此每个文本片段的最后一个目标关键词能够包含前面所有目标关键词的状态信息。解码器模块的初始输入状态

具体实施时,利用代理最后一个隐藏层生成的隐状态向量序列

LSTM的每个时间步t,代表生成的文本摘要的第t个目标关键词的位置。生成当前时刻的隐状态

得到的文本摘要的概率分布为

该可选的实施例中,生成模型计算得到的权重不仅考虑到了语句与文本的相似度,而且考虑到摘要语句的冗余性,将这一权重结合到生成模型的解码器模块的文本片段的权重中,相比普通解码器,最终计算所得的概率中也包含了冗余性这一信息。即表述含义重复性大的语句组成的文本片段权重相对较低,其信息在解码器模块的过程中的重要性也较小,最终得到的摘要中重复含义目标关键词出现的可能性也更低,生成的文本摘要更加精准,含义明确且简练。

所述摘要生成模块407,用于根据所述词汇概率分布生成文本摘要。

由于概率分布表示了文本中每个目标关键词出现在文本摘要中的概率,那么概率越大,表明对应的目标关键词出现在文本摘要中的概率越大,概率越小,表明的对应的目标关键词出现在文本摘要中的概率越小。计算机设备可以根据所述概率分布中的概率确定出现在文本摘要中的目标关键词,从而根据所述目标关键词生成文本摘要。

在一个可选的实施方式中,所述摘要生成模块407根据所述词汇概率分布生成文本摘要包括:

对于任意时刻,获取所述概率分布中所述任意时刻下的最大概率;

确定所述最大概率对应的目标关键词为文本摘要中的目标关键词;

将所述文本摘要中的目标关键词按照时间顺序进行组合,得到文本摘要。

示例性的,对于某一时刻

计算机设备生成文本摘要后,可以显示所生成的文本摘要,供学习者依据生成的文本摘要进行培训课后复习和回顾,并根据文本摘要中的目标关键词(作为关键词)选取重点课程进行学习。

综上所述,本发明提供的文本摘要生成装置,对于需要生成文本摘要的文本,先对文本进行分词处理得到目标关键词,再提取所述文本中每个目标关键词的词向量,根据所述词向量为文本中的每个语句生成语句向量及为文本中的每个文本片段生成段向量,从而根据所述语句向量计算得到每个语句在整个文本中的语句权重,接着采用训练完成的LSTM模型对段向量进行编码得到文本片段的隐状态,根据文本片段的隐状态及每个时刻的隐状态向量得到文本片段中的目标关键词的注意力权重,根据目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布,词汇概率分布表示第k个位置出现的目标关键词,代理权重为语句权重之和,最后根据词汇概率分布生成文本摘要。生成的文本摘要不仅考虑到了语句与文本的相似度,而且考虑到摘要语句的冗余性,表述含义重复性大的语句组成的文本片段权重相对较低,其信息在解码器模块的过程中的重要性也较小,最终得到的摘要中重复含义目标关键词出现的可能性也更低,生成的文本摘要更加精准,含义明确且简练。

需要强调的是,为进一步保证上述文本的私密性和安全性,上述文本可存储于区块链的节点中。

参阅图5所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备5包括存储器51、至少一个处理器51、至少一条通信总线53及收发器54。

本领域技术人员应该了解,图5示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备5还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述计算机设备5是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备5还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述计算机设备5仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器51中存储有计算机程序,所述计算机程序被所述至少一个处理器51执行时实现如所述的文本摘要生成方法中的全部或者部分步骤。所述存储器51包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器51是所述计算机设备5的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备5的各个部件,通过运行或执行存储在所述存储器51内的程序或者模块,以及调用存储在所述存储器51内的数据,以执行计算机设备5的各种功能和处理数据。例如,所述至少一个处理器51执行所述存储器中存储的计算机程序时实现本发明实施例中所述的文本摘要生成方法的全部或者部分步骤;或者实现文本摘要生成装置的全部或者部分功能。所述至少一个处理器51可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线53被设置为实现所述存储器51以及所述至少一个处理器51等之间的连接通信。

尽管未示出,所述计算机设备5还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器51逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 文本摘要生成方法、计算机设备及存储介质
  • 文本摘要生成方法、装置、计算机设备和存储介质
技术分类

06120112858925