掌桥专利:专业的专利平台
掌桥专利
首页

文本摘要生成方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:28:50


文本摘要生成方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种文本摘要生成方法、装置、电子设备及存储介质。

背景技术

文本摘要指的是根据文本生成的、能够表达文本的主要信息、且篇幅较短的一种文本形式,通过文本摘要可以快速、高效地获取文本的关键内容。

现有的文本摘要生成方法通常采用的是对整篇文本进行抽取的思路,而文本摘要生成方法在处理文本,特别是篇幅较长的文本时,容易出现抽取出的语句存在冗余、对原文的主旨概括性不高、无法涵盖摘要中各个基本要素对应的内容等问题,生成的文本摘要质量较差。

发明内容

本申请实施例提供了一种文本摘要生成方法、装置、电子设备及存储介质,可以解决现有的文本摘要生成方法生成的文本摘要质量较差的问题。

所述技术方案如下:

根据本申请实施例的一个方面,提供了一种文本摘要生成方法,该方法包括:

获取待生成摘要的文本;

对所述文本进行切分,得到各个摘要组成要素分别对应的文本内容;

针对每个摘要组成要素对应的文本内容,对所述文本内容进行抽取,得到所述文本内容对应的候选语句集;

对各个文本内容分别对应的候选语句集进行组合,生成所述文本对应的文本摘要。

可选地,所述对所述文本进行切分,得到各个摘要组成要素分别对应的文本内容,包括:

确定所述文本中的子标题所属的摘要组成要素;

将所述子标题所属的摘要组成要素作为所述子标题对应的文本段所属的摘要组成要素;

针对每个摘要组成要素,将所述摘要组成要素对应的至少一个文本段组合为所述摘要组成要素对应的文本内容。

可选地,所述确定所述文本中的子标题所属的摘要组成要素,包括:

采用各个摘要组成要素分别对应的正则表达式,识别出所述子标题所属的摘要组成要素。

可选地,所述各个摘要组成要素分别对应的正则表达式是基于如下方式确定的:

针对每个摘要组成要素,获取所述摘要组成要素对应的多个特征词;

基于所述多个特征词,构建所述摘要组成要素对应的正则表达式。

可选地,所述对所述文本内容进行抽取,得到所述文本内容对应的候选语句集,包括:

对所述文本内容进行分句处理,得到所述文本内容对应的多个语句;

确定各个语句分别对应的权重;所述权重用于表征所述语句的重要程度;

根据所述各个语句分别对应的权重,从所述各个语句中抽取出多个候选语句,将所述多个候选语句的集合作为候选语句集。

可选地,所述确定各个语句分别对应的权重,包括:

针对每个语句,基于预设的调整系数扩大所述语句的第一关键词相关系数,生成第二关键词相关系数;

基于所述第二关键词相关系数和所述语句的语句相似度,确定所述语句对应的权重;

其中,所述第一关键词相关系数用于表征所述语句与所述文本的关键词之间的相关程度;

所述语句相似度用于表征所述语句与其他语句之间的相似程度;所述其他语句为所述语句对应的文本内容中除所述语句之外的语句。

可选地,所述基于所述第二关键词相关系数和所述语句的语句相似度,确定所述语句对应的权重,包括:

将预设的初始系数与所述第二关键词相关系数之和作为相似度系数;

基于所述相似度系数与所述语句的语句相似度,确定所述语句对应的权重。

可选地,所述对各个文本内容分别对应的候选语句集进行组合,生成所述文本对应的摘要,包括:

针对每个文本内容对应的候选语句集,按照所述候选语句集中各个候选语句在所述文本内容中的出现顺序,对所述各个候选语句进行排序,将排序好的各个候选语句构成的文本作为所述文本内容对应的摘要片段;

按照所述各个文本内容分别对应的摘要组成要素的次序,对所述各个文本内容分别对应的摘要片段进行排序,将排序好的各个摘要片段构成的文本作为所述文本对应的摘要。

根据本申请实施例的另一个方面,提供了一种文本摘要生成装置,该装置包括:

文本获取模块,用于获取待生成摘要的文本;

文本切分模块,用于对所述文本进行切分,得到各个摘要组成要素分别对应的文本内容;

候选语句集确定模块,用于针对每个摘要组成要素对应的文本内容,对所述文本内容进行抽取,得到所述文本内容对应的候选语句集;

摘要生成模块,用于对各个文本内容分别对应的候选语句集进行组合,生成所述文本对应的摘要。

根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一种文本摘要生成方法的步骤。

根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种文本摘要生成方法的步骤。

本申请实施例提供的技术方案带来的有益效果是:

通过预先设置多个摘要组成要素,并将多个摘要组成要素作为文本切分的依据,将文本摘要自身的结构特点作为先验信息,有目的性地对文本进行切分,使得生成的文本摘要能够满足摘要这种文本类型的特定要求,提高了文本摘要的质量。

此外,通过对文本进行切分,得到各个摘要组成要素分别对应的文本内容,将对文本的处理转化为对文本内容的处理,文本内容是文本的一个组成单元,即将对长文本的处理转换为对短文本的处理,避免了算法因待处理文本篇幅过长导致的迭代过程长、效率低的问题,能够对篇幅较长的文本进行有效处理;而且保证了得到的候选语句的质量,进一步提高了文本摘要的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种文本摘要生成方法的应用场景示意图;

图2为本申请实施例提供的一种文本摘要生成方法的流程示意图;

图3为本申请实施例提供的一种论文文本摘要生成方法的流程示意图;

图4为本申请实施例提供的一种句向量确定方法的流程示意图;

图5为本申请实施例提供的一种文本摘要生成装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

现有的文本摘要生成方法通常是采用对整篇文本进行抽取的思路,对于短文本,例如新闻文本,其长度一般在1000字左右,可以取得较好的效果。但是还有一些文本的长度较长,例如科技论文,其长度往往在5000字左右,有的甚至长达1万字以上或数万字。

现有的文本摘要生成方法在处理文本,特别是篇幅较长的文本时,容易出现抽取出的语句存在冗余、对原文的主旨概括性不高、无法涵盖摘要中各个基本要素对应的内容等问题,生成的文本摘要质量较差。

本申请提供的文本摘要生成方法、装置、电子设备及存储介质,旨在解决现有技术的如上技术问题。

下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。

图1为本申请实施例提供的一种文本摘要生成方法的应用场景示意图,如图1所示,该应用场景中包括终端101和服务器102,服务器102可以从终端101中获取待生成摘要的文本,然后服务器102对文本进行切分,得到各个摘要组成要素分别对应的文本内容;针对每个摘要组成要素对应的文本内容,对文本内容进行抽取,得到文本内容对应的候选语句集;最后,对各个文本内容分别对应的候选语句集进行组合,生成文本对应的文本摘要,并将文本摘要发送给终端101。

上述应用场景中,是由服务器执行文本摘要生成的任务,在其他应用场景中,可以由终端来执行。本领域技术人员可知,上述示例并不对本申请的文本摘要生成方法的应用场景进行限制。

其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端(也可以称为用户终端或用户设备)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR/VR设备等,但并不局限于此。

图2为本申请实施例提供的一种文本摘要生成方法的流程示意图,如图2所示,该方法包括:

步骤S201,获取待生成摘要的文本。

具体地,待生成摘要的文本可以是电子文档,例如word文档(文字处理器word使用的文档)、xml(Extentsible Markup Language,可扩展标记语言)文档、txt文档(文件文档)等;待生成摘要的文本也可以是将纸质文本通过OCR(Optical Character Recognition,光学字符识别)获取的文本数据,本申请实施例对此不做限定。

待生成摘要的文本可以为具有规范结构的长文本,例如科技论文或科技报告等,本申请实施例以及后续实施例均以文本为科技论文作为示例进行说明,但上述示例并不构成对本申请中文本的类型的限制。

步骤S202,对文本进行切分,得到各个摘要组成要素分别对应的文本内容。

具体地,文本摘要一般具有特定的结构,以科技论文为例,科技论文中摘要部分主要包括三个部分,第一部分介绍研究的目的或意义,第二部分介绍研究中具体实验的方法或过程,第三部分介绍研究的结果或结论,也就是说,文本摘要可以看作由多个摘要片段组成,而且每个摘要片段中的文本描述的是同一方面的内容。

根据文本摘要的结构特点,可以预先设置多个摘要组成要素,一个摘要组成要素可以对应一个摘要片段,摘要组成要素可以用于表征对应摘要片段的文本内容的特性。

结合上文中的示例,科技论文对应的文本摘要可以包括三个摘要组成要素,第一摘要组成要素表示对应的摘要片段描述的是关于目的或意义的内容,第二摘要组成要素表示对应的摘要片段描述的是关于方法或过程的内容,第三摘要组成要素表示对应的摘要片段描述的是关于结果或结论的内容。

需要说明的是,对于不同类型的文本,对应的文本摘要的结构是不同的,可以根据待生成摘要的文本的类型,适应性地设置多个摘要组成要素,本申请实施例对摘要组成要素的具体设置不做限定。

在确定出多个摘要组成要素之后,可以根据多个摘要组成要素,对文本进行切分,得到各个摘要组成要素分别对应的文本内容。其中,一个摘要组成要素对应的文本内容可以为与该摘要组成要素相关的内容,文本内容可以为文本的一个组成单元,文本内容可以包括一个或多个文本段。

可以基于正则表达式或神经网络模型对文本进行切分,本申请实施例对文本切分的具体方式不做限定。

基于神经网络模型对文件进行切分的步骤可以包括:首先,基于神经网络构建初始模型,并获取多个样本文本,确定出每个样本文本包括的多个样本文本内容及其对应的多个样本摘要组成要素;然后,将得到的多个样本文本内容及其对应的多个样本摘要组成要素输入至初始模型进行训练,通过初始模型基于多个样本文本内容确定多个样本文本内容对应的预测摘要组成要素,基于初始模型输出的多个预测摘要组成要素,与多个样本摘要组成要素,可以确定初始模型的损失函数。

基于损失函数不断调整初始模型的参数,直至满足模型训练结束条件,将训练好的初始模型作为用于文本切分的模型。

其中,训练结束条件可以为损失函数收敛,例如,损失函数小于设定值或者连续设定次数计算得到损失函数均小于设定值;训练结束条件也可以为训练次数达到预设次数,本申请实施例对此不做限定。

步骤S203,针对每个摘要组成要素对应的文本内容,对文本内容进行抽取,得到文本内容对应的候选语句集。

具体地,在确定各个摘要组成要素对应的文本内容之后,针对每个摘要组成要素对应的文本内容,可以从该文本内容中抽取出至少一个候选语句,候选语句可以为对应文本内容中用于表征文本内容的关键信息的语句,并将至少一个候选语句组成的集合作为该文本内容对应的候选语句集。

其中,可以采用抽取式摘要算法对文本内容进行抽取,例如TextRank(一种文本处理算法)、BM25算法(一种文本处理算法)等。

可选地,针对M个文本内容,其中M为大于1的整数,可以对M个文本内容依次执行M次抽取操作,即一次对一个文本内容进行抽取。

也可以对M个文本内容依次执行N次抽取操作,其中N为小于M且大于0的整数,即对至少两个文本内容同时进行抽取。例如M为4,将4个文本内容分为两组,分别依次对每一组同时进行抽取,即先后执行两次抽取操作完成对四个文本内容的抽取;又例如,对M个文本内容同时进行抽取,即执行一次抽取操作完成对所有文本内容的抽取。此时,通过对至少两个文本内容同时进行抽取,对部分或全部文本内容采用并行处理的方式,提高了数据处理的效率。

步骤S204,对各个文本内容分别对应的候选语句集进行组合,生成文本对应的文本摘要。

具体地,为保证文本摘要的语句通顺,在得到各个文本内容分别对应的候选语句集之后,可以对各个候选语句集进行排序和重组,将调整后的各个候选语句集构成的文本作为最终生成的文本摘要。

本申请实施例中,通过预先设置多个摘要组成要素,并将多个摘要组成要素作为文本切分的依据,将文本摘要自身的结构特点作为先验信息,有目的性地对文本进行切分,使得生成的文本摘要能够满足摘要这种文本类型的特定要求,提高了文本摘要的质量。

此外,通过对文本进行切分,得到各个摘要组成要素分别对应的文本内容,将对文本的处理转化为对文本内容的处理,文本内容是文本的一个组成单元,即将对长文本的处理转换为对短文本的处理,避免了算法因待处理文本篇幅过长导致的迭代过程长、效率低的问题,能够对篇幅较长的文本进行有效处理;而且保证了得到的候选语句的质量,进一步提高了文本摘要的质量。

作为一种可选实施例,步骤S202中对文本进行切分,得到各个摘要组成要素分别对应的文本内容,包括:

确定文本中的子标题所属的摘要组成要素;

将子标题所属的摘要组成要素作为子标题对应的文本段所属的摘要组成要素;

针对每个摘要组成要素,将摘要组成要素对应的至少一个文本段组合为摘要组成要素对应的文本内容。

具体地,待生成摘要的文本可以具有规范的结构,例如科技论文的结构通常是一个线性序列,依次包括:主题、目的、背景、方法、实验结果、结论、有待解决的问题等部分。

文本可以包括多个有序排列的子标题,子标题可以为文本的目录中级别最高的标题,例如章节标题,当存在多个级别的章节标题时,子标题可以为级别最高的章节标题,例如一级章节标题。

每个子标题可以对应若干个文本段,一个文本段可以为文本中的一个自然段落。针对一个子标题,将该子标题作为当前子标题,将当前子标题与下一子标题之间的若干个文本段作为当前子标题对应的文本段。若当前子标题为最后一个子标题,则将当前子标题到正文末尾之间的若干个文本段作为最后一个子标题对应的文本段。

为对文本进行有目的性的切分,可以确定文本中的子标题所属的摘要组成元素,其中,文本中的子标题的格式与正文的格式通常是不同的,例如子标题可以是粗体、字号比正文更大,或子标题前面为数字等,可以根据子标题的特有格式先识别出文本中的各个子标题,再确定各个子标题分别对应的摘要组成要素;也可以同时确定出文本中的各个子标题,以及各个子标题分别对应的摘要组成要素。

随即,根据各个摘要组成要素,可以对各个子标题分别对应的文本段进行划分,针对一个子标题对应的文本段,将该子标题所属的摘要组成要素作为该子标题对应的文本段所属的摘要组成要素,最后将属于同一个摘要组成要素的至少一个文本段作为该摘要组成要素对应的文本内容。

作为一种可选实施例,确定文本中的子标题所属的摘要组成要素,包括:

采用各个摘要组成要素分别对应的正则表达式,识别出子标题所属的摘要组成要素。

具体地,可以采用正则表达式的方式确定出文本中子标题所属的摘要组成要素,正则表达式可以使用字符串来描述,用于匹配一系列符合某个规则的字符串。

可以预先确定出各个摘要组成要素分别对应的正则表达式,一个摘要组成要素对应的正则表达式用于匹配该摘要组成要素对应的子标题,一个摘要组成要素可以对应一个正则表达式,也可以对应多个正则表达式。

各个摘要组成要素分别对应的正则表达式可以是基于如下方式确定的:

针对每个摘要组成要素,获取摘要组成要素对应的多个特征词;

基于多个特征词,构建摘要组成要素对应的正则表达式。

具体地,针对每个摘要组成要素,可以获取该摘要组成要素对应的多个特征词,特征词可以为与对应的摘要组成要素相关的词语。

例如,当摘要组成要素为目的或意义时,对应的特征词包括但不限于:“引言”、“研究背景”、“概述”、“问题的提出”等;当摘要组成要素为方法或过程是,对应的特征词包括但不限于:“研究方法”、“模型”、“体系构建”、“架构构建”、“实验方案”、“模式”等;当摘要组成要素为结果或结论时,对应的特征词包括但不限于:“结论”、“总结”、“小结”、“讨论”、“启示”等。

其中,特征词可以是通过对与文本相同类型的大量其他文本进行归纳总结得到的,也可以根据文本的类型适应性地选取,本申请实施例对此不作限制。

针对每个摘要组成要素,确定出该摘要组成要素对应的多个特征词之后,可以根据这多个特征词,构建该摘要组成要素对应的正则表达式,正则表达式可以包含上述多个特征词中的至少一个。

利用各个摘要组成要素分别对应的正则表达式,识别出文本中各个子标题所属的摘要组成要素。其中,对于一个摘要组成要素对应的正则表达式,将与该正则表达式匹配的子标题作为属于该摘要组成要素的子标题。

此外,针对每个摘要组成要素,还可以根据该摘要组成要素对应的多个特征词,以及文本中子标题的格式,构建该摘要组成要素对应的正则表达式。

例如,正则表达式“^[0-9]+[.、]+s+引言$”可以匹配到文本中“0.引言”、“1、引言”的内容,利用该正则表达式可以筛选出以0至9中任意数字开头,且包含“引言”这个特征词的词句,即一次性地识别出文本中子标题所属的摘要组成要素。

本申请实施例中,采用各个摘要组成要素分别对应的正则表达式,识别出子标题所属的摘要组成要素,充分利用了文本的结构的规范性,避免了采用机器学习或深度学习算法需要建立训练数据集而带来的费用高、周期长、效果不佳等问题,提高了文本摘要生成的效率。

作为一种可选实施例,步骤S203中对文本内容进行抽取,得到文本内容对应的候选语句集,包括:

对文本内容进行分句处理,得到文本内容对应的多个语句;

确定各个语句分别对应的权重;权重用于表征语句的重要程度;

根据各个语句分别对应的权重,从各个语句中抽取出多个候选语句,将多个候选语句的集合作为候选语句集。

具体地,针对每个摘要组成要素对应的文本内容,首先可以对文本内容进行分句处理,得到对应的多个语句,其中,一个语句可以为以特定的标点符号为结尾的完整的语句,特定的标点符号可以包括句号、分号、问号等。特定的标点符号可以根据文本的类型进行对应调整,例如感叹号、省略号在科技论文中不常见,当文本为科技论文时,特定的标点符号可以将感叹号、省略号等符号排除在外。

然后对各个语句进行向量表示,得到各个语句分别对应的句向量,并根据各个句向量,确定各个语句分别对应的权重,其中,一个语句对应的权重用于表征该语句的重要程度,权重越大,该语句越重要,即该语句包含文本的关键信息的可能性越高,则选取该语句生成文本摘要的概率越大。

可选地,针对每个语句,可以基于训练好的句向量模型,例如神经网络模型,确定语句对应的句向量;还可以通过对语句进行分词处理,得到该语句包含的各个词语,通过词向量库确定出各个词语分别对应的词向量,将各个词向量进行融合,例如可以对各个词向量取平均或者加权,得到该语句的句向量,本申请实施例对句向量的确定方式不作限定。

可以通过以下步骤构建词向量库:采集大量与文本同类型的第一文本,对每个第一文本进行分词,得到大量词语,利用训练好的词向量模型,得到每一个词的词向量,利用各个词语的词向量构建词向量库。

其中,词向量模型可以为Word2vec(word to vector,词转向量)模型,可以使用CBOW(连续词袋模型,continuous bag of words)或Skip-Gram(跳字模型)的训练方式进行训练;词向量模型还可以是基于GloVe(global vectors for word representation,基于全局词频统计的词表征)算法或者ELMO(Embedding from Language Model,基于语言模型的词嵌入)算法等构建。此外,还可以利用词向量的判别评价指标对不同的词向量模型生成的词向量库进行筛选,得到表征能力更好的词向量库。

最后可以根据各个语句分别对应的权重,按照从大到小的顺序对各个语句进行排序,将排序靠前的预设数量个语句作为候选语句,并将得到的多个候选语句的集合作为该文本内容对应的候选语句集。

其中,预设数量可以根据实际需求进行设置,可以对于各个的文本内容设置相同的预设数量,也可以对于不同的文本内容设置不同的预设数量,本申请实施例对此不作限制。

作为一种可选实施例,确定各个语句分别对应的权重,包括:

针对每个语句,基于预设的调整系数扩大语句的第一关键词相关系数,生成第二关键词相关系数;

基于第二关键词相关系数和语句的语句相似度,确定语句对应的权重;

其中,第一关键词相关系数用于表征语句与文本的关键词之间的相关程度;

语句相似度用于表征语句与其他语句之间的相似程度;其他语句为语句对应的文本内容中除语句之外的语句。

具体地,文本中关键词可以反映该文本的主旨或者主题,在计算语句对应的权重时可以考虑该语句与文本的关键词的相关性。

文本的关键词可以为多个,文本的关键词可以是预先给定的,也可以是从文本中抽取得到的,本申请实施例对此不作限定。

在确定文本的关键词之后,可以根据关键词在语句中出现的次数与该语句包含的词语的总数,确定该语句的第一关键词相关系数。第一关键词相关系数用于表征语句与文本的关键词之间的相关程度,即第一关键词相关系数越大,该语句与文本的关键词的相关性越高。

具体可以通过如下公式计算第一关键词相关系数:

式中,ρ(s

N(s

本申请实施例中,在第一关键词相关系数的基础上,新增了预设的调整系数,通过预设的调整系数来扩大第一关键词相关系数,得到第二关键词相关系数,即第二关键词系数的数值比第一关键词相关系数大。例如,可以通过将调整系数与第一关键词相关系数相乘来确定第二关键词相关系数,也可以通过将调整系数与第一关键词相关系数相加来确定第二关键词相关系数,本申请实施例对此不作限定。

同时,还可以根据语句与其文本内容中其他语句之间的相似程度,确定该语句的语句相似度,并根据语句的第二关键词相关系数以及语句相似度,确定该语句对应的权重。其中,其他语句为该语句所在的文本内容中除该语句之外的语句。

本申请实施例中,通过设置调整系数来扩大第一关键词相关系数,即扩大了包含关键词的语句的重要程度,让包含关键词的语句对应的权重更大,被抽取出为组成摘要的候选语句的可能性更大,使得生成的文本摘要更能反映出文本的主旨,提高了文本摘要的质量。

作为一种可选实施例,基于第二关键词相关系数和语句的语句相似度,确定语句对应的权重,包括:

将预设的初始系数与第二关键词相关系数之和作为相似度系数;

基于相似度系数与语句的语句相似度,确定语句对应的权重。

具体地,可以预先设置初始系数,将初始系数与第二关键词相关系数之和作为相似度系数,并基于相似度系数与语句的相似度,计算出语句对应的权重。

可以通过调整系数对TextRank算法进行改进来计算语句的权重,在计算权重之前,可以确定出文本内容中的各个语句,并将每个语句作为一个结点,将任意两个语句之间的相似度作为这两个语句之间的边的权重,构建无向图。若任意两个语句不是相似的,例如这两个语句之间的相似度为0或小于预设值,则可以不连接这两个语句对应的结点。

可以基于如下公式计算语句的权重:

W(s

其中,W(s

ρ(s

作为一种可选实施例,步骤S204中对各个文本内容分别对应的候选语句集进行组合,生成所述文本对应的摘要,包括:

针对每个文本内容对应的候选语句集,按照候选语句集中各个候选语句在文本内容中的出现顺序,对各个候选语句进行排序,将排序好的各个候选语句构成的文本作为文本内容对应的摘要片段;

按照各个文本内容分别对应的摘要组成要素的次序,对各个文本内容分别对应的摘要片段进行排序,将排序好的各个摘要片段构成的文本作为文本对应的摘要。

具体地,为保证生成的文本摘要的语句通顺,需要候选语句集中各个候选语句的语序重新进行组织。可以根据候选语句集中各个候选语句在文本内容中出现的先后顺序,对各个候选语句进行排序,将确定好顺序的各个候选语句组成的文本作为该文本内容对应的摘要片段。

文本摘要的各个摘要组成要素之间存在一定的逻辑顺序,例如科技论文的摘要通常是先介绍研究的目的或意义,再介绍研究的方法或过程,最后介绍研究的结果或结论。

可以按照各个文本内容分别对应的摘要组成要素的逻辑顺序,对各个文本分别对应的摘要片段进行排序,将确定好的顺序的各个摘要片段构成的文本作为最终生成的摘要。

本申请实施例中,通过对每个候选语句集中的各个候选语句的语序进行组织,以及对各个候选语句集的顺序进行组织,保证了文本摘要中各个语句之间的连贯性,提高了文本摘要的可读性。

图3为本申请实施例提供的一种论文文本摘要生成方法的流程示意图,本申请实施例提供的方法针对科技论文进行处理。

如图3所示,该方法包括以下步骤:

步骤1,word2vec词向量生成;

由于科技论文中词汇的分布与普通的语料不一致,为了更好地表达科技论文中词语的向量表示,利用收集的大规模论文数据集,采用CBOW模型、SkipGram模型分别训练得到word2vec词向量模型,形成word2vec词向量库。

步骤2,文本切分;

根据科技论文的摘要的结构特点,设置三个摘要组成要素,第一摘要组成要素表示与目的或意义有关的内容,第二摘要组成要素表示与方法或过程有关的内容,第三摘要组成要素表示与结果或结论有关的内容。

通过归纳科技论文中章节标题的特点,归纳出一些特征词,根据这些特征词为这三个摘要组成要素分别制定对应的三个正则表达式,其中第一正则表达式用于匹配第一摘要组成要素相关的章节标题,第二正则表达式用于匹配第二摘要组成要素相关的章节标题,第三正则表达式用于匹配第三摘要组成要素的章节标题。

采用制定的三个正则表达式,将含有“引言”、“研究背景”、“概述”、“问题的提出”等特征词的章节标题对应的内容识别为第一摘要组成要素对应的文本内容;将含有“研究方法”、“模型”、“体系构建”、“架构构建”、“实验方案”、“模式”等特征词的章节标题对应的内容识别为第二摘要组成要素对应的文本内容;将含有“结论”、“总结”、“小结”、“讨论”、“启示”等特征词的章节标题对应的内容识别为第三摘要组成要素对应的文本内容。

将论文正文文本的开始处标记为“正文内容开始”,而“参考文献”或“附录”的开始处标记为“正文内容结束”,中间标记为“第一文本内容”、“第二文本内容”、“第三文本内容”,分别对应第一摘要组成要素、第二摘要组成要素和第三摘要组成要素,这样两个标记之间的段落就属于某个摘要组成要素。一般情况下,处于“第一文本内容”和“第二文本内容”之间的段落作为第一摘要组成要素对应的文本内容;处于“第二文本内容”和“第三文本内容”之间的段落作为第二摘要组成要素对应的文本内容;处于“第三文本内容”和“正文内容结束”之间的段落作为第三摘要组成要素对应的文本内容。如果一个论文缺失“第一文本内容”,则一般取“正文内容开始”和“第二文本内容”之间的段落作为第一摘要组成要素对应的文本内容。

进一步,将每一个摘要组成要素对应的文本内容中包含的表格、图片、公式等内容删除,将保留下的文本进行句子切分,得到与第一摘要组成要素、第二摘要组成要素和第三摘要组成要素分别对应的第一语句集合、第二语句集合和第三语句集合。

步骤3,语句相似度计算;

图4为本申请实施例提供的一种句向量确定方法的流程示意图,如图4所示,针对一个语句,对语句进行分词,得到该语句包括的各个词语,利用步骤1中预先构建的word2vec词向量库,得到各个词语对应的词向量,并采用平均向量法对各个词向量进行处理,得到语句的句向量。

然后就可以采用余弦相似度公式计算两个语句的词向量之间的语句相似度,计算第一语句集合、第二语句集合和第三语句集合中的任意两个句子之间的语句相似度。

步骤4,语句与关键词的相关性计算;

获取文本的多个关键词,根据关键词在语句中出现的次数与该语句的总词数之比来计算表征语句与关键词的相关性的第一关键词相关系数,根据预设的调整系数来扩大语句的第一关键词相关系数,得到语句的第二关键词相关系数。其中,第一关键词相关系数的具体计算公式可以参见上文,此处不再赘述。

步骤5,语句的权重计算;

对于每个摘要组成要素对应的文本内容中的语句,基于语句的语句相似度以及语句的第二关键词相关系数,使用改进的TextRank算法获得每个语句的权重,语句的权重的具体计算公式可以参见上文,此处不再赘述。

步骤6,语句筛选;

对于每个摘要组成要素对应的文本内容中的语句,按照语句权重大小排序,选择排序靠前的k个句子构建候选语句集。考虑到科技论文的摘要篇幅不宜过长,参数k的确定一般设置为2,也可以根据实际需要进行调整。

此外,还可以过滤掉那些排序靠前但不可能是摘要内容的语句,例如句法结构为疑问句、感叹句的语句,包含了贬义词的语句等。

步骤7,语句组织;

对于每个候选语句集中各个候选语句,按照各个候选语句在论文中的出现顺序,对各个候选语句进行排序;对于各个候选语句集,按照各个候选语句集分别对应的摘要组成要素,按照第一摘要组成要素、第二摘要组成要素和第三摘要组成要素的顺序,对各个候选语句集进行排序。

将经过调整之后的各个候选语句集组合为最终的科技论文的文本摘要。

本申请实施例提供的方法可以处理长文本,能快速地形成较高质量的摘要,更准确地把握论文的主旨,辅助科研人员快速地撰写摘要,减轻科研人员的工作负担。

通过将长文本的科技论文划分为“目的/意义”、“方法/过程”、“结果/结论”三个摘要组成要素分别对应的文本内容,然后针对每一个文本内容抽取关键句子,避免了采用全部文本带来的迭代过程长、效率低问题,也避免了采用机器学习或深度学习算法对句子分类需要建立训练数据集而带来的费用高、周期长、效果不佳问题。

与普通文本的摘要不同,科技论文摘要有较为认可的结构,本申请实施例提供的方法充分利用科技论文的摘要的结构特点,将整篇论文的内容划分为“目的/意义”、“方法/过程”、“结果/结论”三个摘要组成要素分别对应的文本内容,然后分别从中抽取关键句子,按照文中出现的先后顺序组成摘要,使得生成的摘要结果符合科技论文摘要的基本要求,效果更好。

通过引入调整系数加大了语句与关键词相关性对语句的重要程度的影响,使得改进后的TextRank算法能将重要的主题句挑选出来,提升了自动生成的摘要的质量。

图5为本申请实施例提供的一种文本摘要生成装置的结构示意图,如图5所示,本实施例的装置可以包括:

文本获取模块301,用于获取待生成摘要的文本;

文本切分模块302,用于对所述文本进行切分,得到各个摘要组成要素分别对应的文本内容;

候选语句集确定模块303,用于针对每个摘要组成要素对应的文本内容,对所述文本内容进行抽取,得到所述文本内容对应的候选语句集;

摘要生成模块304,用于对各个文本内容分别对应的候选语句集进行组合,生成所述文本对应的摘要。

作为一种可选实施例,文本切分模块302包括:

子标题摘要组成要素确定子模块,用于确定所述文本中的子标题所属的摘要组成要素;

文本段摘要组成要素确定子模块,用于将所述子标题所属的摘要组成要素作为所述子标题对应的文本段所属的摘要组成要素;

文本内容确定子模块,用于针对每个摘要组成要素,将所述摘要组成要素对应的至少一个文本段组合为所述摘要组成要素对应的文本内容。

作为一种可选实施例,子标题摘要组成要素确定子模块,具体用于:

采用各个摘要组成要素分别对应的正则表达式,识别出所述子标题所属的摘要组成要素。

作为一种可选实施例,该装置还包括正则表达式确定模块,用于:

针对每个摘要组成要素,获取所述摘要组成要素对应的多个特征词;

基于所述多个特征词,构建所述摘要组成要素对应的正则表达式。

作为一种可选实施例,候选语句集确定模块303包括:

分句子模块,用于对所述文本内容进行分句处理,得到所述文本内容对应的多个语句;

语句权重确定子模块,用于确定各个语句分别对应的权重;所述权重用于表征所述语句的重要程度;

候选语句抽取子模块,用于根据所述各个语句分别对应的权重,从所述各个语句中抽取出多个候选语句,将所述多个候选语句的集合作为候选语句集。

作为一种可选实施例,语句权重确定子模块,包括:

第一计算单元,用于针对每个语句,基于预设的调整系数扩大所述语句的第一关键词相关系数,生成第二关键词相关系数;

第二计算单元,用于基于所述第二关键词相关系数和所述语句的语句相似度,确定所述语句对应的权重;

其中,所述第一关键词相关系数用于表征所述语句与所述文本的关键词之间的相关程度;

所述语句相似度用于表征所述语句与其他语句之间的相似程度;所述其他语句为所述语句对应的文本内容中除所述语句之外的语句。

作为一种可选实施例,第二计算单元,具体用于:

将预设的初始系数与所述第二关键词相关系数之和作为相似度系数;

基于所述相似度系数与所述语句的语句相似度,确定所述语句对应的权重。

作为一种可选实施例,摘要生成模块304具体用于:

针对每个文本内容对应的候选语句集,按照所述候选语句集中各个候选语句在所述文本内容中的出现顺序,对所述各个候选语句进行排序,将排序好的各个候选语句构成的文本作为所述文本内容对应的摘要片段;

按照所述各个文本内容分别对应的摘要组成要素的次序,对所述各个文本内容分别对应的摘要片段进行排序,将排序好的各个摘要片段构成的文本作为所述文本对应的摘要。

本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。

本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现上述文本摘要生成方法的步骤,与相关技术相比可实现:通过预先设置多个摘要组成要素,并将多个摘要组成要素作为文本切分的依据,将文本摘要自身的结构特点作为先验信息,有目的性地对文本进行切分,使得生成的文本摘要能够满足摘要这种文本类型的特定要求,提高了文本摘要的质量。

此外,通过对文本进行切分,得到各个摘要组成要素分别对应的文本内容,将对文本的处理转化为对文本内容的处理,文本内容是文本的一个组成单元,即将对长文本的处理转换为对短文本的处理,避免了算法因待处理文本篇幅过长导致的迭代过程长、效率低的问题,能够对篇幅较长的文本进行有效处理;而且保证了得到的候选语句的质量,进一步提高了文本摘要的质量。

在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

相关技术
  • 视频摘要生成方法、装置、存储介质和电子设备
  • 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
  • 一种文本标识的方法、装置、电子设备及存储介质
  • 文本属性字段的匹配方法、装置、电子设备及存储介质
  • 文本分析方法、装置、电子设备及可读存储介质
  • 一种文本摘要的生成方法及装置、电子设备、存储介质
  • 一种文本摘要的生成方法、装置、电子设备及存储介质
技术分类

06120115926497