掌桥专利:专业的专利平台
掌桥专利
首页

文本摘要生成方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 16:06:26



技术领域

本申请涉及人工智能技术领域,尤其涉及一种文本摘要生成方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展,采用计算机进行自然语言处理变得越来越常见。在日常工作中,通过计算机自动实现文本摘要生成是人们从冗长的文本中快速获得核心信息的重要方法。

生成式摘要是目前自动文本摘要的重要技术路线,采用神经网络对原始文本进行处理,生成较短的文本序列作为最后的文本摘要。但是采用神经网络生成文本摘要,需要预先对神经网络进行训练;为了保持神经网络生成文本摘要的准确性,需要投入大量的训练开销,导致生成文本摘要的效率较低。

发明内容

本申请实施例的目的在于提出一种文本摘要生成方法、装置、计算机设备及存储介质,以解决文本摘要生成效率较低的问题。

为了解决上述技术问题,本申请实施例提供一种文本摘要生成方法,采用了如下所述的技术方案:

获取原始文本;

基于预设的信息量计算算法计算所述原始文本中各语句的信息量,以根据所述信息量和预设的信息量差值条件对所述各语句进行筛选,得到至少一个摘要候选语句集合;

获取退火温度以及衰减率;

从各摘要候选语句集合中分别随机选取候选语句,得到第一文本摘要,并从所述各摘要候选语句集合中分别随机选取候选语句,得到摘要新解;

根据所述第一文本摘要与所述摘要新解计算目标函数差,以基于所述目标函数差、所述第一文本摘要和所述摘要新解生成第二文本摘要,并根据所述衰减率更新所述退火温度;

将所述第二文本摘要作为下一轮的第一文本摘要进行迭代,直至所述退火温度满足预设的退火停止条件,得到最后一轮迭代的第二文本摘要;

将所述最后一轮迭代的第二文本摘要确定为所述原始文本的文本摘要。

为了解决上述技术问题,本申请实施例还提供一种文本摘要生成装置,采用了如下所述的技术方案:

文本获取模块,用于获取原始文本;

语句筛选模块,用于基于预设的信息量计算算法计算所述原始文本中各语句的信息量,以根据所述信息量和预设的信息量差值条件对所述各语句进行筛选,得到至少一个摘要候选语句集合;

退火获取模块,用于获取退火温度以及衰减率;

语句筛选模块,用于从各摘要候选语句集合中分别随机选取候选语句,得到第一文本摘要,并从所述各摘要候选语句集合中分别随机选取候选语句,得到摘要新解;

摘要生成模块,用于根据所述第一文本摘要与所述摘要新解计算目标函数差,以基于所述目标函数差、所述第一文本摘要和所述摘要新解生成第二文本摘要,并根据所述衰减率更新所述退火温度;

摘要迭代模块,用于将所述第二文本摘要作为下一轮的第一文本摘要进行迭代,直至所述退火温度满足预设的退火停止条件,得到最后一轮迭代的第二文本摘要;

摘要确定模块,用于将所述最后一轮迭代的第二文本摘要确定为所述原始文本的文本摘要。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

获取原始文本;

基于预设的信息量计算算法计算所述原始文本中各语句的信息量,以根据所述信息量和预设的信息量差值条件对所述各语句进行筛选,得到至少一个摘要候选语句集合;

获取退火温度以及衰减率;

从各摘要候选语句集合中分别随机选取候选语句,得到第一文本摘要,并从所述各摘要候选语句集合中分别随机选取候选语句,得到摘要新解;

根据所述第一文本摘要与所述摘要新解计算目标函数差,以基于所述目标函数差、所述第一文本摘要和所述摘要新解生成第二文本摘要,并根据所述衰减率更新所述退火温度;

将所述第二文本摘要作为下一轮的第一文本摘要进行迭代,直至所述退火温度满足预设的退火停止条件,得到最后一轮迭代的第二文本摘要;

将所述最后一轮迭代的第二文本摘要确定为所述原始文本的文本摘要。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

获取原始文本;

基于预设的信息量计算算法计算所述原始文本中各语句的信息量,以根据所述信息量和预设的信息量差值条件对所述各语句进行筛选,得到至少一个摘要候选语句集合;

获取退火温度以及衰减率;

从各摘要候选语句集合中分别随机选取候选语句,得到第一文本摘要,并从所述各摘要候选语句集合中分别随机选取候选语句,得到摘要新解;

根据所述第一文本摘要与所述摘要新解计算目标函数差,以基于所述目标函数差、所述第一文本摘要和所述摘要新解生成第二文本摘要,并根据所述衰减率更新所述退火温度;

将所述第二文本摘要作为下一轮的第一文本摘要进行迭代,直至所述退火温度满足预设的退火停止条件,得到最后一轮迭代的第二文本摘要;

将所述最后一轮迭代的第二文本摘要确定为所述原始文本的文本摘要。

与现有技术相比,本申请实施例主要有以下有益效果:基于预设的信息量计算算法计算原始文本中各语句的信息量,以根据预设的信息量差值条件对各语句进行筛选,得到多个摘要候选语句集合,各集合中的候选语句在信息量上较为接近;从各集合中随机选取候选语句,得到第一文本摘要,再从各集合中随机选取候选语句,得到摘要新解;本申请通过模拟退火算法生成文本摘要,需要计算目标函数差,目标函数差是基于第一文本摘要和摘要新解计算出的模拟退火算法中目标函数的差值,根据目标函数差确定第二文本摘要,并根据衰减率更新退火温度,从而实现文本摘要的一次迭代;然后将第二文本摘要作为下一轮的第一文本摘要进行迭代,直至退火温度满足预设的退火停止条件,最后一轮迭代得到的第二文本摘要被确定为原始文本的文本摘要;本申请通过模拟退火算法对原始文本进行抽取生成文本摘要,相较于通过神经网络生成文本摘要,本申请减少了计算开销,提高了文本摘要的生成效率。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的文本摘要生成方法的一个实施例的流程图;

图3是根据本申请的文本摘要生成装置的一个实施例的结构示意图;

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的文本摘要生成方法一般由服务器执行,相应地,文本摘要生成装置一般设置于服务器中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的文本摘要生成方法的一个实施例的流程图。所述的文本摘要生成方法,包括以下步骤:

步骤S201,获取原始文本。

在本实施例中,文本摘要生成方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地,首先获取原始文本,原始文本中包含多个语句,本申请旨在生成原始文本的摘要文本。

步骤S202,基于预设的信息量计算算法计算原始文本中各语句的信息量,以根据信息量和预设的信息量差值条件对各语句进行筛选,得到至少一个摘要候选语句集合。

具体地,分别计算原始文本中各语句的信息量。信息量是语句中信息多少的度量。本申请按照预设的信息量计算算法计算信息量。计算出各语句的信息量后,对各语句进行筛选与组合,得到至少一个摘要候选语句集合。其中,在对各语句进行筛选时,部分语句可以被舍弃。

每个摘要候选语句集合中包含至少一个候选语句,同一个摘要候选语句集合中的任意两个候选语句的信息量存在信息量差值,该信息量差值满足预设的信息量差值条件。

步骤S203,获取退火温度以及衰减率。

具体地,本申请通过模拟退火算法生成摘要文本。模拟退火算法(Simulatedannealing algorithm)来源于固体退火原理,是一种基于概率的算法。

模拟退火算法来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。根据Metropolis接受准则,粒子在温度T时趋于平衡的概率为e(-ΔE/kT),其中E为温度T时的内能,ΔE为其改变量,k为Boltzmann常数。用固体退火模拟组合优化问题,将内能E模拟为目标函数值f,温度T演化成控制参数t,即得到解组合优化问题的模拟退火算法:由初始解i和控制参数初值t(退火温度)开始,对当前解重复“产生新解、计算目标函数差、接受或拒绝”的迭代,并逐步衰减t值,算法终止时的当前解即为所得近似最优解。退火过程由冷却进度表控制,包括控制参数的初值t(即本申请中的退火温度)及其衰减因子Δt(本申请中的衰减率)、每个t值时的迭代次数L和停止条件S。

本申请在运行模拟退火算法之前,需要先获取初始化的退火温度以及衰减率。

步骤S204,从各摘要候选语句集合中分别随机选取候选语句,得到第一文本摘要,并从各摘要候选语句集合中分别随机选取候选语句,得到摘要新解。

具体地,首先需要生成一个初始化的文本摘要。从各摘要候选语句集合中分别随机性地选取一个候选语句,得到初始化的第一文本摘要;初始化的第一文本摘要是模拟退火算法中初始化的当前解。

根据模拟退火算法,每次迭代中还需要获取一个新解,即摘要新解。从各摘要候选语句集合中分别随机选取一个候选语句,得到摘要新解。

步骤S205,根据第一文本摘要与摘要新解计算目标函数差,以基于目标函数差、第一文本摘要和摘要新解生成第二文本摘要,并根据衰减率更新退火温度。

具体地,模拟退火算法中存在目标函数,本申请中,基于第一文本摘要和摘要新解计算目标函数的函数值。其中,可以根据作为当前解的第一文本摘要计算第一目标函数值;根据第一摘要和摘要新解计算第二目标函数值。

可以由第二目标函数值减去第一目标函数值,得到目标函数差。

基于模拟退火算法对目标函数差进行判定,可以接受摘要新解作为第二文本摘要,或者舍弃得到的摘要新解,将第一文本摘要作为第二文本摘要。第二文本摘要是进行过一次迭代后,得到的当前解。

衰减率β的取值为0<β<1。在生成第二文本摘要后,根据衰减率β对退火温度Tem进行衰减,从而更新退火温度,完成本次迭代。

步骤S206,将第二文本摘要作为下一轮的第一文本摘要进行迭代,直至退火温度满足预设的退火停止条件,得到最后一轮迭代的第二文本摘要。

具体地,本申请需要进行多轮迭代。在进行下一轮迭代时,将上一轮得到的第二文本摘要作为新的第一文本摘要,然后从各摘要候选语句集合中分别随机选取一个候选语句得到新的摘要新解。根据上述新的第一文本摘要和新的摘要新解计算目标函数差,以生成新的第二文本摘要,并计算出新的退火温度。

如此循环,直至新计算出的退火温度满足预设的退火停止条件,则退出迭代,得到最后一轮迭代输出的第二文本摘要。

在一个实施例中,退火停止条件可以是退火温度低于预设的温度阈值。

步骤S207,将最后一轮迭代的第二文本摘要确定为原始文本的文本摘要。

具体地,停止迭代后,将最后一轮迭代生成的第二文本摘要作为原始文本的文本摘要。

本实施例中,基于预设的信息量计算算法计算原始文本中各语句的信息量,以根据预设的信息量差值条件对各语句进行筛选,得到多个摘要候选语句集合,各集合中的候选语句在信息量上较为接近;从各集合中随机选取候选语句,得到第一文本摘要,再从各集合中随机选取候选语句,得到摘要新解;本申请通过模拟退火算法生成文本摘要,需要计算目标函数差,目标函数差是基于第一文本摘要和摘要新解计算出的模拟退火算法中目标函数的差值,根据目标函数差确定第二文本摘要,并根据衰减率更新退火温度,从而实现文本摘要的一次迭代;然后将第二文本摘要作为下一轮的第一文本摘要进行迭代,直至退火温度满足预设的退火停止条件,最后一轮迭代得到的第二文本摘要被确定为原始文本的文本摘要;本申请通过模拟退火算法对原始文本进行抽取生成文本摘要,相较于通过神经网络生成文本摘要,本申请减少了计算开销,提高了文本摘要的生成效率。

进一步的,上述步骤S202可以包括:基于预设的信息量计算算法计算原始文本中各语句的信息量;在原始文本中选取信息量大于预设的信息量阈值的语句,得到各候选语句;根据预设的信息量差值条件对各候选语句进行分组,得到至少一个摘要候选语句集合。各摘要候选语句集合中,任意两个候选语句的信息量差值处于信息量差值区间内。

具体地,先根据本申请设置的信息量计算算法计算原始文本中各语句的信息量。然后获取预设的信息量阈值,将各语句的信息量与信息量阈值相比较,保留信息量大于信息量阈值的语句,其他语句可以予以舍弃。

对于保留下来的语句,根据信息量差值条件对其进行分组,得到至少一个摘要候选语句集合。摘要候选语句集合内包含至少一个候选语句,任意两个候选语句的信息量可以计算出信息量差值,信息量差值满足信息量差值条件。其中,信息量差值条件可以是一个预先设置好的信息量差值区间[T

本实施例中,先计算各语句的信息量,根据信息量阈值舍弃信息量较少、语义价值较低的语句;然后根据信息量差值条件对留下的语句进行分组,得到至少一个摘要候选语句集合,集合内任意两个候选语句的信息量差值处于信息量差值区间内,使得各集合中的候选语句信息量较为接近。

进一步的,上述基于预设的信息量计算算法计算原始文本中各语句的信息量的步骤可以包括:对于原始文本中的每个语句,识别语句中各分词的词性类型,得到词性类型数量;识别语句中的命名实体及其对应的实体类型,得到命名实体类型数量;识别语句的句法成分,得到句法成分类型数量;根据词性类型数量、命名实体类型数量以及句法成分类型数量计算语句的信息量。

具体地,本申请从原始文本中语句的词性类型、命名实体类型和句法成分类型三个维度计算语句的有效信息量。

首先,对于原始文本中的各语句,对语句进行分词,然后对各分词进行词性标注得到各分词的词性类型,词性类型可以包括名词、动词、介词等。统计各语句包含多少种词性类型,得到词性类型数量。

对各语句进行命名实体识别得到各语句中的命名实体,命名实体可以包括地名、人名、组织机构名和时间等实体类型。统计各语句包含多少种命名实体类型,得到命名实体类型数量。

对各语句进行句法分析,识别各语句的句法成分,句法成分包括主语、谓语、宾语等句法成分类型。统计各语句包含多少种句法成分类型,得到句法成分类型数量。

根据得到的词性类型数量、命名实体类型数量以及句法成分类型数量,可以计算出各语句的信息量。

本实施例中,从语句所包含的词性类型、命名实体类型和句法成分类型三个维度计算信息量,全面地衡量了语句的语义价值。

进一步的,上述根据词性类型数量、命名实体类型数量以及句法成分类型数量计算语句的信息量的步骤可以包括:根据预设的权重算法确定词性类型数量、命名实体类型数量以及句法成分类型数量所对应的权重;对带有权重的词性类型数量、命名实体类型数量以及句法成分类型数量进行线性运算,得到语句的信息量。

具体地,词性类型数量N

然后,对带有权重的词性类型数量、命名实体类型数量以及句法成分类型数量进行线性运算,具体可以是将带有权重的词性类型数量、命名实体类型数量以及句法成分类型数量相加,得到信息量。

在一个实施例中,信息量I

I

其中,α、β、γ分别是基于层次分析法确定的词性类型数量、命名实体类型数量以及句法成分类型数量的权重。

本实施例中,通过权重算法确定词性类型数量、命名实体类型数量以及句法成分类型数量的权重,引入了词性类型数量、命名实体类型数量以及句法成分类型数量三者之间的差异,提升了信息量计算的准确性。

进一步的,上述根据第一文本摘要与摘要新解计算目标函数差,以基于目标函数差、第一文本摘要和摘要新解生成第二文本摘要的步骤可以包括:根据第一文本摘要的N-Gram信息计算第一目标函数值;基于第一文本摘要与摘要新解所构成并集的N-Gram信息,计算第二目标函数值;计算第二目标函数值和第一目标函数值的差值,得到目标函数差;基于预设的接受准则,根据目标函数差、第一文本摘要和摘要新解生成第二文本摘要。

其中,N-Gram信息可以是语句N-Gram构成相关的信息。

具体地,目标函数的第一目标函数值根据第一文本摘要进行计算,在计算时,需要对第一文本摘要中的候选语句进行N-Gram切分得到N-Gram信息,从而根据N-Gram信息计算第一目标函数值。计算目标函数的第二目标函数值时,生成第一文本摘要与摘要新解所构成的并集,对并集中的候选语句进行N-Gram切分得到N-Gram信息,从而根据N-Gram信息计算第二目标函数值。

N-Gram又叫做汉语语言模型(CLM,Chinese Language Model),它可以利用上下文中相邻词间的搭配信息。N-Gram切分又叫做N元切分,是指对文本语料依次进行相邻N个字符的分割或者划分,N通常是大于等于2的正整数,本申请中,N可以取2、3、4、5等。例如,对于2元切分,是指对文本语料依次进行相邻2个汉字的分割或者划分,对于文本语料“自然语言处理”进行N为2的N-Gram切分,可以得到的字符串为“自然”、“然语”、“语言”、“言处”以及“处理”。

可以由第二目标函数值减去第一目标函数值,得到目标函数差。第二文本摘要的生成涉及目标函数差、第一文本摘要和摘要新解。在确定第二文本摘要时,可以根据预设的接受准则确定是将第一文本摘要确定为第二文本摘要,还是接受摘要新解作为第二文本摘要。其中,接受准则可以是Metropolis接受准则。

本实施例中,根据语句的N-Gram信息计算目标函数的第一目标函数值与第二目标函数值,从而计算出目标函数差,从而根据模拟退火算法中的接受准则生成第二文本摘要,实现迭代。

进一步的,上述根据第一文本摘要的N-Gram信息计算第一目标函数值的步骤可以包括:对于第一文本摘要中的每个候选语句,对候选语句进行N-Gram切分,得到多个N-Gram词组;基于TextRank算法生成候选语句的参考语句;对参考语句进行N-Gram切分,得到多个N-Gram词组;根据候选语句的各N-Gram词组和参考语句的各N-Gram词组,计算候选语句的ROUGE-N值;计算第一文本摘要中各候选语句ROUGE-N值的平均值,得到第一文本摘要的第一目标函数值。

具体地,对于第一文本摘要的中的每个候选语句,对候选语句进行N-Gram切分,得到多个N-Gram词组。

然后,通过TextRank算法对候选语句进行处理,生成候选语句的参考语句。其中,TextRank算法是一种用于文本的基于图的排序算法,可以用于关键词提取与摘要生成。它通过把文本分割成若干组成单元(例如句子或者词组),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算TextRank值,最后取排名最高的组成单元作为参考摘要。本申请通过TextRank算法对候选语句进行处理生成的参考语句,可以视为候选语句的参考摘要。

在一个实施例中,可以通过TextRank算法对原始文本进行处理,将处理结果提供给各候选语句作为参考。

对参考语句进行N-Gram切分,得到多个N-Gram词组。根据候选语句生成的N-Gram词组以及参考语句生成的N-Gram词组,可以计算该候选语句的ROUGE-N值。其中,Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动摘要以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。Rouge有多种形式,其中ROUGE-N定义如下:

其中,分母是候选语句与参考语句拥有的全部N-Gram词组的个数(N-Gram词组的并集),分子是候选语句与参考语句共有的N-Gram词组的个数(N-Gram词组的交集)。

将第一文本摘要中各候选语句的ROUGE-N值求平均,得到第一文本摘要的第一目标函数值。

第二目标函数值的计算与上述第一目标函数值的计算思路相同,区别在于,计算第二目标函数值时,先生成第一文本摘要与摘要新解的并集,然后根据并集中各候选语句的ROUGE-N值计算第二目标函数值。

在一个实施例中,可以计算将第一文本摘要与摘要新解所包含的全部候选语句的ROUGE-N值,然后对ROUGE-N值求平均得到第二目标函数值。此时,可以重复计算部分候选语句的ROUGE-N值。

本实施例中,对于第一文本摘要中的每个候选语句,对候选语句及其参考语句进行N-Gram切分,根据切分得到的N-Gram计算ROUGE-N值;再对各候选语句的ROUGE-N值求平均得到第一目标函数值,实现了第一目标函数值的计算。

进一步的,上述基于预设的接受准则,根据目标函数差、第一文本摘要和摘要新解生成第二文本摘要的步骤可以包括:当目标函数差大于预设的差值阈值时,将摘要新解确定为第二文本摘要;当目标函数差小于等于预设的差值阈值时,根据目标函数差和第一目标函数值计算接受概率和拒绝概率;当根据接受概率接受摘要新解时,将摘要新解确定为第二文本摘要;当根据拒绝概率拒绝摘要新解时,将第一文本摘要确定为第二文本摘要。

具体地,根据接受准则判断是否接受新解,接受准则可以为Metropolis接受准则。计算出的目标函数差为一个数值,获取预设的差值阈值,将目标函数差与差值阈值相比较。差值阈值可以为0。

如果目标函数差大于预设的差值阈值,即目标函数的增量ΔE大于0时,接受摘要新解,将摘要新解确定为第二文本摘要。

如果目标函数差小于等于预设的差值阈值,即目标函数的增量ΔE小于等于0时,根据目标函数差和第一目标函数值E计算接受概率p

本实施例中,基于接受准则,当目标函数差大于差值阈值时,接受摘要新解作为第二文本摘要;否则,按照接受概率接受摘要新解作为第二文本摘要,或者按照拒绝概率将第一文本摘要确定为第二文本摘要,从而完成摘要的更新。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种文本摘要生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图3所示,本实施例所述的文本摘要生成装置300包括:文本获取模块301、语句筛选模块302、退火获取模块303、语句筛选模块304、摘要生成模块305、摘要迭代模块306以及摘要确定模块307,其中:

文本获取模块301,用于获取原始文本。

语句筛选模块302,用于基于预设的信息量计算算法计算原始文本中各语句的信息量,以根据信息量和预设的信息量差值条件对各语句进行筛选,得到至少一个摘要候选语句集合。

退火获取模块303,用于获取退火温度以及衰减率。

语句筛选模块304,用于从各摘要候选语句集合中分别随机选取候选语句,得到第一文本摘要,并从各摘要候选语句集合中分别随机选取候选语句,得到摘要新解。

摘要生成模块305,用于根据第一文本摘要与摘要新解计算目标函数差,以基于目标函数差、第一文本摘要和摘要新解生成第二文本摘要,并根据衰减率更新退火温度。

摘要迭代模块306,用于将第二文本摘要作为下一轮的第一文本摘要进行迭代,直至退火温度满足预设的退火停止条件,得到最后一轮迭代的第二文本摘要。

摘要确定模块307,用于将最后一轮迭代的第二文本摘要确定为原始文本的文本摘要。

本实施例中,基于预设的信息量计算算法计算原始文本中各语句的信息量,以根据预设的信息量差值条件对各语句进行筛选,得到多个摘要候选语句集合,各集合中的候选语句在信息量上较为接近;从各集合中随机选取候选语句,得到第一文本摘要,再从各集合中随机选取候选语句,得到摘要新解;本申请通过模拟退火算法生成文本摘要,需要计算目标函数差,目标函数差是基于第一文本摘要和摘要新解计算出的模拟退火算法中目标函数的差值,根据目标函数差确定第二文本摘要,并根据衰减率更新退火温度,从而实现文本摘要的一次迭代;然后将第二文本摘要作为下一轮的第一文本摘要进行迭代,直至退火温度满足预设的退火停止条件,最后一轮迭代得到的第二文本摘要被确定为原始文本的文本摘要;本申请通过模拟退火算法对原始文本进行抽取生成文本摘要,相较于通过神经网络生成文本摘要,本申请减少了计算开销,提高了文本摘要的生成效率。

在本实施例的一些可选的实现方式中,语句筛选模块302可以包括:信息量计算子模块、语句筛选子模块以及语句分组子模块,其中:

信息量计算子模块,用于基于预设的信息量计算算法计算原始文本中各语句的信息量。

语句筛选子模块,用于在原始文本中选取信息量大于预设的信息量阈值的语句,得到各候选语句。

语句分组子模块,用于根据预设的信息量差值条件对各候选语句进行分组,得到至少一个摘要候选语句集合。各摘要候选语句集合中,任意两个候选语句的信息量差值处于信息量差值区间内。

本实施例中,先计算各语句的信息量,根据信息量阈值舍弃信息量较少、语义价值较低的语句;然后根据信息量差值条件对留下的语句进行分组,得到至少一个摘要候选语句集合,集合内任意两个候选语句的信息量差值处于信息量差值区间内,使得各集合中的候选语句信息量较为接近。

在本实施例的一些可选的实现方式中,信息量计算子模块可以包括:词性识别单元、实体识别单元、句法识别单元以及信息量计算单元,其中:

词性识别单元,用于对于原始文本中的每个语句,识别语句中各分词的词性类型,得到词性类型数量。

实体识别单元,用于识别语句中的命名实体及其对应的实体类型,得到命名实体类型数量。

句法识别单元,用于识别语句的句法成分,得到句法成分类型数量。

信息量计算单元,用于根据词性类型数量、命名实体类型数量以及句法成分类型数量计算语句的信息量。

本实施例中,从语句所包含的词性类型、命名实体类型和句法成分类型三个维度计算信息量,全面地衡量了语句的语义价值。

在本实施例的一些可选的实现方式中,信息量计算单元可以包括:权重确定子单元以及信息量计算子单元,其中:

权重确定子单元,用于根据预设的权重算法确定词性类型数量、命名实体类型数量以及句法成分类型数量所对应的权重。

信息量计算子单元,用于对带有权重的词性类型数量、命名实体类型数量以及句法成分类型数量进行线性运算,得到语句的信息量。

本实施例中,通过权重算法确定词性类型数量、命名实体类型数量以及句法成分类型数量的权重,引入了词性类型数量、命名实体类型数量以及句法成分类型数量三者之间的差异,提升了信息量计算的准确性。

在本实施例的一些可选的实现方式中,摘要生成模块305可以包括:第一计算子模块、第二计算子模块、差值计算子模块以及摘要生成子模块,其中:

第一计算子模块,用于根据第一文本摘要的N-Gram信息计算第一目标函数值。

第二计算子模块,用于基于第一文本摘要与摘要新解所构成并集的N-Gram信息,计算第二目标函数值。

差值计算子模块,用于计算第二目标函数值和第一目标函数值的差值,得到目标函数差。

摘要生成子模块,用于基于预设的接受准则,根据目标函数差、第一文本摘要和摘要新解生成第二文本摘要。

本实施例中,根据语句的N-Gram信息计算目标函数的第一目标函数值与第二目标函数值,从而计算出目标函数差,从而根据模拟退火算法中的接受准则生成第二文本摘要,实现迭代。

在本实施例的一些可选的实现方式中,第一计算子模块可以包括:候选切分单元、参考生成单元、参考切分单元、计算单元以及第一计算单元,其中:

候选切分单元,用于对于第一文本摘要中的每个候选语句,对候选语句进行N-Gram切分,得到多个N-Gram词组。

参考生成单元,用于基于TextRank算法生成候选语句的参考语句。

参考切分单元,用于对参考语句进行N-Gram切分,得到多个N-Gram词组。

计算单元,用于根据候选语句的各N-Gram词组和参考语句的各N-Gram词组,计算候选语句的ROUGE-N值。

第一计算单元,用于计算第一文本摘要中各候选语句ROUGE-N值的平均值,得到第一文本摘要的第一目标函数值。

本实施例中,对于第一文本摘要中的每个候选语句,对候选语句及其参考语句进行N-Gram切分,根据切分得到的N-Gram计算ROUGE-N值;再对各候选语句的ROUGE-N值求平均得到第一目标函数值,实现了第一目标函数值的计算。

在本实施例的一些可选的实现方式中,摘要生成子模块可以包括:新解确定单元、概率计算单元、新解接受单元以及新解拒绝单元,其中:

新解确定单元,用于当目标函数差大于预设的差值阈值时,将摘要新解确定为第二文本摘要。

概率计算单元,用于当目标函数差小于等于预设的差值阈值时,根据目标函数差和第一目标函数值计算接受概率和拒绝概率。

新解接收单元,用于当根据接受概率接受摘要新解时,将摘要新解确定为第二文本摘要。

新解拒绝单元,用于当根据拒绝概率拒绝摘要新解时,将第一文本摘要确定为第二文本摘要。

本实施例中,基于接受准则,当目标函数差大于差值阈值时,接受摘要新解作为第二文本摘要;否则,按照接受概率接受摘要新解作为第二文本摘要,或者按照拒绝概率将第一文本摘要确定为第二文本摘要,从而完成摘要的更新。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如文本摘要生成方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述文本摘要生成方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述文本摘要生成方法。此处文本摘要生成方法可以是上述各个实施例的文本摘要生成方法。

本实施例中,基于预设的信息量计算算法计算原始文本中各语句的信息量,以根据预设的信息量差值条件对各语句进行筛选,得到多个摘要候选语句集合,各集合中的候选语句在信息量上较为接近;从各集合中随机选取候选语句,得到第一文本摘要,再从各集合中随机选取候选语句,得到摘要新解;本申请通过模拟退火算法生成文本摘要,需要计算目标函数差,目标函数差是基于第一文本摘要和摘要新解计算出的模拟退火算法中目标函数的差值,根据目标函数差确定第二文本摘要,并根据衰减率更新退火温度,从而实现文本摘要的一次迭代;然后将第二文本摘要作为下一轮的第一文本摘要进行迭代,直至退火温度满足预设的退火停止条件,最后一轮迭代得到的第二文本摘要被确定为原始文本的文本摘要;本申请通过模拟退火算法对原始文本进行抽取生成文本摘要,相较于通过神经网络生成文本摘要,本申请减少了计算开销,提高了文本摘要的生成效率。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文本摘要生成方法的步骤。

本实施例中,基于预设的信息量计算算法计算原始文本中各语句的信息量,以根据预设的信息量差值条件对各语句进行筛选,得到多个摘要候选语句集合,各集合中的候选语句在信息量上较为接近;从各集合中随机选取候选语句,得到第一文本摘要,再从各集合中随机选取候选语句,得到摘要新解;本申请通过模拟退火算法生成文本摘要,需要计算目标函数差,目标函数差是基于第一文本摘要和摘要新解计算出的模拟退火算法中目标函数的差值,根据目标函数差确定第二文本摘要,并根据衰减率更新退火温度,从而实现文本摘要的一次迭代;然后将第二文本摘要作为下一轮的第一文本摘要进行迭代,直至退火温度满足预设的退火停止条件,最后一轮迭代得到的第二文本摘要被确定为原始文本的文本摘要;本申请通过模拟退火算法对原始文本进行抽取生成文本摘要,相较于通过神经网络生成文本摘要,本申请减少了计算开销,提高了文本摘要的生成效率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

技术分类

06120114701272