文本摘要生成方法、装置、计算机设备及存储介质
文献发布时间:2023-06-19 12:13:22
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本摘要生成方法、装置、计算机设备及存储介质。
背景技术
文本摘要技术是人工智能领域的重要技术。对于人类来说,阅读一段长文本,并提炼其核心摘要内容,是一种天生的能力。但对于计算机来说,却代表了人工智能领域最具挑战性技术的进展和突破。当今世界的互联网承载了海量的文本信息,其中不乏大量的中、长篇幅文本。通过机器对这些文本加以理解,并提炼出核心摘要,可以支持各类有益于人类社会的应用功能,如:媒体监控、搜索引擎营销和优化、财务和法务文本分析研究、社交媒体营销、书籍和文献内容索引、视频会议摘要、自动内容创作等。
现有的文本摘要技术可以被横向分为有监督和无监督两种,被纵向分为抽取式和生成式两种。有监督的文本摘要技术需要大量的人工标记数据,文本摘要的人工标记十分费力且成本高昂,不同标记人员对文章核心摘要内容的判断也存在一定偏差,因此工业界技术落地一般采用无监督的方案。抽取式摘要一般以句子为单位从原文章中抽取出重要内容,再拼接起来作为文章摘要。生成式摘要通过深度学习seq2seq(Sequence to Sequence)方式直接生成文章摘要内容,其中涉及到语义表征、推断和自然语言生成等很难落地的技术,因此,生成式摘要更多的是作为学术界的研究热点,在工业界落地效果并不理想。
目前,工业界文本摘要技术落地最常采用的是无监督抽取式方案,具体的方法有基于图、基于主题模型、基于中心度和基于信息冗余等方法。其中,基于图的TextRank算法是最经典且应用最广泛的方法。TextRank算法具有较好的通用性,适合各种领域的文本以及中篇和长篇文本,但是也具有一些缺陷:(1)TextRank算法中两图节点的连边是单条无向边,这条边只有单一权重,从这单条无向边来看,两端节点句子的权值是相等的。但文章中的任意两个句子单独拿出来比较,他们的重要程度也应该有高低之分;(2)TextRank算法中,图中任意两个节点都有一条连边,相当于把文章中所有的句子混在一起建模,没有考虑句子前后邻近关系以及它们在原文章的位置。但提取摘要时,句子的位置和句子的前后关系都对摘要句的判定有重要作用,比如文章或段落起头和结尾的句子,以及总结性的句子,都很可能是摘要句;(3)TextRank算法在计算图中连边的权重时,只考虑两个句子之间的纯文本相似度,没有考虑语义相似度,即没有考虑文本写法不一样但语义类似的情况;(4)TextRank算法在计算纯文本相似度时,没有区分不同词条的重要性,也没有按词性过滤掉不重要的词,因此对纯文本相似度计算的准确性有待提升。
上述缺陷会导致最终的文本摘要生成效果受到影响,并且,现有的文本摘要生成技术也缺乏对所生成摘要的修正,而TextRank算法输出的摘要结果一般也存在一些问题,导致生成的摘要并不理想。
发明内容
本发明实施例提供了一种文本摘要生成方法、装置、计算机设备及存储介质,能够基于人工智能手段实现更加准确的文本摘要生成。
第一方面,本发明实施例提供了一种文本摘要生成方法,其包括:
响应于文本摘要生成指令,根据所述文本摘要生成指令获取待处理数据;
根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句;
计算所述多个分句中每两个分句间的相互推荐度;
计算所述多个分句中每两个分句间的语义相似度;
计算所述多个分句中每两个分句间的位置相似度;
对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵;
将所述图邻接矩阵输入至TextRank算法计算每个分句的重要度;
根据每个分句的重要度进行筛选,得到备选分句;
对所述备选分句进行后处理,得到摘要句子。
根据本发明优选实施例,所述根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句包括:
识别当前任务场景;
调取与所述当前任务场景匹配的词典作为目标词典;
根据所述目标词典切分所述待处理数据,得到所述多个分句。
根据本发明优选实施例,所述计算所述多个分句中每两个分句间的相互推荐度包括:
根据接收到的配置需求配置所述多个分句中每个单词的词权重;
对于所述多个分句,获取每两个分句中同时出现的单词作为目标词;
确定所述目标词的词权重及词性;
根据所述目标词的词权重及词性计算每两个分句文本间的相似度,得到推荐度矩阵;
对所述推荐度矩阵执行L2正则化,得到每两个分句间的相互推荐度。
根据本发明优选实施例,所述计算所述多个分句中每两个分句间的语义相似度包括:
对每个分句进行向量化,得到每个分句的嵌入向量表示;
根据每个分句的嵌入向量表示计算每两个分句间的余弦相似度;
将每两个分句间的余弦相似度确定为每两个分句间的语义相似度。
根据本发明优选实施例,所述计算所述多个分句中每两个分句间的位置相似度包括:
将每两个分句确定为一组分句,其中,每组分句中的两个分句互为推荐句及被推荐句;
当所述任意分句为所述被推荐句时,确定所述被推荐句在相应段落中的位置,当所述被推荐句在相应段落中排在前预设位或者后预设位时,确定对应的矩阵cell值为第一数值;
当所述任意分句为所述推荐句时,确定所述推荐句在相应段落中的位置,当所述推荐句在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第二数值;
当任意组分句中的推荐句及被推荐句都在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第三数值;
当所述任意组分句中的推荐句及被推荐句都不在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第四数值;
当所述任意分句为所述被推荐句,且所述任意分句为指定属性时,确定对应的矩阵cell值为所述第一数值;
根据所述矩阵cell值进行矩阵转换,得到每两个分句间的位置相似度。
根据本发明优选实施例,采用下述公式对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵:
mat
其中,mat
根据本发明优选实施例,所述对所述备选分句进行后处理,得到摘要句子包括:
识别所述备选分句中每个分句的类型;
当在所述备选分句中有目标分句的类型为疑问句时,获取与所述目标分句相邻的下一分句,并将获取的分句添加至所述摘要句子;
当在所述备选分句中获取到指定关联词组中的其中一个构成单词时,获取与所述构成单词关联的单词所属的分句,并将获取的分句添加至所述摘要句子。
第二方面,本发明实施例提供了一种文本摘要生成装置,其包括:
获取单元,用于响应于文本摘要生成指令,根据所述文本摘要生成指令获取待处理数据;
切分单元,用于根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句;
计算单元,用于计算所述多个分句中每两个分句间的相互推荐度;
所述计算单元,还用于计算所述多个分句中每两个分句间的语义相似度;
所述计算单元,还用于计算所述多个分句中每两个分句间的位置相似度;
融合单元,用于对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵;
所述计算单元,还用于将所述图邻接矩阵输入至TextRank算法计算每个分句的重要度;
筛选单元,用于根据每个分句的重要度进行筛选,得到备选分句;
后处理单元,用于对所述备选分句进行后处理,得到摘要句子。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文本摘要生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的文本摘要生成方法。
本发明实施例提供了一种文本摘要生成方法、装置、计算机设备及存储介质,能够有效克服传统TextRank算法在计算纯文本相似度时,没有区分不同词条的重要性,也没有按词性过滤掉不重要的词的缺陷,提升了业务关联性强的句子被选为摘要的可能性,在建模的过程中充分考虑了句子前后邻近关系以及它们在原文章中的位置,有效克服了传统方式中由于未考虑句子在文章中位置顺序的重要性而导致的文本摘要生成不准确的问题,在传统文本摘要生成的基础上加入了后处理,对图算法获取的摘要结果做修正,提升了最终输出的摘要质量,进而基于人工智能手段实现更加准确的文本摘要生成。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本摘要生成方法的流程示意图;
图2为本发明实施例提供的文本摘要生成装置的示意性框图;
图3为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,为本发明实施例提供的文本摘要生成方法的流程示意图。
S10,响应于文本摘要生成指令,根据所述文本摘要生成指令获取待处理数据。
在本实施例中,所述文本摘要生成指令可以由相关工作人员触发,如:媒体监控者、在线教育者等。
在本发明的至少一个实施例中,所述根据所述文本摘要生成指令获取待处理数据包括:
检测触发所述文本摘要生成指令时同步上传的信息;
从所述信息中获取地址作为目标地址;
链接至所述目标地址,并获取所述目标地址处存储的数据作为所述待处理数据。
其中,所述目标地址可以包括,但不限于:网页页面地址、文件夹地址、数据库地址等。
当然,在其他实施例中,当所述同步上传的信息中包括所述待处理数据时,则直接提取所述待处理数据。例如:用户在触发所述文本摘要生成指令时同步上传了所述待处理数据,则可以直接从所述文本摘要生成指令中获取到所述待处理数据。
S11,根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句。
在本实施例中,所述根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句包括:
识别当前任务场景;
调取与所述当前任务场景匹配的词典作为目标词典;
根据所述目标词典切分所述待处理数据,得到所述多个分句。
举例而言,当所述当前任务场景为财务场景时,获取与财务场景相匹配的财务词典作为所述目标词典,并利用所述财务词典对所述待处理数据进行句词切分,得到与财务关联的相关词条,sents=[s
本实施例可以按照句子的标点符号,如句号、问号、感叹号等对所述待处理数据进行切分。本实施例可以采用分词工具(如中文分词工具)加载所述目标词典,以便很好的切分出业务相关的词条。
通过上述实施方式,能够根据与具体任务场景相关联的特定词典执行对句子的切分,以便更好地切分出业务相关的词条。
S12,计算所述多个分句中每两个分句间的相互推荐度。
在本实施例中,所述计算所述多个分句中每两个分句间的相互推荐度包括:
根据接收到的配置需求配置所述多个分句中每个单词的词权重;
对于所述多个分句,获取每两个分句中同时出现的单词作为目标词;
确定所述目标词的词权重及词性;
根据所述目标词的词权重及词性计算每两个分句文本间的相似度,得到推荐度矩阵;
对所述推荐度矩阵执行L2正则化,得到每两个分句间的相互推荐度。
其中,所述配置需求可以由用户上传。
其中,在计算文本间的相似度时,采用的公式如下:
mat
其中,mat
其中,所述有效的词性包括名词、动词、形词、副词四种和句子语义密切相关的词性。
并且,在计算两个句子的公共词(
进一步地,对mat
L2是正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项,L2范数符合高斯分布,是完全可微的。
在上述实施方式中,仅保留了名词、动词、形容词以及副词四种和句子语义密切相 关的词性,并且在计算公共词(
S13,计算所述多个分句中每两个分句间的语义相似度。
在本实施例中,所述计算所述多个分句中每两个分句间的语义相似度包括:
对每个分句进行向量化,得到每个分句的嵌入向量表示;
根据每个分句的嵌入向量表示计算每两个分句间的余弦相似度;
将每两个分句间的余弦相似度确定为每两个分句间的语义相似度。
具体地,在计算句子间的语义相似度时,采用的公式如下:
mat
其中,mat
在上述实施方式中,避免了传统算法中只考虑两个句子之间的纯文本相似度,不考虑语义相似度的缺陷。
S14,计算所述多个分句中每两个分句间的位置相似度。
在本实施例中,所述计算所述多个分句中每两个分句间的位置相似度包括:
将每两个分句确定为一组分句,其中,每组分句中的两个分句互为推荐句及被推荐句;
当所述任意分句为所述被推荐句时,确定所述被推荐句在相应段落中的位置,当所述被推荐句在相应段落中排在前预设位或者后预设位时,确定对应的矩阵cell值为第一数值;
当所述任意分句为所述推荐句时,确定所述推荐句在相应段落中的位置,当所述推荐句在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第二数值;
当任意组分句中的推荐句及被推荐句都在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第三数值;
当所述任意组分句中的推荐句及被推荐句都不在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第四数值;
当所述任意分句为所述被推荐句,且所述任意分句为指定属性时,确定对应的矩阵cell值为所述第一数值;
根据所述矩阵cell值进行矩阵转换,得到每两个分句间的位置相似度。
其中,所述第一数值、所述第二数值、所述第三数值及所述第四数值可以进行自定义配置,例如,在本实施例中,可以配置所述第一数值为2,所述第二数值为1.5,所述第三数值为2.5,所述第四数值为1。
其中,所述前预设位或者所述后预设位也可以进行自定义配置,例如,所述前预设位可以配置为前5%,相应地,所述后预设位可以配置为后5%。
其中,所述指定属性可以为总结性属性,即具有所述指定属性的句子为总结性的句子。
通过上述实施方式,在建模的过程中充分考虑了句子前后邻近关系以及它们在原文章中的位置,有效克服了传统方式中由于未考虑句子在文章中位置顺序的重要性而导致的文本摘要生成不准确的问题。
S15,对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵。
在本发明的至少一个实施例中,采用下述公式对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵:
mat
其中,mat
在本实施例中,(αmat
需要说明的是,传统的摘要提取方案中两图节点的连边是单条无向边,这条边只有单一权重,从这单条无向边来看,两端节点句子的权值是相等的。但文章中的任意两个句子单独拿出来比较,他们的重要程度也应该有高低之分,对两个句子的重要性做等价处理显然是有误的。
而在本实施方式中,通过每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度的融合处理,使最终得到的图邻接矩阵将图节点连边从单条无向边建模成两条有向边,克服了传统方案中只有单条无向边的缺陷。
S16,将所述图邻接矩阵输入至TextRank算法计算每个分句的重要度。
在本实施例中,在将所述图邻接矩阵输入至TextRank算法后,迭代计算出每个节点的TextRank值作为对应的每个分句的重要度,在此不赘述。
S17,根据每个分句的重要度进行筛选,得到备选分句。
在本发明的至少一个实施例中,所述根据每个分句的重要度进行筛选,得到备选分句包括:
获取预设阈值;
获取所述重要度大于或者等于所述预设阈值的分句作为所述备选分句。
其中,所述预设阈值可以进行自定义配置,如95%。
在本发明的至少一个实施例中,所述根据每个分句的重要度进行筛选,得到备选分句还包括:
将每个分句的重要度按照由高到低的顺序进行排序;
获取预设位置;
将排在所述预设位置之前的分句确定为所述备选分句。
其中,所述预设位置可以进行自定义配置,如20位。
所述预设位置相当于一个超参数,可以通过实验或者调试而获得,例如:基于回归测试集,以摘要的rouge值为指标对所述预设位置做超参数搜索,选择最优化rouge值对应的取值作为所述预设位置。
S18,对所述备选分句进行后处理,得到摘要句子。
需要说明的是,所述备选分句属于初步得到的摘要,但是其中可能包括问句、结果、递进、转折、引导等句式,这种句子不应独立于上下文出现,所以如果其上下文没有被选为摘要句,就需要进行进一步修正。
具体地,所述对所述备选分句进行后处理,得到摘要句子包括:
识别所述备选分句中每个分句的类型;
当在所述备选分句中有目标分句的类型为疑问句时,获取与所述目标分句相邻的下一分句,并将获取的分句添加至所述摘要句子;
当在所述备选分句中获取到指定关联词组中的其中一个构成单词时,获取与所述构成单词关联的单词所属的分句,并将获取的分句添加至所述摘要句子。
其中,分句的类型可以包括,但不限于:疑问句、由关联词组构成的句子。
举例而言,可以根据文字识别得到的关键词或者符号判断所述备选分句中每个分句的类型。例如:当识别到“
例如:一个摘要句子是问句的话,通常相邻的下一个句子也应该判断为摘要;一个摘要句子是“虽然……但是……”,“因为……所以……”这类句式中的一个成分句子时,另一半成分句子通常也应被判断为摘要。
通过上述实施方式,在传统文本摘要生成的基础上加入了后处理,对图算法获取的摘要结果做修正,提升了最终输出的摘要质量。
需要说明的是,为了进一步确保数据的安全性,避免数据被恶意篡改,所述摘要句子可以存储于区块链节点上。
由以上技术方案可以看出,本发明能够响应于文本摘要生成指令,根据所述文本摘要生成指令获取待处理数据,对所述待处理数据进行切分处理,得到多个分句,根据与具体任务场景相关联的特定词典执行对句子的切分,以便更好地切分出业务相关的词条,计算所述多个分句中每两个分句间的相互推荐度,仅保留了名词、动词、形容词以及副词四种和句子语义密切相关的词性,并且在计算公共词分数时对重要性不同的业务词赋予了不同的权重,结合正则化,有效克服了传统TextRank算法在计算纯文本相似度时,没有区分不同词条的重要性,也没有按词性过滤掉不重要的词的缺陷,提升了业务关联性强的句子被选为摘要的可能性,计算所述多个分句中每两个分句间的语义相似度,避免了传统算法中只考虑两个句子之间的纯文本相似度,不考虑语义相似度的缺陷,计算所述多个分句中每两个分句间的位置相似度,在建模的过程中充分考虑了句子前后邻近关系以及它们在原文章中的位置,有效克服了传统方式中由于未考虑句子在文章中位置顺序的重要性而导致的文本摘要生成不准确的问题,对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵,使最终得到的图邻接矩阵将图节点连边从单条无向边建模成两条有向边,克服了传统方案中只有单条无向边的缺陷,将所述图邻接矩阵输入至TextRank算法计算每个分句的重要度,根据每个分句的重要度进行筛选,得到备选分句,对所述备选分句进行后处理,得到摘要句子,在传统文本摘要生成的基础上加入了后处理,对图算法获取的摘要结果做修正,提升了最终输出的摘要质量,进而基于人工智能手段实现更加准确的文本摘要生成。
本发明实施例还提供一种文本摘要生成装置,该文本摘要生成装置用于执行前述文本摘要生成方法的任一实施例。具体地,请参阅图2,图2是本发明实施例提供的文本摘要生成装置的示意性框图。
如图2所示,文本摘要生成装置100包括:获取单元101、切分单元102、计算单元103、融合单元104、筛选单元105、后处理单元106。
响应于文本摘要生成指令,获取单元101根据所述文本摘要生成指令获取待处理数据。
在本实施例中,所述文本摘要生成指令可以由相关工作人员触发,如:媒体监控者、在线教育者等。
在本发明的至少一个实施例中,所述获取单元101根据所述文本摘要生成指令获取待处理数据包括:
检测触发所述文本摘要生成指令时同步上传的信息;
从所述信息中获取地址作为目标地址;
链接至所述目标地址,并获取所述目标地址处存储的数据作为所述待处理数据。
其中,所述目标地址可以包括,但不限于:网页页面地址、文件夹地址、数据库地址等。
当然,在其他实施例中,当所述同步上传的信息中包括所述待处理数据时,则直接提取所述待处理数据。例如:用户在触发所述文本摘要生成指令时同步上传了所述待处理数据,则可以直接从所述文本摘要生成指令中获取到所述待处理数据。
切分单元102根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句。
在本实施例中,所述切分单元102根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句包括:
识别当前任务场景;
调取与所述当前任务场景匹配的词典作为目标词典;
根据所述目标词典切分所述待处理数据,得到所述多个分句。
举例而言,当所述当前任务场景为财务场景时,获取与财务场景相匹配的财务词典作为所述目标词典,并利用所述财务词典对所述待处理数据进行句词切分,得到与财务关联的相关词条,sents=[s
本实施例可以按照句子的标点符号,如句号、问号、感叹号等对所述待处理数据进行切分。本实施例可以采用分词工具(如中文分词工具)加载所述目标词典,以便很好的切分出业务相关的词条。
通过上述实施方式,能够根据与具体任务场景相关联的特定词典执行对句子的切分,以便更好地切分出业务相关的词条。
计算单元103计算所述多个分句中每两个分句间的相互推荐度。
在本实施例中,所述计算单元103计算所述多个分句中每两个分句间的相互推荐度包括:
根据接收到的配置需求配置所述多个分句中每个单词的词权重;
对于所述多个分句,获取每两个分句中同时出现的单词作为目标词;
确定所述目标词的词权重及词性;
根据所述目标词的词权重及词性计算每两个分句文本间的相似度,得到推荐度矩阵;
对所述推荐度矩阵执行L2正则化,得到每两个分句间的相互推荐度。
其中,所述配置需求可以由用户上传。
其中,在计算文本间的相似度时,采用的公式如下:
mat
其中,mat
其中,所述有效的词性包括名词、动词、形词、副词四种和句子语义密切相关的词性。
并且,在计算两个句子的公共词(
进一步地,对mat
L2是正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项,L2范数符合高斯分布,是完全可微的。
在上述实施方式中,仅保留了名词、动词、形容词以及副词四种和句子语义密切相 关的词性,并且在计算公共词(
所述计算单元103计算所述多个分句中每两个分句间的语义相似度。
在本实施例中,所述计算单元103计算所述多个分句中每两个分句间的语义相似度包括:
对每个分句进行向量化,得到每个分句的嵌入向量表示;
根据每个分句的嵌入向量表示计算每两个分句间的余弦相似度;
将每两个分句间的余弦相似度确定为每两个分句间的语义相似度。
具体地,在计算句子间的语义相似度时,采用的公式如下:
mat
其中,mat
在上述实施方式中,避免了传统算法中只考虑两个句子之间的纯文本相似度,不考虑语义相似度的缺陷。
所述计算单元103计算所述多个分句中每两个分句间的位置相似度。
在本实施例中,所述计算单元103计算所述多个分句中每两个分句间的位置相似度包括:
将每两个分句确定为一组分句,其中,每组分句中的两个分句互为推荐句及被推荐句;
当所述任意分句为所述被推荐句时,确定所述被推荐句在相应段落中的位置,当所述被推荐句在相应段落中排在前预设位或者后预设位时,确定对应的矩阵cell值为第一数值;
当所述任意分句为所述推荐句时,确定所述推荐句在相应段落中的位置,当所述推荐句在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第二数值;
当任意组分句中的推荐句及被推荐句都在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第三数值;
当所述任意组分句中的推荐句及被推荐句都不在相应段落中排在所述前预设位或者所述后预设位时,确定对应的矩阵cell值为第四数值;
当所述任意分句为所述被推荐句,且所述任意分句为指定属性时,确定对应的矩阵cell值为所述第一数值;
根据所述矩阵cell值进行矩阵转换,得到每两个分句间的位置相似度。
其中,所述第一数值、所述第二数值、所述第三数值及所述第四数值可以进行自定义配置,例如,在本实施例中,可以配置所述第一数值为2,所述第二数值为1.5,所述第三数值为2.5,所述第四数值为1。
其中,所述前预设位或者所述后预设位也可以进行自定义配置,例如,所述前预设位可以配置为前5%,相应地,所述后预设位可以配置为后5%。
其中,所述指定属性可以为总结性属性,即具有所述指定属性的句子为总结性的句子。
通过上述实施方式,在建模的过程中充分考虑了句子前后邻近关系以及它们在原文章中的位置,有效克服了传统方式中由于未考虑句子在文章中位置顺序的重要性而导致的文本摘要生成不准确的问题。
融合单元104对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵。
在本发明的至少一个实施例中,采用下述公式对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵:
mat
其中,mat
在本实施例中,(αmat
需要说明的是,传统的摘要提取方案中两图节点的连边是单条无向边,这条边只有单一权重,从这单条无向边来看,两端节点句子的权值是相等的。但文章中的任意两个句子单独拿出来比较,他们的重要程度也应该有高低之分,对两个句子的重要性做等价处理显然是有误的。
而在本实施方式中,通过每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度的融合处理,使最终得到的图邻接矩阵将图节点连边从单条无向边建模成两条有向边,克服了传统方案中只有单条无向边的缺陷。
所述计算单元103将所述图邻接矩阵输入至TextRank算法计算每个分句的重要度。
在本实施例中,在将所述图邻接矩阵输入至TextRank算法后,迭代计算出每个节点的TextRank值作为对应的每个分句的重要度,在此不赘述。
筛选单元105根据每个分句的重要度进行筛选,得到备选分句。
在本发明的至少一个实施例中,所述筛选单元105根据每个分句的重要度进行筛选,得到备选分句包括:
获取预设阈值;
获取所述重要度大于或者等于所述预设阈值的分句作为所述备选分句。
其中,所述预设阈值可以进行自定义配置,如95%。
在本发明的至少一个实施例中,所述筛选单元105根据每个分句的重要度进行筛选,得到备选分句还包括:
将每个分句的重要度按照由高到低的顺序进行排序;
获取预设位置;
将排在所述预设位置之前的分句确定为所述备选分句。
其中,所述预设位置可以进行自定义配置,如20位。
所述预设位置相当于一个超参数,可以通过实验或者调试而获得,例如:基于回归测试集,以摘要的rouge值为指标对所述预设位置做超参数搜索,选择最优化rouge值对应的取值作为所述预设位置。
后处理单元106对所述备选分句进行后处理,得到摘要句子。
需要说明的是,所述备选分句属于初步得到的摘要,但是其中可能包括问句、结果、递进、转折、引导等句式,这种句子不应独立于上下文出现,所以如果其上下文没有被选为摘要句,就需要进行进一步修正。
具体地,所述后处理单元106对所述备选分句进行后处理,得到摘要句子包括:
识别所述备选分句中每个分句的类型;
当在所述备选分句中有目标分句的类型为疑问句时,获取与所述目标分句相邻的下一分句,并将获取的分句添加至所述摘要句子;
当在所述备选分句中获取到指定关联词组中的其中一个构成单词时,获取与所述构成单词关联的单词所属的分句,并将获取的分句添加至所述摘要句子。
其中,分句的类型可以包括,但不限于:疑问句、由关联词组构成的句子。
举例而言,可以根据文字识别得到的关键词或者符号判断所述备选分句中每个分句的类型。例如:当识别到“
例如:一个摘要句子是问句的话,通常相邻的下一个句子也应该判断为摘要;一个摘要句子是“虽然……但是……”,“因为……所以……”这类句式中的一个成分句子时,另一半成分句子通常也应被判断为摘要。
通过上述实施方式,在传统文本摘要生成的基础上加入了后处理,对图算法获取的摘要结果做修正,提升了最终输出的摘要质量。
需要说明的是,为了进一步确保数据的安全性,避免数据被恶意篡改,所述摘要句子可以存储于区块链节点上。
由以上技术方案可以看出,本发明能够响应于文本摘要生成指令,根据所述文本摘要生成指令获取待处理数据,对所述待处理数据进行切分处理,得到多个分句,根据与具体任务场景相关联的特定词典执行对句子的切分,以便更好地切分出业务相关的词条,计算所述多个分句中每两个分句间的相互推荐度,仅保留了名词、动词、形容词以及副词四种和句子语义密切相关的词性,并且在计算公共词分数时对重要性不同的业务词赋予了不同的权重,结合正则化,有效克服了传统TextRank算法在计算纯文本相似度时,没有区分不同词条的重要性,也没有按词性过滤掉不重要的词的缺陷,提升了业务关联性强的句子被选为摘要的可能性,计算所述多个分句中每两个分句间的语义相似度,避免了传统算法中只考虑两个句子之间的纯文本相似度,不考虑语义相似度的缺陷,计算所述多个分句中每两个分句间的位置相似度,在建模的过程中充分考虑了句子前后邻近关系以及它们在原文章中的位置,有效克服了传统方式中由于未考虑句子在文章中位置顺序的重要性而导致的文本摘要生成不准确的问题,对每两个分句间的相互推荐度、每两个分句间的语义相似度以及每两个分句间的位置相似度进行融合处理,得到图邻接矩阵,使最终得到的图邻接矩阵将图节点连边从单条无向边建模成两条有向边,克服了传统方案中只有单条无向边的缺陷,将所述图邻接矩阵输入至TextRank算法计算每个分句的重要度,根据每个分句的重要度进行筛选,得到备选分句,对所述备选分句进行后处理,得到摘要句子,在传统文本摘要生成的基础上加入了后处理,对图算法获取的摘要结果做修正,提升了最终输出的摘要质量,进而基于人工智能手段实现更加准确的文本摘要生成。
上述文本摘要生成装置可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图3,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行文本摘要生成方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行文本摘要生成方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的文本摘要生成方法。
本领域技术人员可以理解,图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图3所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的文本摘要生成方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
- 文本摘要生成方法、装置、计算机设备及存储介质
- 文本摘要生成方法、装置、计算机设备及存储介质