一种新闻文本摘要抽取方法、系统及介质

文献发布时间：2023-06-19 16:04:54

技术领域

本发明涉及自然语言处理的研究领域，特别涉及一种新闻文本摘要抽取方法、系统及介质。

背景技术

随着互联网行业的蓬勃发展和信息技术水平的飞速提升，人民的生活方式发生了很大的变化。在这个信息广泛传播的大数据时代，伴随而来的是丰富海量的信息。由于互联网上信息量巨大，内容繁多，不断更新传播，导致信息过载的现象日益严重。而网络信息的表现形式也呈现出多样化，例如文本、图像和语音等。其中，文本是信息的重要承载方式，相较于图像和语音，文本的表达并非直观明了，而是需要通过人工阅读理解的方式，尤其面对长篇文章，耗时耗力，并且筛选有效信息困难，严重影响人们的阅读兴趣和阅读体验。因此，如何对待处理信息过载的现象，有效缓解并解决用户获取关键信息困难的问题，成为全球最为关切的热点话题之一。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种新闻文本摘要抽取方法、系统及介质，使用人工智能技术，提取新闻关键信息，精炼汇总，使得人们在有效时间内，从丰富海量的网络数据中快速准确地获取关键信息，从而节省阅读时间并提升阅读体验。

本发明的第一目的在于提供一种新闻文本摘要抽取方法。

本发明的第二目的在于提供一种新闻文本摘要抽取系统。

本发明的第三目的在于提供一种介质。

本发明的第一目的通过以下的技术方案实现：

一种新闻文本摘要抽取方法，其特征在于，包括以下步骤：

获取新闻并将所述新闻切分为若干句子，提取所述句子的句向量，根据所述句向量相似度构建相似度矩阵；

提取新闻标题句向量，并与所述句子计算相似度，根据所述计算相似度，进行第一次调整文本权重值；

抽取新闻文本和新闻标题中关键词，基于句子中包含关键词数据，进行第二次调整文本权重值；

构建线索词表，根据句子所包含线索词，进行第三次调整文本权重值；

根据相似度矩阵和每个句子权重值，计算句子得分；

根据所述句子得分进行排序，完成文本摘要提取。

进一步地，所述将新闻切分为若干句子，提取所述句子的句向量，根据所述句向量相似度构建相似度矩阵，具体为：基于预设分隔符，将新闻分割为若干句子，对每个句子设定初始权重值；使用Albert提取新闻中每个句子的句向量，使用点乘计算句向量之间相似度分数，并根据句向量之间相似度分数构建相似度矩阵：

similarityMatrix[i][j]，

similarityMatrix[i][j]表示相似度矩阵的第i行第j列，则similarityMatrix[i][j]的值为新闻文本中第i个句子和第j个句子的相似度分数。

进一步地，所述提取新闻标题句向量，与所述文本计算相似度，根据所述计算相似度，进行第一次调整文本权重值，具体为：使用Albert提取新闻标题的句向量，并与每个文本计算相似度，根据该计算相似度对本文权重值进行第一次调整；所述第一次调整，设M表示某一个句子与标题的相似度，则该句调整的权重值为M*A，A是一个超参数，即文本与新闻标题越相似，文本权重值调整越高。

进一步地，所述抽取新闻文本和新闻标题中关键词，基于句子中包含关键词数据，进行第二次调整文本权重值，具体为：对新闻文本进行分词并去除停用词，通过关键词抽取方法抽取新闻文本和新闻标题的关键词，基于每个句子包含的关键词数据，对句子权重值进行的第二次调整；所述第二次调整，共抽取了X个关键词，某一句子包含这X个关键词中的Y个，则该句子权重调整为Y/X*B，B是一个超参数，即文本包含的关键词占比越大，文本权重值调整越高。

进一步地，所述构建线索词表，具体为：线索词是指概括性的指示词语，包括有：综上所述、总而言之、总之、总的来说。

进一步地，所述根据句子所包含线索词，进行第三次调整文本权重值，具体为：根据线索词表比对，比对句子中是否包含线索词，若句子中包含线索词，则对句子权重值进行第三次调整；若句子中不包含线索词，则不进行文本权重值调整；所述第三次调整，对有线索词的文本增加其文本权重值，如果该句中包含线索词，则该句子权重增加C。

进一步地，所述根据相似度矩阵和每个句子权重值，计算句子得分，具体为：

将某一句子与位于该句子之前句子的相似度，乘上该某一句子前任意一句子的文本权重，得到调整后的句子相似度；将所述某一句子前所有经过调整的句子相似度相加并乘上该句子的权重进而再乘上一个超参数，得到句子前向边的得分；

将某一句子与位于该句子之后句子的相似度，乘上该某一句子后任意一句子的文本权重，得到调整后的句子相似度；将所述某一句子后所有经过调整的句子相似度相加并乘上该句子的权重进而再乘上一个超参数，得到句子后向边的得分；

将句子前后向边的得分相加，得到句子的最终得分。

进一步地，所述根据所述句子得分进行排序，完成文本摘要提取，具体为：按照句子的最终得分对矩阵进行排序，选出一定比例句子，即得分越高越优先被选出，直到满足设定的长度需求，再按照句子在原文中的顺序抽取句子得到摘要集。

本发明的第二目的通过以下技术方案实现：

一种新闻文本摘要抽取系统，包括：

文本获取及处理模块，用于获取新闻并将所述新闻切分为若干句子，提取所述句子的句向量，根据所述句向量相似度构建相似度矩阵；

第一调整模块，用于提取新闻标题句向量，并与所述句子计算相似度，根据所述计算相似度，进行第一次调整文本权重值；

第二调整模块，用于抽取新闻文本和新闻标题中关键词，基于句子中包含关键词数据，进行第二次调整文本权重值；

第三调整模块，用于构建线索词表，根据句子所包含线索词，进行第三次调整文本权重值；

得分计算模块，根据相似度矩阵和每个文本权重值，计算句子得分；

摘要提取模块，根据所述句子得分进行排序，完成文本摘要提取。

本发明的第三目的通过以下技术方案实现：

一种介质，所述介质为计算机可读存储介质，所述计算机可读存储介质存储有至少一个程序，所述至少一个程序可被至少一个处理器执行，以实现新闻文本摘要抽取方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明采用了Albert进行特征提取，充分利用了句子的语义关系。此外，还采用了有向图，考虑了句子位置带来的影响，使得不同位置的句子具有不同的提取优先级。此外，还考虑了标题、关键词等因素，对每一个句子的权重进行修正，而权重会影响句子得分。计算句子得分时，考虑前向节点的相似度得分以及权重，后向节点的相似度得分以及权重，并结合句子本身的权重，综合得到句子分数。该方法相比于当前的摘要提取方法具有更高的准确率，尤其适用于新闻摘要提取。

附图说明

图1是本发明所述一种新闻文本摘要抽取方法流程图；

图2是本发明所述一种新闻文本摘要抽取系统结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种新闻文本摘要抽取方法，如图1所示，包括以下步骤：

获取新闻并将所述新闻切分为若干句子，提取所述句子的句向量，根据所述句向量相似度构建相似度矩阵；

提取新闻标题句向量，并与所述句子计算相似度，根据所述计算相似度，进行第一次调整文本权重值；

抽取新闻文本和新闻标题中关键词，基于句子中包含关键词数据，进行第二次调整文本权重值；

构建线索词表，根据句子所包含线索词，进行第三次调整文本权重值；

根据相似度矩阵和每个句子权重值，计算句子得分；

根据所述句子得分进行排序，完成文本摘要提取。

如下所示：

1)将文章切分为句子，使用Albert提取新闻中每一个句子的句向量，根据句向量彼此之间的相似度分数构建相似度矩阵。并对每一个句子设置一个权重值，初始为1。基于预设的分割符，将文章切分割为句子。使用Albert提取新闻中每一个句子的句向量，使用点乘计算句向量彼此之间的相似度分数。根据句向量彼此之间的相似度分数构建相似度矩阵。之后对每一个句子设置一个初始权重值，初始化为1。

具体为：定义句子间的一系列分割符，通常是一些标点符号，如句号、问号。通过这些分割符，将文章划分为句子。如果句子长度过长，截断该句子。在句子前加入"[CLS]"符号，在句子尾部加入"[SEP]"。通过Albert的编码器将句子每一个文字编码为一个id值。将编码后的值输入Albert中，提取得到文章每一个句子的句向量。使用点乘计算句子的相似度分数，基于相似度分数构建句子间的相似度分数矩阵similarityMatrix。similarityMatrix[i][j]表示第i个句子与第j个句子的相似度分数。并对每一个句子设置一个权重值，初始为1，存储为数组weights，weights[i]表示第i个句子的权重值。

2)使用Albert提取新闻标题的句向量，与每一个句子计算相似度，参考该相似度，对句子权重值进行调整。使用Albert提取新闻标题的句向量，与每一个句子计算相似度，参考该相似度，对句子权重值进行调整，与标题越相似，句子权重调整值越高。

具体为：对文章的标题采用同样的步骤，使用Albert提取新闻标题的句向量，与步骤1)中计算得到的每一个句子的句向量计算余弦相似度，记为similarity_cosine。设置一个参数title_w，作为一个系数。使用该相似度和权重调整句子权重。第i个句子权重值的调整方式为weights[i]＝weights[i]+similarity_cosine*title_w。

3)对文章进行分词并去除停用词，通过TF-IDF算法抽取新闻文本和新闻标题中的关键词，基于每一个句子中包含的关键词数量，对句子权重值进行调整。每一个句子包含的关键词占比越多，句子权重调整值越高。

具体为：使用jieba分词对文章和标题进行分词并去除停用词后，通过TF-IDF算法抽取新闻文本和新闻标题中的10个关键词作为集合。遍历文章每一个句子，计算该句子共有多少词出现在关键词集合中。设该句子分词后共有A个词，其中有B个词出现在关键词集合中，则分数为C＝B/A。设置一个参数words_w作为系数，则第i个句子权重值的调整方式为weights[i]＝weights[i]+C*words_w。

4)构建线索词表，若句子中包含线索词，则调整句子权重值。有线索词时增加句子权重值，没有线索词时不增加权重值。

具体为：线索词是指“综上所述”、“总而言之”、“总之”、“总的来说”等概括性的指示词语。构建线索词表，若句子中包含线索词，则调整句子权重值。第i个句子权重值的调整方式为weights[i]＝weights[i]+w。其中w为包含线索词时调整的权重值。

5)通过步骤1)构建的相似度矩阵，结合每一个句子的权重值，计算句子得分。句子得分越高，该句子在抽取时优先级越高。通过步骤1)构建的相似度矩阵，建立有向图。结合前向句子的权重值和相似度分数，综合计算与该句子的边权得分。同样的，结合后向句子的权重值和相似度分数，综合计算与该句子的边权得分。对该句子所有前向边求和得到前向总分，对所有后向边求和得到后向总分。综合考虑前后得分与本句子的权重，得到句子最终得分。句子得分越高，该句子在抽取时优先级越高。

具体为：在步骤1)中已经构建了一个相似度分数矩阵similarityMatrix。其中similarityMatrix[i][j]表示第i个句子与第j个句子的相似度分数。当ij时，该边为前向边。计算句子i得分时，结合前向句子的权重值和相似度分数，综合计算与该句子的边权得分，并计算该句子所有前向边权值之和，计为forward_scores[i]。计算方法为：

结合后向句子的权重值和相似度分数，综合计算与该句子的边权得分，并计算该句子所有后向边之和计为backward_scores[i]。计算方法为

scores[i]＝(forward_scores[i]*lambda1+backward_scores[i]*lambda2)*weights[i]。

计算出句子得分后，按最终得分的大小对句子进行排序选出一定的句子。得分越高越优先被选出，直到满足设定的长度需求。最后按照句子在原文中的顺序抽取句子得到摘要集。

一种新闻文本摘要抽取系统，如图2所示，包括：