掌桥专利:专业的专利平台
掌桥专利
首页

热词提取方法、系统、计算机设备及存储介质

文献发布时间:2023-06-19 18:37:28


热词提取方法、系统、计算机设备及存储介质

技术领域

本申请涉及语义分析领域,更具体地说,涉及一种热词提取方法、系统、计算机设备及存储介质。

背景技术

当前通过文本分析挖掘热点舆情已经在政务领域得到广泛应用,但尚未在环保领域中实现。生态环境领域与其他公共事件领域的区别在于:

生态环境领域事件通常专业性较高;生态环境保护是工程、理学、管理学、经济学等专业学科交叉形成的学科,其与基础学科联系紧密,又有独立的逻辑与学科体系。生态环境保护在生产生活的方方面面体现,但除部分标志性环境污染事件外通常普通人难以关注,难以了解其内在的运行逻辑。因此通过舆情文本等常规收集手段进行分析往往忽略一些热点,而且通过普通分词方法可能将一些专业术语拆分为无意义词语。

生态环境领域产生的词语联系紧密,许多环保热词通常指向同一事件,如PM

因此,如何从海量的文本中提取生态环境领域热词成为本领域需要解决的技术问题。

发明内容

有鉴于此,本申请提出了一种热词提取方法、系统、计算机设备及存储介质,以实现从海量的文本中提取生态环境领域热词的准确性并提高生产效率。

根据本申请,提出了一种热词提取方法,所述方法包括:

步骤1:收集生态环境领域的文本数据;

步骤2:分词处理;

步骤3:基于分词处理结果抽取关键词,和/或基于分词处理结果进行词频统计,和/或基于分词处理结果进行主题聚类;

步骤4:基于抽取关键词、词频统计和主题聚类的结果进行热词筛选。

作为上述方法的一种改进,所述步骤3还包括:基于分词处理结果进行关联性分析。

作为上述方法的一种改进,所述步骤3还包括:基于分词处理结果进行共现网络分析。

作为上述方法的一种改进,所述分词处理采用Jieba库分词组件进行分词,生成包含语义的词语组合。

作为上述方法的一种改进,所述抽取关键词采用基于MMR优化的 TextRank算法,生成最适合表达文本含义的摘要词语集合。

作为上述方法的一种改进,所述词频统计采用TF-IWF算法,生成出现频率由高到底的词语集合。

作为上述方法的一种改进,所述主题聚类采用LDA模型,生成话题的核心关键词语和具体概率。

作为上述方法的一种改进,所述热词筛选是提取步骤3产生结果中排名靠前的词语集合。

本申请还提供一种热词提取系统,所述系统包括:

收集数据模块,用于收集生态环境领域的文本信息;

分词处理模块,用于对收集的数据进行分词处理;

热词计算模块,用于基于分词处理结果抽取关键词,和/或基于分词处理结果进行词频统计,和/或基于分词处理结果进行主题聚类;

热词筛选模块,用于基于抽取关键词、词频统计和主题聚类的结果进行热词筛选。

本申请还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的方法。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上述任一项所述的方法。

根据本申请的技术方案,本申请的优势在于:

1、本申请回顾一段时间生态环境领域的热点、焦点,分析出一段时间生态领域的关键词,在宏观政策管理和舆论宣传引导上提供方向上的建议和参考。

2、在文本数据选择范围上,本申请结合媒体、舆论、官方等权威和非权威媒体进行分析,数据来源广泛。

3、在文本数据分析方法上,在词频统计基础上,本申请采用了聚类分析,用于建立不同词汇之间的联系,最后综合考虑相联系词汇的重要性和代表性进行词语筛选,提供了更为准确的关键词。

4、在文本词库上,由于生态环境领域的专业性,本申请基于实践经验提供了一套生态环境领域词库,用于文本词汇的分词和筛选。

5、考虑到生态环境热词在词性、词义上与其他主题词汇的差异及其特征的长词、连词和专有用词的特性,本申请在采用Jieba库分词组件通过指定分词的词典(包含碳生物多样性保护、碳排放权交易、“三线一单”、生态产品价值实现生态环保规划等重要特定词汇)和自定义的词典,替换掉默认的词典,保证关键特定词汇在分词中不被拆散给予保留。

6、考虑到TextRank挑选摘要句时会侧重于挑选那些与很多句子相似度高的句子,因此最后会导致挑选的很多句子冗余度比较高,从而遗漏一些带有其他主题信息却“势单力薄”的句子的缺点,MMR算法(最大边界相关算法)对TextRank进行优化,通过计算Query文本与被搜索文档之间的相似度,然后对文档进行rank排序的算法进而达到优化的目的。

7、考虑到TF-IDF算法采用文本逆频率IDF对TF值加权取权值大的作为关键词,但IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,结合生态环境热词中特征词高频出现的特征,所以TF-IDF算法的精度并不是很高,利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度计算,合并相似度较高的词语,通过词语逆频率TF-IWF算法,按权值排序得到关键词,解决生态环境热词中文关键词提取方法中对相似度高的词的不重视而导致关键词提取精度不高的问题。

8、考虑到生态环境热词文本数据量非常大时,LDA算法采样较慢,大文本数据下主题分类效率降低的问题,通过LDA并行优化方法与流程,可以提高LDA模型在大规模文本数据下的使用效率,解决生态环境热词来源广、数据多的问题。

本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:

图1为基于文本分析的生态环境领域热词提取方法流程图;

图2为分词处理示意图;

图3为采用2021年生态环境部微信公众号消息的TF(词汇频率)- IWF(逆词汇频率)结果示意图;

图4为采用2021年生态环境部微信公众号消息的关联性分析 (Correspondenceanalysis)结果示意图;

图5为采用2021年生态环境部微信公众号消息的聚类分析(Cluster analysis)结果示意图;

图6为采用2021年生态环境部微信公众号消息的共现网络分析(Co- OccurrenceNetwork analysis)结果示意图。

具体实施方式

下面将参考附图并结合实施方式来详细说明本申请的技术方案。

本申请目的在于回顾生态环境领域的热点、焦点话题,在一段时间中的生态环境事件里提炼出高热度关键点或关键词。一段时间可以是过去一周时间、一个月时间或者一年时间等,不限时间长短的一段时间,均可以作为本申请进行热词提取的输入。

如图1所示,本申请热词提取方法包括以下步骤:

步骤1:收集生态环境领域的文本数据;

本申请收集的生态环境领域的文本数据可以是有关生态环境领域的任何文本数据,包括:

基于官方发布的文本媒体(包括微信公众号),收集生态环境事件相关的一段时间所有文章文本。官方发布的文本媒体中,部分专栏发布数量较多,且发布时间频率高,因此需要剔除。另外,生态环境部官微发布的文章话题繁杂,趋向于发布宣传内容和平民化文章,无法反映生态环境部保护的专业性和热点的时间趋势,因此需要用新闻发布会的文字作为辅助分析样本。提取生态环境部每月新闻发布会文字,作为分析样本。同时,为了分析社会舆情的关注方向,还可以选取光明日报中生态环境保护、中国环境报中舆情频道等影响力大的报刊中生态环境相关栏目所有一段时间发布的文章作为分析样本。

另一方面根据历史和文献网等为参考资料。这部分分析样本则跳出生态环境主题先入为主的数据收集前提,从广泛的文本中提取生态环境热词主题,进而研究生态环境热词聚类与其他主题聚类的关系。

以及其他非官方发布的生态环境领域数据。

步骤2:分词处理;

分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,生成包含语义的词语组合。分词效果将直接影响词性、句法树等模块的效果。

本申请使用的分析样本是基于多渠道、多来源和多结构的文本数据集,进行文本分词处理时,可以使用HanLP方法、FoolNLTK方法或Jieba库对文本数据进行预处理。

HanLP方法是一种基于HMM-Bigram、由字构词和词典分词三种原理组成的分词方法,包括最短路径分词、N-最短路径分词、感知机分词、CRF 分词和极速词典分词算法。

FoolNLTK方法是基于循环神经网络分词,包括BiLSTM算法(暨双向LSTM模型)。

本申请使用基于python的中文分词模块Jieba库对文本数据进行预处理,并针对生态环境热词的特性,选用自定义词典(包含生物多样性保护、碳排放权交易、“三线一单”、生态产品价值实现生态环保规划等重要特定词汇)。Jieba库分词组件可用于中文文本的分词、词性标注和关键词抽取等功能,其主要工作流程如图2所示。Jieba分词中,首先通过对照典生成句子的有向无环图,再根据选择的模式不同,根据词典寻找最短路径后对句子进行截取或直接对句子进行截取。对于未登陆词 (不在词典中的词)使用HMM进行新词发现。

分词功能根据词典生成字典树,使用正则获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用DAG(查字典)和动态规划,得到最大概率路径暨最短路径,对句子进行截取或直接对句子进行截取,将切分的分词结果与非汉字部分依次连接起来,作为最终的分词结果。对DAG 中那些没有在字典中查到的字,组合成一个新的片段短语,使用HMM模型进行分词,即识别字典外的新词。中文词汇按照BEMS四个状态来标记, B是开始begin位置,E是是结束end位置,M是中间middle位置,S是 single单独成词的位置。使用词典文件分别存储字之间的表现概率矩阵、初始概率向量和转移概率矩阵,根据概率再利用viterbi算法对最大可能的隐藏状态进行求解,进而发现新词。词性分析对于词典词的词性,将直接从词典中提取,对于新词通过基于HMM模型的新词及其词性发现模块进行处理。以上所构建HMM模型为:

式中,S、O分别表示状态序列和观测序列。

步骤3:基于分词处理结果抽取关键词,和/或基于分词处理结果进行词频统计,和/或基于分词处理结果进行主题聚类;

抽取关键词可以采用Word2Vec算法或TextRank算法。

Word2Vec算法包括Word2Vec词向量表示和K-means聚类算法两个步骤,主要思路是对于用词向量表示的词语,通过K-Means算法对文章中的词进行聚类,选择聚类中心作为文本的一个主要关键词,计算其他词与聚类中心的距离即相似度,选择topK个距离聚类中心最近的词作为关键词,而这个词间相似度可用Word2Vec生成的向量计算得到。

本申请采用TextRank算法,生成最适合表达文本含义的摘要词语集合。基于MMR优化的TextRank算法是基于PageRank的一种利用投票机制对文本中重要成分进行排序的算法,最终生成根据重要成分由大到小的关键词序列;如果两个词在一个固定大小的窗口内共同出现过,则认为两个词之间存在连线,并定义得分如下:

式中,Vi为需要计算PR值的对象;

Vj为入链;

S(Vj)为Vj的PR值;

In(Vi)为所有入链的集合;

Out(Vj)为j中存在的指向对象的集合;

|Out(Vj)|为其个数;

d为阻尼系数,代表一定点指向其他任意点的概率。

词频统计采用TF-IDF算法,或者采用TF-IDF算法的优化算法TF- IWF,生成出现频率由高到底的词语集合。TF-IDF所求的权值一般很小,甚至接近于0,精确度也不高,而TF-IWF算法的计算结果恰能解决权值过小的问题。TF-IWF算法(词语逆频率方式计算加权算法)是一种用以评估字词在文档中重要程度的统计方法,将文本逆频率更换成词语逆频率,这种加权方法降低了文档集/语料库中同类文本对词权重的影响,更加精确地表达了词在待查文档中的重要程度。其核心思想是如果某个词在一篇文章中出现的频率即TF高,并且在其他文档中出现的很少,则认为这个词有很好的类别区分能力,其模型如下:

TF-IWF=tf

其中,

式中,n

其中,分子为语料库中所有词语的频数;分母为给定词在语料库中出现的频数之和。

实例中,采用2021年生态环境部微信公众号文本数据的TF(词汇频率)-IWF(逆词汇频率)结果如图3所示,TF-IWF分析结果主要用于作为后续词汇选取的参考,可以根据TF或IWF或同时考虑两者进行词汇选取,进而开展进一步的聚类、主题抽取、共线性等分析。

实例中,基于采用2021年生态环境部微信公众号文本数据的TF-IWF 分析结果,进行关联性分析(Correspondence analysis)结果如图4所示,关联性分析图主要基于TF、IWF计算的结果结合节点数据集(例如每日数据集、每章节数据集等)进行关联共现性展示,关联共现性主要用于探索词汇出现模式的异质性,例如每月1日的数据集的词汇之间有什么关联性、每个月的数据集的词汇之间有什么关联性等。

生态环境领域文本数据来源广、语义多、专业性强,且与社会经济发展等其他领域文本数据高频率共现,需要在文本数据向量化的基础上,依托文本词频统计和关键词提取的结果,从文字庞杂、结构复杂和语义混杂的文本数据中有效提取生态环境相关的主题,并解析不同主题(“生态环境”“经济发展”“能源产业”“交通运输”…)等之间的聚类关系。

主题聚类可以采用LSA(潜在语义分析模型)或LDA模型来进行。

LSA的特点是速度快,容易实现,但是其需要所研究的问题满足词语在文档中呈正态分布,条件苛刻,在非线性依赖关系的数据集中表现不佳。

本申请采用LDA模型进行主题聚类。在LDA算法理论下,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布,所以模型拟合的结果将呈现每个话题的核心关键词和具体概率,最终可得到根据概率从大到小排序的核心关键词序列。 LDA模型是一种主题模型,其文档集中的每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类,其主要模型是一个隐含狄利克雷分布模型如下:

LDA分类原理是一种无监督的贝叶斯模型、一种主题模型、一中无监督学习模型,其核心模型为:

P(词|文档)=P(词|主题)P(主题|文档)

数学表达式为:

P(w|d)=P(w|t)*P(t|d)

实例中,基于采用2021年生态环境部微信公众号文本数据的TF-IWF 分析结果,进行聚类分析(Cluster analysis)结果如图5所示,聚类分析图主要采用LDA模型初步对词汇进行主题聚类,进行主题聚类展示,聚类分析主要用于探索词汇与之间聚类进而形成主题的过程,例如图5中,不同形状代表了一个聚类,可以看出在实例数据中出现了8个聚类,这些聚类中也体现了词汇之间的关联性(不同形状之间有交叠)、词汇在聚类中的重要性差异(同一形状中有大有小)以及聚类本身的差异(有的聚类形状多,团簇大,有的词汇少,团簇小),但主题共现聚类只是初步探索了词汇形成主题的过程,还未完全实现主题的提取,下一步将通过LDA模型的优化,进一步提取主题。

实例中,基于采用2021年生态环境部微信公众号文本数据的聚类分析,进行共现网络分析(Co-Occurrence Network analysis)结果如图6所示,共现网络分析图主要采用LDA模型对主题聚类进行进一步主题提取,共现网络分析主要用于提取分析数据的主题,例如图6中,不同团簇之间出现分离,形成独立的主题,可以看出在实例数据中出现了8个主题,其中“生态环境”主题居中最大,包含了“生态”“环境”“治理”“经济”“发展”等词汇,单元较大的词汇重要性最高出现频率最大与其他词汇关联性也最大,其他主题中有的主题是“生态环境”主题的子主题,例如正上方的“气候变化”主题,有的与“生态环境”主题是互相关联的并列主题例如左边的主题,通过主题共现网络分析可以完成从非结构化文本数据到结构化主题的提取,以及分析主题与主题之间的远近关联,以及主题中最重要的词汇暨“热词”,通过时间序列主题提取的对比分析,还可以看出不同阶段目标主题的演变方式。

步骤4:热词筛选;

在剔除同义词和专业不相关词汇后,基于词频统计、TF-IWF统计、聚类分析和共现网络分析进而提取排名前十主题的关键词,共得到最多30个词语。热词的筛选和提取既要考虑三种统计方法的结果,也要考虑与生态环境相关性以及当年热点事件,如2021年《生物多样性公约》缔约方大会第十五次会议在云南昆明举行,生物多样性在词频和聚类分析中多次出现,因此选为当年热词。还要考虑主题聚类中的中心词汇(大部分情况下中心词汇暨高频词汇,如出现差异可进一步分析其原因)。进而得到目标时间序列内的生态环境热词。

本申请还可提供的一种计算机设备,包括:至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。

其中,用户接口可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器 (Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM, EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory, RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的 RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM, SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本申请上述的实施例中,还可通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于:

执行上述方法的步骤。

上述方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行上述公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合上述公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本申请描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device, DSPD)、可编程逻辑设备(Programmable Logic Device,PLD)、现场可编程门阵列(Field-Programmable GateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本申请的功能模块(例如过程、函数等)来实现本申请技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本申请还可提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。

以上详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。

此外,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。

技术分类

06120115630625