掌桥专利:专业的专利平台
掌桥专利
首页

一种基于BERTopic主题识别模型的科技项目技术主题识别方法

文献发布时间:2024-04-18 20:01:23


一种基于BERTopic主题识别模型的科技项目技术主题识别方法

技术领域

本发明涉及一种基于BERTopic主题识别模型的科技项目技术主题识别方法。

背景技术

文本的自动编码技术可以分为两类,分别是基于自然语言的有监督学习自动编码技术和和无监督学习自动编码技术,这两种方法各有优点和不足,对于不同的数据集会产生的效果是不一样的。

主题模型是一种无监督的生成式概率统计模型,该模型认为文档与词项之间存在着一种隐含的、抽象的信息,即主题。近年来,随着大数据分析的发展,主题模型在文本挖掘、自然语言处理等领域的应用越来越广泛,主题模型得到极大的关注并且迅速发展。目前,主题模型在自动编码应用上面也取得了一定的成就,基于对主题模型的含义和原理的理解,对各热门主题模型进行总结如下表1所示。TF-IDF和LSA模型适用于对短文本进行主题提取,前者简单易懂、计算速度快,但不能发现潜在主题,后者能够找到隐藏在文本中的潜在主题,但计算时间较长且无法解释主题的含义;PLSA和LDA模型适用于长文本主题提取和文本分类等任务,前者能够发现潜在主题并且给出主题和单词的分布概率,但计算时间较长且不适用于处理新数据,后者能够发现潜在主题并且给出主题和单词的分布概率、对于新数据的处理效果较好、可解释性较好,但计算时间较长。BERTopic无需主题数量等参数的设定就可以轻松提取主题信息,是当前最新最热门的主题模型。

科技项目技术主题识别指通过挖掘科技项目名称获得科技项目主题。BERTopic是一种主题建模技术,其利用BERT嵌入和基于聚类的TF-IDF来创建密集的聚类,其还使用统一面域逼近和投影(uniform manifold approximation and projection,UMAP)技术,在对文档进行聚类之前降低嵌入的维度,能够轻松解释主题,并在主题描述中保留重要的单词。与LDA等主题提取方法不同的是,BERTopic无需超参数的设置免去了复杂的参数尝试步骤。

表1,主题模型总结表:

BERTopic是一种主题建模技术,它利用Transformer和c-TF-IDF来创建密集的集群,允许轻松解释主题,同时在主题描述中保留重要词。

发明内容

本发明的目的是克服现有技术的缺陷,提供一种基于BERTopic主题识别模型的科技项目技术主题识别方法,无需复杂的参数设置就可以快速轻松提取科技项目的技术主题信息。

实现上述目的的技术方案是:一种基于BERTopic主题识别模型的科技项目技术主题识别方法,包括以下步骤:

S1,嵌入科技项目名称数据,使用BERT提取文档嵌入;

S2,降维和聚类,使用UMAP降低嵌入的维数;并分别将每个科技项目项目名称的词向量输入HDBSCAN,HDBSCAN自动推荐最优的簇类结果,HDBSCAN输出的聚类数量为最终提取的各个科技项目名称的技术主题数量;

S3,创建技术主题,使用TF-IDF评价每个词对每个HDBSCAN聚类的重要性,对主题进行提取和精简,最终获取每个技术主题中重要的单词,得到技术主题的主题词;

S4,根据技术主题的主题词划分科技项目数据,实现技术主题识别。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,步骤S1中,BERT是一种自然语言预处理模型,使用来自语言模型的表述进行迁移学习,且与上下文无关,只需要无标记的数据。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,其中,将科技项目的名称输入一个基于英语BERT模型,使用双向Transformer结构计算研究内容的词向量。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,步骤S2中,UMAP在高维中使用指数概率分布,任何距离均可以代入直接计算,其使用随机梯度下降代替常规梯度下降,既加快了计算速度,又减少了内存消耗。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,步骤S3中,TF是词频,表示一个词在一类文本中出现的频率;IDF是逆向文件频率,一个词的IDF由一个聚类中总文献数据数目除以包含该词的文献数据的数目,再将商取对数得到。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,其中,如果包含单词的文档越少,IDF越大,说明词条具有很好的类别区分能力。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,其中,当有一个词的TF和IDF时,将这个词的TF和IDF相乘,得到一个词的TF-IDF的值。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,其中,某个词在文章中的TF-IDF越大,那么这个词的重要性就越高,通过计算文章中各个词的TF-IDF,并由大到小排序,排在最前面的几个词,就是关键词,每个关键词的TF-IDF值就是其在该主题下的权重。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,步骤S4中,根据不同技术主题的主题词在每个科技项目的名称中出现的频率,计算科技项目名称与主题词的匹配程度,如果在一个科技项目的名称中一个技术主题的主题词的出现频率比其他技术主题的主题词频率高,则将科技项目划分到主题词的出现频率高的技术主题。

上述的一种基于BERTopic主题识别模型的科技项目技术主题识别方法,其中,科技项目具有7个技术主题,分别为电力数字技术、智能传感技术、“双碳”服务技术、运营管理技术、大数据分析技术、电力治理技术和人工智能技术。

本发明的基于BERTopic主题识别模型的科技项目技术主题识别方法,无需复杂的参数设置就可以快速轻松提取科技项目的技术主题信息。

附图说明

图1为本发明的基于BERTopic主题识别模型的科技项目技术主题识别方法的流程图。

具体实施方式

为了使本技术领域的技术人员能更好地理解本发明的技术方案,下面结合附图对其具体实施方式进行详细地说明:

请参阅图1,本发明的最佳实施例,一种基于BERTopic主题识别模型的科技项目技术主题识别方法,包括以下步骤:

S1,嵌入科技项目名称数据,使用BERT提取文档嵌入;BERT是一种自然语言预处理模型,使用来自语言模型的表述进行迁移学习,且与上下文无关,只需要无标记的数据;将科技项目的名称输入一个基于英语BERT模型,使用双向Transformer结构计算研究内容的词向量;

S2,降维和聚类,t-SNE未保留全局数据结构,所以只有在集群距离内才有意义,且计算需要占用大量的内容,而UMAP在高维中使用指数概率分布,任何距离均可以代入直接计算,其使用随机梯度下降(stochastic gradient descent,SGD)代替常规梯度下降(gradient descent,GD),这既加快了计算速度,又减少了内存消耗。因此BERTopic使用UMAP降低嵌入的维数。分别将每个科技项目项目名称的词向量输入HDBSCAN,可以自动地推荐最优的簇类结果。HDBSCAN输出的聚类数量为最终提取的各个科技项目名称的技术主题数量;

S3,创建技术主题,使用TF-IDF评价每个词对每个HDBSCAN聚类的重要性,对主题进行提取和精简,最终获取每个技术主题中重要的单词,得到技术主题的主题词;TF是词频,表示一个词在一类文本中出现的频率;IDF是逆向文件频率,一个词的IDF由一个聚类中总文献数据数目除以包含该词的文献数据的数目,再将商取对数得到。如果包含单词的文档越少,IDF越大,说明词条具有很好的类别区分能力。当有一个词的TF和IDF时,将这个词的TF和IDF相乘,得到一个词的TF-IDF的值。某个词在文章中的TF-IDF越大,那么这个词的重要性就越高,通过计算文章中各个词的TF-IDF,并由大到小排序,排在最前面的几个词,就是关键词,每个关键词的TF-IDF值就是其在该主题下的权重。因此,使用TF-IDF评价每个词对每个HDBSCAN聚类的重要性,对主题进行提取和精简,可提高最大边缘关联词的一致性;

S4,根据技术主题的主题词划分科技项目数据,根据不同技术主题的主题词在每个科技项目的名称中出现的频率,计算科技项目名称与主题词的匹配程度,如果在一个科技项目的名称中一个技术主题A的主题词的出现频率比其他技术主题的主题词频率高,则将科技项目划分到主题词的出现频率高的技术主题A。

经过BERTopic主题识别模型训练得到科技项目的7个技术主题,即:电力数字技术、智能传感技术、“双碳”服务技术、运营管理技术、大数据分析技术、电力治理技术和人工智能技术,每个技术主题的详细信息见表2。表2包括技术主题名称,每个技术主题除去粗粒度关键词后的10个代表性关键词和每个技术主题的科技项目数量。

表2,科技项目技术主题分类表:

综上所述,本发明的基于BERTopic主题识别模型的科技项目技术主题识别方法,利用BERT嵌入和基于聚类的TF-IDF来创建密集的聚类,其还使用统一面域逼近和投影(uniform manifold approximation and projection,UMAP)技术,在对文档进行聚类之前降低嵌入的维度,能够轻松解释主题,并在主题描述中保留重要的单词,免去了复杂的参数尝试步骤,无需复杂的参数设置就可以快速轻松提取科技项目的技术主题信息。

本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

技术分类

06120116546624