掌桥专利:专业的专利平台
掌桥专利
首页

一种融合语言模型与语义特征的关键词提取方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明属于自然语言处理技术领域,具体涉及一种融合语言模型与语义特征的关键词提取方法。

背景技术

关键词提取是指从文档中提取一组具有代表性的词语,是一项文本信息处理的基础任务,也是自然语言处理领域的一项重要课题,从文档中所提取的关键词可以看作是文档的一种简洁摘要,是快速获取文档主题内容的重要方式,可以用作文档的分类、聚类、生成摘要、以及推荐等,对于自然语言处理的许多领域而言都是至关重要的。

关键词提取主要有三种方式:有监督关键词提取、半监督关键词提取和无监督关键词提取。有监督关键词提取,需要提供标注好的训练语料,基于训练语料训练关键词提取模型,主要分为基于传统机器学习分类提取、基于序列标注模型提取和基于统计机器翻译提取等。半监督关键词提取,首先基于少量训练语料初步构建关键词提取模型,然后使用模型对新的文档进行关键词提取,再对提取到的关键词进行人工过滤整合,加入训练集,重新训练模型。无监督关键词提取,不需要人工标注语料,基于文本特征提取关键词。

由于数据标注需要的人工成本高,因此现有的文本关键词提取主要采用适用性较强的无监督关键词提取。传统的无监督关键词提取主要分为三大类,基于统计特征的关键词提取、基于词图模型的关键词提取和基于主题模型的关键词提取。基于统计特征的关键词提取,主要利用文档中词语的统计信息提取关键词,首先对文本进行预处理得到候选词集合,然后采用特征值量化的方式从候选集合中筛选关键词。常用的特征值有词性、词频、位置信息、互信息、词跨度等,比如TF-IDF算法。基于词图模型的关键词提取,首先构建文档的语言网络图,然后计算分析网络图上具有重要作用的词或者短语,将其作为关键词。比如TextRank、PositionRank算法等。基于主题模型的关键词提取,主要利用主题模型中关于主题分布的性质进行关键词提取,比如pLSA,LDA等。然而各类传统的无监督关键词提取均存在语义缺失问题,导致在目前应用中关键词提取准确性较为有限。

发明内容

本发明的目的在于提供一种融合语言模型与语义特征的关键词提取方法,提升关键词提取的准确性和多样性。

为实现上述目的,本发明所采取的技术方案为:

一种融合语言模型与语义特征的关键词提取方法,所述融合语言模型与语义特征的关键词提取方法,包括:

步骤1、提取目标文本中的名词和名词短语构成候选词集合,利用语言模型分别针对目标文本和候选词集合生成目标文本表征向量和候选词表征向量;

步骤2、对所述候选词表征向量降维后进行聚类操作,得到具有若干个聚类的聚类集合;

步骤3、基于候选词与目标文本的语义相似度确定各聚类待提取关键词的名额,并从各聚类中筛选对应名额的候选词,生成候选关键词集合;

步骤4、利用最大边界相关算法从候选关键词集合中提取候选词,得到最终关键词;

其中,所述基于候选词与目标文本的语义相似度确定各聚类待提取关键词的名额,包括:

步骤31、对每个候选词,计算其候选词表征向量与目标文本的目标文本表征向量的余弦相似度,将计算的余弦相似度作为候选词的语义权重;

步骤32、对聚类集合中每个聚类,计算每个聚类中包含的候选词的语义权重的平均值,并根据平均值得到每个聚类的语义权重;

步骤33、对每个聚类的语义权重进行归一化,将归一化后的值作为对应聚类的语义份额,并根据语义份额生成每个聚类待提取关键词的名额。

以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。

作为优选,所述对候选词表征向量降维后进行聚类操作,包括:

通过UMAP降维算法,对每个候选词表征向量进行降维,得到降维后的候选词表征向量;

通过HDBSCAN聚类算法,对降维后的候选词表征向量进行聚类,得到一个聚类集合C={c

作为优选,所述根据平均值得到每个聚类的语义权重,包括:

r

式中,r

作为优选,所述根据语义份额生成每个聚类待提取关键词的名额,包括:

a

式中,a

作为优选,所述预设的待生成的候选关键词集合中候选词的数量a为提取的最终关键词的数量的3~5倍。

作为优选,所述并从各聚类中筛选对应名额的候选词,生成候选关键词集合,包括:

在各聚类下按照候选词的语义权重,从高到低取对应名额的候选词,汇总各聚类下的候选词,生成候选关键词集合H={h

本发明提供的融合语言模型与语义特征的关键词提取方法,与现有技术相比具有以下有益效果:

1、采用预训练语言模型,基于语义提取关键词,提升了新词的准确率。

2、通过候选词语义聚类,基于聚类语义权重分配各聚类待提取关键词名额,在保证待提取关键词语义全面性的情况下,剔除了部分非关键词。

3、通过最大边界相关算法提取候选词,保证了关键词的准确性和多样性。

附图说明

图1为本发明的融合语言模型与语义特征的关键词提取方法的流程图;

图2为本发明目标文本表征和候选词表征的流程图;

图3为本发明候选词筛选的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。

在一个实施例中,针对现有技术中传统的无监督关键词提取存在的语义缺失问题,本实施例在现有的深度学习技术上,基于预训练语言模型获取文本语义向量表示,并通过降维、聚类、最大边界相关等算法,研究基于语义的自动关键词提取算法来显著提升无监督关键词提取准确度。

具体如图1所示,本实施例的融合预训练语言模型与语义特征的关键词提取方法,包括如下步骤:

步骤1、提取目标文本中的名词和名词短语构成候选词集合,利用语言模型分别针对目标文本和候选词集合生成目标文本表征向量和候选词表征向量。具体步骤如图2所示:

步骤1.1、候选词提取:给定目标文本D,对D进行分词和词性标注,提取名词和名词短语作为候选词,得到候选词集合W={w

步骤1.2、文本向量表征:将D输入预训练的语言模型Sentence-BERT(若D的长度超过预训练语言模型允许的最长输入序列,则根据目标文本特点,选择从前往后取指定token或者首尾各取指定token作为输入),得到D的表征向量v

步骤1.3、候选词向量表征:将候选词集合W输入预训练语言模型,得到每个候选词w

步骤2、对所述候选词表征向量降维后进行聚类操作,得到具有若干个聚类的聚类集合。

步骤2.1、候选词表征向量降维:通过UMAP降维算法,对每个候选词w

步骤2.2、候选词表征向量聚类:通过HDBSCAN聚类算法,对降维后的候选词w

步骤3、聚类语义筛选:基于候选词与目标文本的语义相似度确定各聚类待提取关键词的名额,并从各聚类中筛选对应名额的候选词,生成候选关键词集合。

为了提高关键词提取准确度,本实施例采用对候选词进行双层筛选的方式提取关键词,其中对候选词进行初步筛选操作:首先,基于聚类中候选词与目标文本的语义相似度计算聚类语义权重;然后,基于聚类语义权重,分配各聚类待提取关键词的名额,并筛选候选词。具体步骤如图3所示:

步骤31、候选词语义权重计算:对每个候选词w

步骤32、聚类语义权重计算:对聚类集合C中每个聚类c

r

式中,r

步骤33、对每个聚类的语义权重进行归一化,将归一化后的值作为对应聚类的语义份额,并根据语义份额生成每个聚类待提取关键词的名额。

聚类权重归一化:为了避免聚类误差影响关键词提取,本实施例对语义权重r

式中,j不取被剔除的聚类对应的标号。

聚类候选词名额:拟对目标文本D提取k个关键词,则计算各聚类c

a

式中,a

通常,预设的待生成的候选关键词集合中候选词的数量a为提取的最终关键词的数量的3~5倍,用于扩大关键词的筛选范围,同时考虑筛选效率。本实施例根据候选词与目标文本的相似度为每个聚类分配名额,实现名额的动态分配。保证初步筛选的候选词既具有代表性,又保证初步筛选得到的候选关键词集合具有多样性。

聚类候选词筛选:确定各聚类的名额后,对各聚类c

步骤4、利用最大边界相关算法从候选关键词集合中提取候选词,得到最终关键词。

在一个实施例中,通过MMR最大边界相关算法,计算候选关键词集合中每个候选词的排序分数score(h

式中,score(h

本实施例对初步筛选得到的候选关键词集合进行二次筛选以保证提取关键词的准确度,并且在二次筛选中同时考虑当前候选词与目标文本、已选定关键词之间的相似度,保证最终提取的关键词具有相关性和多样性。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

相关技术
  • 一种融合语言模型与语义特征的关键词提取方法
  • 基于深度学习语言模型融合语义特征的关键词提取方法
技术分类

06120114726831