一种基于YAKE!关键词提取的主题自动标注方法

文献发布时间：2024-04-18 20:01:55

技术领域

本发明涉及互联网数据提取技术领域，尤其涉及一种基于YAKE！关键词提取的主题自动标注方法。

背景技术

随着信息产业的快速发展，在现如今信息爆炸的时代，如何从互联网海量的文本数据中快速、准确、全面地提取所需的信息是目前面临的一大挑战。主题模型是一类生成式概率模型，利用该类模型能够从大规模文本数据中自动抽取出隐含、抽象的主题信息，因而主题模型得到了极大的关注与发展。

然而研究者在实际应用中发现，主题模型抽取结果“主题-词汇”(topic-terms)不易于用户理解总结，而主题自动标注则是为主题(topic)生成一个标签(label)，以一种更直观的方式对主题抽取结果进行解释和描述。现有的主题自动标注方法生成的标签，没有实现主题语义的全面覆盖性，仅从单一语料库生成主题的候选标签(candidate labels)，导致最终的主题标签语义片面，给用户造成原文理解上的误差；其次区分度不够，导致某一主题的标签也可以作为其他主题的标签予以总结，对用户的可读性仍然带来了不便之处。因此，实现提高全面覆盖性和区分度的主题自动标注方法显得至关重要。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于YAKE！关键词提取的主题自动标注方法，能提高主题最优标签的全面覆盖性以及区分度，增强用户对主题模型结果的可读性以及可理解性。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于YAKE！关键词提取的主题自动标注方法，融合自身语料库以及外部资源获取候选标签集，采用基于YAKE！的候选标签提取算法从自身语料库中提取候选标签集，通过文档编号，将YAKE！生成的各文档候选短语择优作为主题的候选标签集；定义Local_All公式实现最优标签的选择，使得出的最终主题标签对当前主题重要程度越高的同时，在所有主题中的普遍度越低；最后对最优标签质量进行评估。

进一步地，所述获取候选标签集时，先对自身语料库中的XML文档数据进行数据预处理，包括去除XML标签、停用词和单独数字项，从语料库中删除少于20个词的文档，以及出现次数少于10次和超过5万次的词；然后在每个语料库上应用LDA主题模型训练，先选定每个主题获得100个主题，基于相关性进行过滤，去除相关性得分在0.3以下的主题，最终生成“文档-主题”和“主题-词”两个概率分布，并使用word2vec生成“主题-词向量”分布。

进一步地，所述自身语料库中提取候选标签集，对数据预处理后的语料库，基于YAKE！，从单词大小写W

进一步地，所述主题模型LDA生成的“主题-词”作为主题的候选标签集2。

进一步地，参考NETL算法，实现从外部语料库生成候选标签集，具体方法为：

首先对英文维基百科进行预处理，使用Wiki Extractor从中清洗并提取维基百科条目；过滤掉文章主体由少于40个单词组成的文章，并删除长度大于4个单词的标题，然后在英文维基百科文章上训练一个doc2vec模型，通过文档嵌入表示维基百科标题的嵌入；由于doc2vec内部运行word2vec，因此在训练过程中也会学习词嵌入；给定前N个主题术语，主题嵌入由这些主题术语的词嵌入表示；从而使用这些主题术语的词嵌入作为主题的候选标签集3。

进一步地，所述Local_All公式的定义过程如下：

给定一个文档集documents＝{d

主题θ

则Local_All公式的定义如下：

Local_All

式(1)体现的是当前主题θ

进一步地，所示对最优标签质量进行评估的具体方法为：

步骤3.1：生成标准答案；

对于每个主题，先对主题相关文档集合的标题进行组块分析；然后统计词项在所有标题中的词频，赋予组块权重为组块中包含的词项的词频之和；最后选择权重最高的组块作为最终的标准答案；

步骤3.2：采用计算机自动评测方法对主题标签结果进行评估，计算生成的主题标签和标准答案之间的相似度作为结果评测方法；采用基于WordNet语料库信息的自动评测方法。

采用上述技术方案所产生的有益效果在于：本发明提供的基于YAKE！关键词提取的主题自动标注方法，提供候选标签的方法基于YAKE！的候选标签提取算法，并结合从外部资源生成的候选标签集处理现有研究中主题标签全面覆盖性不够的问题，从而实现候选标签集的丰富性，主题标签的多选择性，提高了最优标签对主题的语义覆盖性。本发明定义的Local_All公式进行最优标签的选择。Local公式的计算结果体现的是候选标签对当前主题的重要程度；All公式的计算结果体现的是该候选标签在所有主题中的普遍度；求得的最终结果表明对当前主题重要程度越高的同时，在所有主题中的普遍度越低的候选标签视为该主题的最优标签。从而相较于现有的研究生成了区分度显著的主题标签，增强了用户对主题模型生成结果的可读性以及可理解性。

附图说明

图1为本发明实施例提供的整体技术路线示意图；

图2为本发明实施例提供的候选标签获取生成技术路线示意图；

图3为本发明实施例提供的使用YAKE！提取候选标签模块图；

图4为本发明实施例提供的候选标签生成算法流程图；

图5为本发明实施例提供的最优标签选择模块图；

图6为本发明实施例提供的最优标签选择算法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例针对主题自动标注方法的全面覆盖性问题，提出了融合自身语料库以及外部资源获取候选标签集的想法，并在从自身语料库中提取候选标签集的方法中予以创新，采用基于YAKE！的候选标签提取算法。通过文档编号，将YAKE！生成的各文档候选短语择优作为主题的候选标签集。其次针对主题最优标签的区分度问题，定义了Local_All公式，使得出的最终主题标签对当前主题重要程度越高的同时，在所有主题中的普遍度越低。从而得出区分度显著且全面覆盖性高的主题最优标签。如图1所示，本实施例的方法如下所述。

步骤1：实现候选标签集的生成获取，相关技术路线如图2所示。具体过程如下：

步骤1.1：对自身语料库中的XML文档数据进行数据预处理，包括去除XML标签、停用词和单独数字项，从语料库中删除少于20个词的文档，以及出现次数少于10次和超过5万次的词。然后在每个语料库上应用LDA主题模型训练，先选定每个主题获得100个主题，基于相关性进行过滤，去除相关性得分在0.3以下的主题，最终生成“文档-主题”和“主题-词”两个概率分布，并使用word2vec生成“主题-词向量”分布。

本实施例中，生成的某个“主题-词”分布为{language，computer,code，file，bar,programming，variable，button，document，club}。

步骤1.2：对预处理后的语料库实施YAKE！关键词提取算法，相应模块图如图3所示，具体算法流程如图4所示。按照YAKE！的想法从单词大小写(W

本实施例中，针对步骤1.1中主题生成的部分候选标签为{computer language，computer programming，document code}。

步骤1.3：考虑到单词也具有一定的概括性，并且LDA主题模型本身作为提取关键词的方法，因此其生成的“主题-词”也可以作为主题的候选标签集2。

步骤1.4：参考NETL算法，实现从外部语料库生成候选标签集，具体算法流程如图4所示。首先对英文维基百科进行预处理，使用Wiki Extractor从中清洗并提取维基百科条目。过滤掉文章主体由少于40个单词组成的文章，并删除长度大于4个单词的标题，然后在英文维基百科文章上训练一个doc2vec模型，通过文档嵌入表示维基百科标题的嵌入。由于doc2vec内部运行word2vec，因此在训练过程中也会学习词嵌入。给定前N个主题术语，主题嵌入由这些主题术语的词嵌入表示。从而使用这些主题术语的词嵌入作为主题的候选标签集3。

步骤2：定义Local_All公式实现最优标签的选择，相应模块图如图5所示，具体算法流程图如图6所示。具体过程如下：

给定一个文档集documents＝{d

主题θ

则Local_All公式的定义如下：

Local_All

式(1)体现的是当前主题θ

本实施例中，上述主题的候选标签的Local_All结果为{0.7837，0.8256，0.4829}。

步骤3：对最优标签质量进行评估。具体过程如下：

步骤3.1：先是生成标准答案。采用现有研究的质量评估方法，由于标题是文档信息的人工总结，来自标题的短语是和所在文档相关主题的合理标签。先是对于每个主题，对主题相关文档集合的标题进行组块分析；然后统计词项在所有标题中的词频，赋予组块权重为组块中包含的词项的词频之和；最后选择权重最高的组块作为最终的标准答案。

步骤3.2：采用计算机自动评测方法对主题标签结果进行评估，基本思路是计算本发明生成的主题标签和标准答案之间的相似度作为结果评测方法。采用已有的基于WordNet语料库信息的自动评测方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

完整全部详细技术资料下载