掌桥专利:专业的专利平台
掌桥专利
首页

一种热词挖掘方法、装置、设备及存储介质

文献发布时间:2023-06-19 13:49:36


一种热词挖掘方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种热词挖掘方法、装置、设备及存储介质。

背景技术

热词是指在某段时间内使用频率较高的词语,往往具有时代特征,反映一个时期的热点话题,热词通常与社会事件或现象联系紧密,成为民意表达与舆论监督的工具,如何获取热词已成为一个具有挑战性的课题。为了获取热词,热词发现技术应运而生,热词发现技术可应用于中文分词、中文信息检索、输入法、舆情分析等诸多任务中。

目前的热词发现方案为,收集用户大量的使用纪录,通过统计用户对于词条的使用次数,确定词条是否为热词。由于目前的热词发现方案需要收集用户大量的使用纪录,因此,其安全性和隐私性值得商榷,另外,现有的热词发现方案无法及时发现热词。

发明内容

有鉴于此,本申请提供了一种热词挖掘方法、装置、设备及存储介质,用以解决现有的热词发现方案存在安全性和隐私性问题,以及无法及时发现热词的问题,其技术方案如下:

一种热词挖掘方法,包括:

获取目标文本中标题的表达向量,其中,所述目标文本包含所述标题和所述标题对应的正文;

利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量;

根据所述标题的表达向量和所述正文的表达向量生成热词。

可选的,所述获取目标文本中标题的表达向量,包括:

获取所述标题的分词结果;

针对所述标题的分词结果中的每个词,获取该词的词向量以及该词中每个字的字向量,并根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量;

根据所述标题的分词结果中各个词的字词结合向量,确定所述标题的表达向量。

可选的,所述获取所述标题的分词结果,包括:

采用多种不同的分词方式对所述标题进行分词处理,以得到所述标题的多种分词结果;

根据所述标题的多种分词结果中的交集部分,对所述标题进行分词,得到的分词结果作为所述标题的最终分词结果。

可选的,所述根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量,包括:

确定该词中各个字的字向量的平均值,以得到该词的平均字向量;

将该词的词向量与该词的平均字向量融合,融合后向量作为该词的字词结合向量。

可选的,所述利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量,包括:

获取所述正文的分词结果,并确定所述正文的分词结果中每个词的字词结合向量,其中,一个词的字词结合向量能够表征该词的词级别语义信息和字级别语义信息;

利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词对于正文表达的贡献度;

根据所述正文的分词结果中每个词对于正文表达的贡献度以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的表达向量。

可选的,所述利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词对于正文表达的贡献度,包括:

根据所述标题的表达向量和所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词与所述标题的相关度得分;

根据所述正文的分词结果中每个词的位置信息以及对应的标题词在所述正文中的位置信息,确定所述正文的分词结果中每个词与对应的标题词的相对距离,其中,所述正文的分词结果中一个词对应的标题词为所述标题的分词结果中位于以该词为中心、以预设值为半径的范围内的词;

根据所述正文的分词结果中每个词与所述标题的相关度得分和所述正文的分词结果中每个词与对应的标题词的相对距离,确定所述正文的分词结果中每个词对于正文表达的贡献度。

可选的,所述获取目标文本中标题的表达向量,所述利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量,以及所述根据所述标题的表达向量和所述正文的表达向量生成热词,包括:

利用预先建立的热词挖掘模型,对所述目标文本中的标题和正文进行处理,以生成热词;

其中,所述热词挖掘模型采用包含有标题和正文且标注有热词的训练文本训练得到。

可选的,所述热词挖掘模型包括:字词结合向量确定模块、编码模块、注意力模块和解码模块;

所述字词结合向量确定模块确定所述标题的分词结果中每个词的字词结合向量以及所述正文的分词结果中每个词的字词结合向量,其中,一个词的字词结合向量为能够表征该词的词级别语义信息和字级别语义信息的向量;

所述编码模块对所述标题的分词结果中各个词的字词结合向量进行编码,输出所述标题的表达向量;

所述注意力模块利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的表达向量;

所述解码模块对所述标题的表达向量和所述正文的表达向量进行解码,输出挖掘出的热词。

可选的,所述解码模块对所述标题的表达向量和所述正文的表达向量进行解码,输出挖掘出的热词,包括:

所述解码模块在每个解码时刻,根据所述标题的表达向量和所述正文的表达向量、前一解码时刻预测的热词以及前一解码时刻的热词预测向量,预测当前解码时刻的热词并输出,其中,所述前一解码时刻的热词预测向量为用于预测前一解码时刻的热词的向量。

可选的,所述根据所述标题的表达向量和所述正文的表达向量、前一解码时刻预测的热词以及前一解码时刻的热词预测向量,预测当前解码时刻的热词,包括:

根据所述标题的表达向量和所述正文的表达向量、前一解码时刻预测的热词以及前一解码时刻的热词预测向量,预测当前解码时刻的热词预测向量;

根据当前解码时刻的热词预测向量,预测词表中的每个词为热词的概率,其中,所述词表中的词为所述标题和所述正文中的词;

根据所述词表中的每个词为热词的概率,确定当前解码时刻的热词。

一种热词挖掘装置,包括:标题表达模块、正文表达模块和热词生成模块;

所述标题表达模块,用于获取目标文本中标题的表达向量,其中,所述目标文本包含所述标题和所述标题对应的正文;

所述正文表达模块,用于利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量;

所述热词生成模块,用于根据所述标题的表达向量和所述正文的表达向量生成热词。

一种热词挖掘设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述任一项所述的热词挖掘方法的各个步骤。

一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述任一项所述的热词挖掘方法的各个步骤。

经由上述方案可知,本申请提供的热词挖掘方法、装置、设备及存储介质,在获得包含标题和正文的目标文本后,首先获取目标文本中标题的表达向量,然后利用标题的信息确定正文中每个词对于正文表达的贡献度,并根据正文中每个词对于正文表达的贡献度确定正文的表达向量,最后根据标题的表达向量和正文的表达向量生成热词。本申请提供的热词挖掘方法由于不需要收集用户大量的使用纪录,只是对标题和正文进行处理,因此,避免了安全性和隐私性问题,另外,只要获得目标文本,采用本申请提供的热词挖掘方法就可从中及时挖掘出热词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的热词挖掘方法的流程示意图;

图2为本申请实施例提供的热词挖掘模型的一示例的示意图;

图3为本申请实施例提供的热词挖掘装置的结构示意图;

图4为本申请实施例提供的热词挖掘设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

鉴于现有的热词发现方案存在诸多缺陷,比如,无法及时发现热词、收集大量用户的使用纪录会带来安全性问题等,申请人进行了深入研究,通过不断研究,最终提出了一种热词挖掘方法,该热词挖掘方法不需要收集大量用户的使用纪录,可从包含主题和正文的文本(比如新闻)中及时挖掘出热词,该方法可应用于中文分词、中文信息检索、输入法、舆情分析等诸多任务中。

本申请提供的热词挖掘方法可应用于具有数据处理能力的电子设备,该电子设备可以为网络侧的服务器(可以为单个服务器,也可以为多个服务器或服务器集群),也可以为用户侧使用的终端,比如智能手机、PC、笔记本、PAD等,服务器或终端可获取待挖掘文本,采用本申请提供的热词挖掘方法从待挖掘文本中挖掘出热词。接下来通过下述实施例对本申请提供的热词挖掘方法进行介绍。

请参阅图1,示出了本申请实施例提供的热词挖掘方法的流程示意图,该方法可以包括:

步骤S101:获取目标文本中标题的表达向量。

其中,目标文本为待挖掘热词的文本,其包含标题和标题对应的正文。可选的,目标文本可以为实时的新闻,当然,本实施例并不限定于此,目标文本可以为任何需要进行热词挖掘的文本。

本实施例中,目标文本中标题的表达向量为能够表征目标文本中整个标题的向量。具体的,获取目标文本中标题的表达向量的过程可以包括:

步骤S1011:获取标题的分词结果。

获取标题的分词结果的实现方式有多种:

在一种可能的实现方式中,可采用现有的一种分词方式(比如,基于LTP分词工具的分词方式)对标题进行分词,得到的分词结果作为标题的最终非此结果。

示例性的,标题为“鸟巢的五星烟花是为了这一刻”,采用基于LTP分词工具的分词方式对该标题进行分词,得到的分词结果为“鸟巢/的/五星烟花/是/为了/这/一刻”,将该分词结果作为标题“鸟巢的五星烟花是为了这一刻”的最终分词结果。

为了提升热词挖掘效果,在另一种可能的实现方式中,可采用多种不同的分词方式对标题进行分词处理,以得到标题的多种分词结果,然后根据标题的多种分词结果中的交集部分对标题进行分词,得到的分词结果作为标题的最终分词结果,具体的,以标题的多种分词结果中的交集部分为分割点对标题进行分词。

示例性的,标题为“鸟巢的五星烟花是为了这一刻”,采用基于LTP分词工具的分词方式对该标题进行分词,得到的分词结果为“鸟巢/的/五星烟花/是/为了/这/一刻”,采用基于jieba分词工具的分词方式对标题进行分词,得到的分词结果为“鸟巢/的/五星/烟花/是/为了/这/一刻”,采用基于词典(比如腾讯800w词典)的分词方式对标题进行分词,得到的分词结果为“鸟巢/的/五星/烟花/是/为了/这一刻”,由于三个分词结果的交集为“鸟巢”、“的”、“是”、“为了”,因此,将“鸟巢”、“的”、“是”、“为了”作为分割点对标题进行分词,得到的分词结果为“鸟巢/的/五星烟花/是/为了/这一刻”,该分词结果为标题“鸟巢的五星烟花是为了这一刻”的最终分词结果。

步骤S1012:针对标题的分词结果中的每个词,获取该词的词向量以及该词中每个字的字向量,并根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量。

其中,根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量的过程可以包括:

步骤a1、确定该词中各个字的字向量的平均值,以得到该词的平均字向量。

假设该词为W

步骤a2、将该词的词向量与该词的平均字向量融合,融合后向量作为该词的字词结合向量。

将该词的词向量与该词的平均字向量融合的方式有多种:

在一种可能的实现方式中,可将该词的词向量与该词的平均字向量求和,求和后向量作为该词的字词结合向量。

在另一种可能的实现方式中,可将该词的词向量与该词的平均字向量求均值,求得到的均值作为该词的字词结合向量。

假设该词为W

经由步骤S1012可获得标题的分词结果中每个词的字词结合向量。

步骤a3、根据标题的分词结果中各个词的字词结合向量,确定标题的表达向量。

步骤S102:利用标题的信息确定正文中每个词对于正文表达的贡献度,并根据正文中每个词对于正文表达的贡献度确定正文的表达向量。

具体的,利用标题的信息确定正文中每个词对于正文表达的贡献度,并根据正文中每个词对于正文表达的贡献度确定正文的表达向量的过程可以包括:

步骤S1021、获取正文的分词结果,并确定正文的分词结果中每个词的字词结合向量。

其中,正文中一个词的字词结合向量为能够表征该词的词级别语义信息和字级别语义信息的向量。

其中,获取正文的分词结果的过程包括:对正文进行分句处理,获取分句处理得到的每个句子的分词结果,此处获取每个句子的分词结果的具体实现方式与上述获取标题的分词结果的具体实现方式类似,本实施例在此不做赘述。可选的,在对正文进行分句处理时,可使句子的最大长度为50。

在获得分句处理得到的每个句子的分词结果后,确定分句处理得到的每个句子的分词结果中每个词的字词结合向量,此处获取分句处理得到的每个句子的分词结果中每个词的字词结合向量的具体实现过程与获取标题的分词结果中每个词的字词结合向量的具体实现过程类似,本实施例在此不做赘述。

步骤S1022、利用标题的表达向量、标题的分词结果中每个词在正文中的位置信息以及正文的分词结果中每个词的字词结合向量,确定正文的分词结果中每个词对于正文表达的贡献度。

具体的,利用标题的表达向量、标题的分词结果中每个词在正文中的位置信息以及正文的分词结果中每个词的字词结合向量,确定正文的分词结果中每个词对于正文表达的贡献度的过程可以包括:

步骤b1、根据标题的表达向量和正文的分词结果中每个词的字词结合向量,确定正文的分词结果中每个词与标题的相关度得分。

步骤b2、根据正文的分词结果中每个词的位置信息以及对应的标题词在正文中的位置信息,确定正文的分词结果中每个词与对应的标题词的相对距离。

其中,正文的分词结果中一个词(假设为w)对应的标题词为标题的分词结果中的词,词w对应的标题词为位于正文中以词w为中心、以预设值D(比如5)为半径的范围内的词。

步骤b3、根据正文的分词结果中每个词与标题的相关度得分和正文的分词结果中每个词与对应的标题词的相对距离,确定正文的分词结果中每个词对于正文表达的贡献度。

考虑到标题中的热词大多和正文热词在句子中的位置是强相关,为此,本申请在确定正文的分词结果中每个词对于正文表达的贡献度时,引入这一信息。

步骤S1023、根据正文的分词结果中每个词对于正文表达的贡献度以及正文的分词结果中每个词的字词结合向量,确定正文的表达向量。

具体的,按正文的分词结果中各个词对于正文表达的贡献度对正文的分词结果中各个词的字词结合向量加权求和,加权求和后向量作为正文的表达向量。

步骤S103:根据标题的表达向量和正文的表达向量生成热词。

具体的,根据标题的表达向量和正文的表达向量逐个预测热词,更为具体的,在预测每个热词时,根据标题的表达向量和正文的表达向量、预测出的上一个热词以及用于预测上一个热词的热词预测向量,确定当前的热词预测向量,根据当前的热词预测向量预测词表中的每个词为热词的概率,将最大概率对应的词确定为当前预测出的热词。其中,词表中的词为目标文本中的标题和正文中的词。

本申请实施例提供的热词挖掘方法,在获得包含标题和正文的目标文本后,首先获取目标文本中标题的表达向量,然后利用标题的信息确定正文中每个词对于正文表达的贡献度,并根据正文中每个词对于正文表达的贡献度确定正文的表达向量,最后根据标题的表达向量和正文的表达向量生成热词。本申请实施例提供的热词挖掘方法由于不需要收集用户大量的使用纪录,只是对标题和正文进行处理,因此,避免了收集用户大量的使用纪录所带来的安全性和隐私性问题,另外,只要获得目标文本,采用本申请提供的热词挖掘方法就可从中及时挖掘出热词。

在一种可能的实现方式中,上述实施例中的步骤S101~步骤S103可利用预先建立的热词挖掘模型实现,即,利用预先建立的热词挖掘模型,对目标文本中的标题和正文进行处理以生成热词(即,对目标文本中的标题和正文进行的处理包括:获取目标文本中标题的表达向量,利用标题的信息确定正文中每个词对于正文表达的贡献度,根据正文中每个词对于正文表达的贡献度确定正文的表达向量,根据标题的表达向量和正文的表达向量生成热词)。

可选的,如图2所示,热词挖掘模型可以包括:字词结合向量确定模块201、编码模块202、注意力模块203和解码模块204。下面对利用图2示出的热词挖掘模型对目标文本中的标题和正文进行处理以生成热词的过程进行介绍。

(1)将标题的分词结果输入热词挖掘模型的字词结合向量201,字词结合向量201按第一实施例中提供的字词结合向量确定方式确定标题的分词结果中每个词的字词结合向量;同样的,将正文的分句结果中每个句子的分词结果输入热词挖掘模型的字词结合向量201,字词结合向量201确定正文的分句结果中每个句子的分词结果中每个词的字词结合向量。

如图2所示,将标题的分词结果“白鹤滩/水电站/首批/机组/正式/投产/发电”输入热词挖掘模型的字词结合向量201,字词结合向量201输出标题的分词结果中每个词的字词结合向量,正文的分句结果中每个句子的分词结果进行同样的处理。

(2)将标题的分词结果中各个词的字词结合向量输入热词挖掘模型的编码模块202,编码模块202对标题的分词结果中各个词的字词结合向量进行编码,输出标题的表达向量。

可选的,热词挖掘模型的编码模块202可以但不限定为BiLSTM、transformer等。从处理效果和处理效率考虑,热词挖掘模型的编码模块202优选BiLSTM。

(3)将标题的表达向量、标题的分词结果中每个词在正文中的位置信息、正文的分词结果中每个词的位置信息以及正文的分词结果中每个词的字词结合向量输入热词挖掘模型的注意力模块203,注意力模块203首先根据输入的信息确定正文的分词结果中每个词对于正文表达的贡献度,然后根据正文的分词结果中每个词对于正文表达的贡献度和正文的分词结果中每个词的字词结合向量确定正文的表达向量。

需要说明的是,本申请的核心在于如何利用标题和正文中可获取的信息实现热词的挖掘,可以理解的是,标题言简意赅,其为正文的浓缩,正文是对标题的信息扩充,有很多隐藏的信息和词在正文中才能出现,然而,正文包含的信息存在冗余,因此,需要采用一定的策略,获取正文中较为关键的词的表达,作为在正文的表达,为此,本申请提出了一种基于标题和正文联动的专注注意力机制,即,利用标题的信息确定正文的表达向量。

可选的,注意力模块203可按下式示出的计算方式计算正文的分词结果中每个词对于正文表达的贡献度:

其中,w

在获得正文的分词结果中每个词对于正文表达的贡献度后,可按下式计算正文的表达向量P:

(4)将标题的表达向量与正文的表达向量拼接后输入热词挖掘模型的解码模块204,解码模块204对标题的表达向量与正文的表达向量的拼接向量进行解码,输出挖掘出的热词。

具体的,热词挖掘模型的解码模块204在每个解码时刻t,根据标题的表达向量T与正文的表达向量P的拼接向量C、前一解码时刻预测的热词y

其中,热词挖掘模型的解码模块204在根据标题的表达向量T与正文的表达向量P的拼接向量C、前一解码时刻预测的热词y

s

需要说明的是,在第一个解码时刻,需要利用s

本实施例中的热词挖掘模型采用包含有标题和正文且标注有热词的训练文本训练得到。接下来给出采用标注有热词的训练文本训练热词挖掘模型的过程:

步骤c1、从训练数据集中获取训练文本。

其中,训练数据集包括大量标注有热词的训练文本,每个训练文本均包括主题和主题对应的正文。

步骤c2、利用热词挖掘模型对训练文本进行处理,以生成热词。

其中,利用热词挖掘模型对训练文本进行处理以生成热词的过程与上述利用热词挖掘模型对目标文本进行处理以生成热词的类似过程,本实施例在此不做赘述。

步骤c3、根据生成的热词和训练文本标注的热词,确定热词挖掘模型的预测损失。

步骤c4、根据热词挖掘模型的预测损失对热词挖掘模型进行参数更新。

按上述过程对热词挖掘模型进行多次迭代训练,直至满足训练结束条件,训练结束后得到的模型即为建立的热词挖掘模型。

在通过训练得到热词挖掘模型后,将待挖掘文本中的标题和正文输入热词挖掘模型,热词挖掘模型通过对输入的标题和正文进行处理后输出挖掘出的热词。

本申请实施例还提供了一种热词挖掘装置,下面对本申请实施例提供的热词挖掘装置进行描述,下文描述的热词挖掘装置与上文描述的热词挖掘方法可相互对应参照。

请参阅图3,示出了本申请实施例提供的热词挖掘装置的结构示意图,可以包括:标题表达模块301、正文表达模块302和热词生成模块303。

标题表达模块301,用于获取目标文本中标题的表达向量,其中,所述目标文本包含所述标题和所述标题对应的正文。

正文表达模块302,用于利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量。

热词生成模块303,用于根据所述标题的表达向量和所述正文的表达向量生成热词。

可选的,标题表达模块301,在获取目标文本中标题的表达向量时,具体用于:

获取所述标题的分词结果;

针对所述标题的分词结果中的每个词,获取该词的词向量以及该词中每个字的字向量,并根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量;

根据所述标题的分词结果中各个词的字词结合向量,确定所述标题的表达向量。

可选的,标题表达模块301在获取所述标题的分词结果时,具体用于:

采用多种不同的分词方式对所述标题进行分词处理,以得到所述标题的多种分词结果;

根据所述标题的多种分词结果中的交集部分,对所述标题进行分词,得到的分词结果作为所述标题的最终分词结果。

可选的,标题表达模块301在根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量时,具体用于:

确定该词中各个字的字向量的平均值,以得到该词的平均字向量;

将该词的词向量与该词的平均字向量融合,融合后向量作为该词的字词结合向量。

可选的,正文表达模块302在所述利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量时,具体用于:

获取所述正文的分词结果,并确定所述正文的分词结果中每个词的字词结合向量,其中,一个词的字词结合向量能够表征该词的词级别语义信息和字级别语义信息;

利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词对于正文表达的贡献度;

根据所述正文的分词结果中每个词对于正文表达的贡献度以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的表达向量。

可选的,正文表达模块302在利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词对于正文表达的贡献度时,具体用于:

根据所述标题的表达向量和所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词与所述标题的相关度得分;

根据所述正文的分词结果中每个词的位置信息以及对应的标题词在所述正文中的位置信息,确定所述正文的分词结果中每个词与对应的标题词的相对距离,其中,所述正文的分词结果中一个词对应的标题词为所述标题的分词结果中位于以该词为中心、以预设值为半径的范围内的词;

根据所述正文的分词结果中每个词与所述标题的相关度得分和所述正文的分词结果中每个词与对应的标题词的相对距离,确定所述正文的分词结果中每个词对于正文表达的贡献度。

可选的,标题表达模块301、正文表达模块302和热词生成模块303利用预先建立的热词挖掘模型实现,其中,所述热词挖掘模型采用包含有标题和正文且标注有热词的训练文本训练得到。

可选的,所述热词挖掘模型包括:字词结合向量确定模块、编码模块、注意力模块和解码模块;

所述字词结合向量确定模块确定所述标题的分词结果中每个词的字词结合向量以及所述正文的分词结果中每个词的字词结合向量,其中,一个词的字词结合向量为能够表征该词的词级别语义信息和字级别语义信息的向量;

所述编码模块对所述标题的分词结果中各个词的字词结合向量进行编码,输出所述标题的表达向量;

所述注意力模块利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的表达向量;

所述解码模块对所述标题的表达向量和所述正文的表达向量进行解码,输出挖掘出的热词。

可选的,所述解码模块在对所述标题的表达向量和所述正文的表达向量进行解码,输出挖掘出的热词时,具体用于:

在每个解码时刻,根据所述标题的表达向量和所述正文的表达向量、前一解码时刻预测的热词以及前一解码时刻的热词预测向量,预测当前解码时刻的热词并输出,其中,所述前一解码时刻的热词预测向量为用于预测前一解码时刻的热词的向量。

可选的,所述解码模块在根据所述标题的表达向量和所述正文的表达向量、前一解码时刻预测的热词以及前一解码时刻的热词预测向量,预测当前解码时刻的热词时,具体用于:

根据所述标题的表达向量和所述正文的表达向量、前一解码时刻预测的热词以及前一解码时刻的热词预测向量,预测当前解码时刻的热词预测向量;

根据当前解码时刻的热词预测向量,预测词表中的每个词为热词的概率,其中,所述词表中的词为所述标题和所述正文中的词;

根据所述词表中的每个词为热词的概率,确定当前解码时刻的热词。

本申请实施例提供的热词挖掘装置,在获得包含标题和正文的目标文本后,首先获取目标文本中标题的表达向量,然后利用标题的信息确定正文中每个词对于正文表达的贡献度,并根据正文中每个词对于正文表达的贡献度确定正文的表达向量,最后根据标题的表达向量和正文的表达向量生成热词。本申请实施例提供的热词挖掘装置由于不需要收集用户大量的使用纪录,只是对标题和正文进行处理,因此,避免了收集用户大量的使用纪录所带来的安全性和隐私性问题,另外,只要获得目标文本,采用本申请提供的热词挖掘装置就可从中及时挖掘出热词。

本申请实施例还提供了一种热词挖掘设备,请参阅图4,示出了该热词挖掘设备的结构示意图,该热词挖掘设备可以包括:至少一个处理器401,至少一个通信接口402,至少一个存储器403和至少一个通信总线404;

在本申请实施例中,处理器401、通信接口402、存储器403、通信总线404的数量为至少一个,且处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信;

处理器401可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取目标文本中标题的表达向量,其中,所述目标文本包含所述标题和所述标题对应的正文;

利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量;

根据所述标题的表达向量和所述正文的表达向量生成热词。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:

获取目标文本中标题的表达向量,其中,所述目标文本包含所述标题和所述标题对应的正文;

利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量;

根据所述标题的表达向量和所述正文的表达向量生成热词。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种热词挖掘方法、装置、设备及存储介质
  • 一种热词处理方法、装置、电子设备及存储介质
技术分类

06120113822432