掌桥专利:专业的专利平台
掌桥专利
首页

关键词召回方法、装置、电子设备以及存储介质

文献发布时间:2023-06-19 13:46:35


关键词召回方法、装置、电子设备以及存储介质

技术领域

本申请涉及计算机信息处理技术领域,具体而言,涉及一种关键词召回方法、装置、电子设备以及存储介质。

背景技术

基于关键词的信息推荐方式是根据用户在搜索引擎中输入的关键词来确定向用户推送的信息。用户在网站内外进行信息投放时,必须以关键词为单位选择投放,如何获得适合自己的关键词成为关键操作之一。现有的关键词召回方法普遍存在召回率低的问题。

发明内容

为解决上述技术问题,本申请的实施例提供了一种关键词召回方法、装置、电子设备以及存储介质,能够提高关键词的召回率。

本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面,提供了一种关键词召回方法,包括:计算待召回词与种子关键词之间的第一相似度,将第一相似度大于第一阈值的待召回词确定为目标关键词,并将第一相似度小于第一阈值且大于第二阈值的待召回词确定为候选关键词,第一阈值大于第二阈值;计算待召回句与种子关键句之间的第二相似度,种子关键句包括至少一个种子关键词,待召回句包括至少一个待召回词;将第二相似度大于第三阈值的待召回句作为候选待召回句,并将候选待召回句中包含的候选关键词确定为目标关键词;召回所有的目标关键词。

根据本申请实施例的一个方面,提供了一种关键词召回装置,包括:第一计算模块,用于计算待召回词与种子关键词之间的第一相似度,将第一相似度大于第一阈值的待召回词确定为目标关键词,并将第一相似度小于第一阈值且大于第二阈值的待召回词确定为候选关键词,第一阈值大于第二阈值;第二计算模块,用于计算待召回句与种子关键句之间的第二相似度,种子关键句包括至少一个种子关键词,待召回句包括至少一个待召回词;分析模块,用于将第二相似度大于第三阈值的待召回句作为候选待召回句,并将候选待召回句中包含的候选关键词确定为目标关键词;召回模块,用于召回所有的目标关键词。

根据本申请实施例的一个方面,提供了一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的关键词召回方法。

根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行如前提供的关键词召回方法。

根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的关键词召回方法。

在本申请的实施例所提供的技术方案中,首先计算种子关键词与待召回词之间的第一相似度,并根据第一相似度大小确定一部分相似度值较大的带待召回关键词作为目标关键词,然后计算待召回句与种子关键句之间的第二相似度,确定第二相似度值较大的一部分待召回句中的待召回词,并将其作为候选关键词,若候选关键词与种子关键词的第一相似度值大于第二阈值且小于第一阈值,则将候选关键词确定为目标关键词,最后将所有目标关键词召回。本申请方案通过种子关键句对待召回词进行召回,能够弥补仅利用种子关键词召回的关键词所造成的召回率不足的问题,进而提高关键词的召回率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是本申请的一示例性实施例示出的关键词召回方法的流程图;

图2是图1所示实施例中步骤S100在一示例性实施例中的流程图;

图3是图1所示实施例中步骤S200在一示例性实施例中的流程图;

图4是图3所示实施例中步骤S210在一示例性实施例中的流程图;

图5是图3所示实施例中步骤S210在另一示例性实施例中的流程图;

图6是本申请的另一示例性实施例示出的关键词召回方法的流程图;

图7是本申请的另一示例性实施例示出的关键词召回方法的流程图;

图8是图7所示实施例中步骤S700在一示例性实施例中的流程图;

图9是本申请一示例性实施例示出的关键词召回装置的框图;

图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提出的关键词召回方法及装置、电子设备、计算机可读存储介质涉及人工智能技术以及机器学习技术,以下将对这些实施例进行详细说明。

关键词是用于从海量信息流中召回与该关键词相关性比较强的信息流的词语,本实施例提供的关键词召回方法能够扩充关键词集合。示例性地,在针对用户个性化推荐信息流的过程中,关键词可以是用户输入到检索框中的词,后台基于用户输入的关键词从海量的信息数据库中提取与该关键词相关的一系列信息,并推荐给用户,例如,用户在检索框中输入关键词“热门”,则计算机后台从信息数据库中提取当前较热门的信息,并推荐给用户。

由此可见,关键词在整个信息推荐的过程中是至关重要的,由于关键词是随着信息的更替而变化或者增多的,因此从海量的信息数据中召回更多的关键词是必要的,本实施例提供的关键词召回方法适用于信息推荐过程中的关键词召回过程。

一种召回关键词的方法是,计算种子关键词和待召回词之间的相似度,将相似度大于设定阈值的待召回词作为关键词召回。本申请发明人经长期研究发现,这种关键词召回方式容易出现因为OOV(Out-of-vocabulary,未登录词)问题而造成潜在关键词召回不足的问题。例如某个词A,在word2vec模型训练过程中未出现,或者出现次数较少,则导致这些词在利用word2vec模型进行特征提取的时候表征性不强,继而在与种子关键词相匹配的时候,未被有效的召回。

基于此,本申请提供的关键词召回方法着重利用词上下文的语法特性,也即引入句子级别的相似度召回策略,配合词级别的相似度召回策略,缓解因为OOV问题导致的一些关键词召回不足的问题,进而提升推荐侧的推荐效果。

请参阅图1,图1是本申请的一示例性实施例示出的关键词召回方法的流程图,如图1所示关键词召回方法包括以下步骤:

步骤S100:计算待召回词与种子关键词之间的第一相似度,将第一相似度大于第一阈值的待召回词确定为目标关键词,并将第一相似度小于第一阈值且大于第二阈值的待召回词确定为候选关键词,第一阈值大于第二阈值。

在本实施例中,首先要获取待召回词和种子关键词。

计算机后台存储着一个由大量用户上传的待推荐文本库,待推荐文本库中包括大量待推荐文本,例如在电子消费平台上,由商家上传的商品信息,由博主上传的广告信息等等,在某浏览网页后台,由用户上传的新闻文本等。

在本实施例中,待召回词可以从待推荐文本库中获取,具体地,待召回词由待召回文本分词而来,待召回词的数量可以为多个。

种子关键词用户召回作为目标关键词的待召回词,种子关键词的数量可以为多个,种子关键词可以是预先通过人工筛选的方式获取的,只需在使用种子关键词时导入计算机即可,例如,种子关键词为{热门,近日,娱乐,……,体育}。

在本实施例中,种子关键词和待召回词之间的第一相似度越大,表示待召回词针对种子关键词越相似,反之,则待召回词针对种子关键词越不相似。因此,可以通过第一相似度的大小直接确定一部分待召回词为目标关键词,即第一相似度大于第一阈值的待召回词,也可以直接排除一部分待召回词,确定其不是目标关键词,即,第一相似度小于第二阈值的待召回词,对于第一相似度大于第二阈值并小于第一阈值的待召回词,本实施例在下面所述的步骤中确定其是否为目标关键词。

步骤S200:计算待召回句与种子关键句之间的第二相似度。

在本实施例中,种子关键句包括至少一个种子关键词,待召回句包括至少一个待召回词,待召回句出自待推荐文本库。

种子关键句可以基于种子关键词从除待推荐文本库中召回的,例如通过列举或爬取网页中包含种子关键词的句子,作为种子关键句。

由于词语在包含该词语的句子中的含义可以通过上下文语义场景推断,因此,词语的含义在句子中表达地更为明确,基于此,本实施例引入句子级别的召回策略,一定程度上能够提高召回率。

步骤S300:将第二相似度大于第三阈值的待召回句作为候选待召回句,并将候选待召回句中包含的候选关键词确定为目标关键词。

在本实施例中,候选关键词与种子关键词的相似度满足大于第二阈值并且小于第二阈值,也就是说,上述两者的相似度值在一个比较模糊的区间,在这一区间内,单单依靠候选关键词与种子关键词的相似度无法确定其是否为目标关键词。由于包含该候选关键词的待召回句与包含该种子关键词的种子关键句之间的第二相似度大于第三阈值,由于句子级别的相似度能在一定程度上反映句子中包含的词语的相似度,因此,能够将候选待召回句中包含的候选关键词确定为目标关键词。

在本实施例中,候选待召回句中并不一定包含候选关键词,若候选待召回句包含候选关键词,则将候选关键词确定为关键词。

步骤S400:召回目标关键词。

在本实施例中,可以将召回的关键词继续作为种子关键词,用于召回更多的关键词,以进一步扩充关键词集合。

综上,本实施例首先计算种子关键词与待召回词之间的第一相似度,并根据第一相似度大小确定一部分相似度值较大的带待召回关键词作为目标关键词,然后计算待召回句与种子关键句之间的第二相似度,确定第二相似度值较大的一部分待召回句中的待召回词,并将其作为候选关键词,若候选关键词与种子关键词的第一相似度值大于第二阈值且小于第一阈值,则将候选关键词确定为目标关键词,最后将所有目标关键词召回。本申请方案通过种子关键句对待召回词进行召回,能够弥补仅利用种子关键词召回的关键词所造成的召回率不足的问题,进而提高关键词的召回率。

请参阅图2,图2是图1所示实施例中步骤S100一示例性实施例的流程图,如图2所示,步骤S100包括以下步骤:

步骤S110:分别对待召回词和种子关键词进行向量化处理,得到待召回词向量和种子关键词向量。

在本实施例中,可以分别提取待召回词与种子关键词的特征,得到待召回词对应的待召回词向量,种子关键词对应的种子关键词向量。本实施例可以利用Word2vec算法提取待召回词与种子关键词的特征,进而获取待召回词向量与种子关键词向量。具体地,可以将中文维基百科(zhiwiki)作为训练语料,预先训练word2vec模型,并将待召回词与种子关键词输入word2vec模型,输出待召回词向量与种子关键词向量。

步骤S120:计算待召回词向量与种子关键词向量的相似度,将相似度作为第一相似度。

可选地,计算种子关键词特征向量和待召回词特征向量的余弦值或欧式距离,进而将余弦值或欧式距离作为第一相似度。

请参阅图3,图3是图1所示实施例中步骤S200一示例性实施例的流程图,如图3所示,步骤S200包括以下步骤:

步骤S210:获取待召回句的第一特征向量以及种子关键句的第二特征向量。

在这一步骤中,分别提取待召回句和种子关键句的特征向量的目的在于便于计算两者之间的相似度。

请参阅图4,图4是图3所示实施例中步骤S210一示例性实施例的流程图,如图4所示,步骤S210获取待召回句的第一特征向量的过程包括以下步骤:

步骤S211:对待召回句进行分词处理,得到待召回句对应的多个分词。

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。分词是自然语言处理的基础,中文分词对于自然语言处理至关重要,当前的分词算法主要分为两类,基于词典的规则匹配方法,和基于统计的机器学习方法。基于统计的机器学习方法主要有隐马尔科夫模型HMM,条件随机场CRF,SVM,以及深度学习等。本实施例可以直接利用现有的中文分词算法对文本进行分词,对于具体的分词过程在此不做过多叙述。

步骤S212:获取多个分词对应的特征向量。

将分词转化为其对应的特征向量实际上是一个词嵌入(Word Embedding)的过程,其中词嵌入是一种将文本中的词转换成数字向量的方法,为了使用标准机器学习算法来对它们进行分析,需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

本实施例可以基于预先训练的word2vec模型获取分词对应的特征向量,word2vec模型包括skip-gram模型和连续词袋(Continuous Bag-of-Word,CBOW)模型。需要说明的是,本实施例可以利用现有的所有词嵌入方法获取分词对应的特征向量,例如,Globalvectors of word representation(GloVe)方法、One-hot编码、信息检索技术、分布式表示等等,在此不做具体限定。

步骤S213:将多个分词对应的特征向量相加,得到第一结果向量,并对第一结果向量进行归一化处理,得到第一特征向量。

归一化处理是一种简化计算的方式,它将有量纲的表达式经过变换化为无量纲的表达式,成为纯量(标量),归一化处理不会改变或影响种子关键句和待召回句之间的相关度,将第一结果向量归一化处理,把第一结果向量中的数据映射到-1~1范围之内,以便于后续将第一特征向量与同样进行归一化处理之后的第二特征向量进行相似度计算。

可选地,种子关键句的第二特征向量也可以通过上述步骤S211-步骤S213所记载的方式获取,在此不做过多叙述。

请参阅图5,图5是图3所示实施例中步骤S210一示例性实施例的流程图,步骤S210获取待召回句的第一特征向量的过程包括以下步骤:

步骤S214:获取待召回句中各个字对应的字向量,将所有字的字向量拼接得到待召回句对应的初始特征向量。

由于句子中每个字与字之间有明显的分隔符,因此在获取待召回句中各个字对应的字向量之前,无需对待召回句进行分字处理。

在本实施例中,可以利用词嵌入技术将待召回句中的每个字用字向量的形式表示出来。

向量拼接是一种特征融合方法,现有两个特征向量v

例如,针对待召回句“我要吃饭”,不妨设“我”字对应的字向量为[1,4,2,6],“要”字对应的字向量为[3,6,8,1],“吃”字对应的字向量为[8,4,5,3],“饭”字对应的字向量为[9,7,2,6],将每个字对应的字向量拼接起来,得到待召回句对应的初始特征矩阵为:

[1,4,2,6,3,6,8,1,8,4,5,3,9,7,2,6]。

步骤S215:对初始特征向量进行降维处理,得到低维特征向量。

降维处理实际上是特征提取的一种方式,本实施例对初始特征向量进行特征提取,既能够挖掘出待召回句中更深层次的语义特征,又能够减小后续第一特征向量与第二特征向量相似度计算的计算量。

本实施例的方案可以通过多种方式对初始特征向量进行降维处理,例如,利用深度学习建立并训练神经网络模型,进而基于神经网络模型对初始特征向量进行降维处理,例如可以基于卷积神经网络(Convolutional Neural Network,CNN)、深度神经网络(DeepNeural Network,DNN)、循环神经网络(Recurrent Neural Network,RNN)等神经网络模型对初始特征向量进行降维处理。

步骤S216:对低维特征向量进行归一化处理,得到第一特征向量。

本实施例基于待召回句的字向量获取第一特征向量,无需对待召回句进行分词,简化第一特征向量的获取过程。另外,通过对待召回句的初始特征向量进行降维处理,能够简化计算量,提高第一特征向量的获取效率。

种子关键句对应的第二特征向量同样可以利用本实施例步骤S214、步骤S215、步骤S216所叙述的方法获取,需要注意的是,种子关键句对应的第二特征向量与待召回句对应的第一特征向量的维度必须相同。

步骤S220:对第一特征向量与第二特征向量进行相似度运算,得到第二相似度。

计算第一特征向量与第二特征向量的余弦值或欧式距离,余弦值或欧式距离作为种子关键句与待召回句之间的第二相似度。在本实施例所提供的技术方案中,首先计算种子关键词与待召回词之间的第一相似度,并根据第一相似度大小确定一部分相似度值较大的带召回关键词作为目标关键词,然后计算待召回句与种子关键句之间的第二相似度,确定第二相似度值较大的一部分待召回句中的待召回词,并将其作为候选关键词,若候选关键词与种子关键词的第一相似度值大于第二阈值且小于第一阈值,则将候选关键词确定为目标关键词,最后将所有目标关键词召回。本申请方案通过种子关键句对待召回词进行召回,能够弥补仅利用种子关键词召回的关键词所造成的召回率不足的问题,进而提高关键词的召回率。由此,本实施例示出的关键词召回方法的流程框图可以具体如图6所示,一方面,关键词召回方法分别对种子关键词和待召回词进行特征提取,然后计算两者的相似度,将相似度得分高于第一阈值的待召回词为目标关键词,相似度高于第二阈值且低于第一阈值的待召回词为候选关键词;另一方面,关键词召回方法分别利用第一CNN降维层和第二CNN降维层对种子关键句和待召回句进行降维处理,然后对两者进行相似度计算,将得分高于第三阈值的待召回句作为候选待召回句,最后将候选待召回句中包含的候选关键词作为目标关键词,并召回目标关键词。也即是说,本实施例示出的关键词召回方法将词级别关键词召回与句子级别关键词召回相结合,以提高召回率。

参阅图7,图7是本申请的一示例性实施例示出的关键词召回方法的流程图,如图7所示,关键词召回方法包括以下步骤:

步骤S500:获取文本库中除待召回词以外的其它分词,其它分词是基于对文本库中所有句子进行分词处理得到的。

在本实施例中,文本库为待推荐文本库,待推荐文本库中包括多个待召回句,对待召回句进行分词,并筛选即可获得待召回词。

事实上,文本库中的待推荐文本是随着用户的实时上传而实时更新的,由待推荐文本分词而来的各个分词是实时更新的。显然,预先指定的待召回词集中包含的待召回词都是基于更新之前的文本库,若文本库更新之后有了大的变化,此时待召回词集不能即使更新,则可能遗漏掉一些潜在关键词,降低召回效率。出于这层考虑,本实施例提供的关键词召回方法作为上述关键词召回方法的一种补充,更加着重于文本库中除了待召回词的其它分词。

例如,某浏览器后台的文本库更新之后,利用词频统计法统计到分词“真香”在文本库中出现的次数突然增多,且大于设定值,说明这个分词对更新后的文本库很重要,本实施例提供的关键词召回方法能够把分词“真香”作为关键词召回。

步骤S600:统计其它分词对应的词频。

词频(Term Frequency,TF)即词语的频数,统计其它分词的词频就是统计其它分词在文本库中出现的次数,如果文本库中的某个词语出现多次,说明这个词语对于文本库很重要,那这个词语很有可能是一个目标关键词。

步骤S700:将词频大于第四阈值的其它分词作为目标关键词进行召回。

本实施例统计除待召回词之外的其它分词的词频,在某一分词的词频大于第四阈值的情况下,将其作为目标关键词召回。通过这种方式,充分考虑到文本库中没有指定为待召回词的其它词语是目标关键词的可能,能够进一步优化上述结合种子关键词和种子关键句召回关键词方法,进一步提高关键词召回的召回率。请参阅图8,图8是图7所示实施例中步骤S700一示例性实施例的流程图,如图8所示,步骤S700包括以下步骤:

步骤S710:将词频大于第四阈值的其它分词推送用户终端。

例如,在处理器利用本实施例提供的关键词召回方法确定一个或者多个分词的词频大于第四阈值时,将这一个或多个分词显示于用户终端的显示屏上,此时用户可通过预先设定的终端交互接口与终端进行交互,决定是否将这一个或多个分词作为目标关键词。终端交互接口可以是显示于显示屏上的“确定为目标关键词”或者“不作为目标关键词”的按钮,例如用户点击多个分词中的一部分分词,并点击或触摸“确定为目标关键词”按钮,则可以确定将选中的分词作为目标关键词。需要说明的是,上述提到的终端交互接口仅是一个示例,用户可以通过任何厂家或用户自定义的终端交互接口,与终端进行交互,进而确定是否将满足条件的分词作为关键词。

对用户而言,词频越大的分词并不一定是目标关键词,因此为了实现针对用户的个性化推荐的目的,本实施例将词频大于第四阈值的分词是否作为目标关键词召回的决定权交由用户,能够提高关键词的召回效率与准确率。

步骤S720:若接收到用户终端返回的通知信息,则将词频大于第四阈值的其它分词作为目标关键词进行召回,通知信息用于指示用户将词频大于第四阈值的其它分词确定为目标关键词。

本实施例提供的关键词召回方法能够根据用户的指示确定是否将词频大于第四阈值的分词作为目标关键词召回,能够针对用户个性化地召回关键词,提高召回效率。上述提及的关键词召回方法可由计算机设备(或文本处理设备)执行。此处的计算机设备可包括但不限于:诸如智能手机、平板电脑、膝上计算机、台式电脑等终端设备,或者诸如数据处理服务器、Web服务器、应用服务器等服务设备。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,这里的服务器可以是区块链上的节点服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务设备可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

参与图9,图9是本申请一示例性实施例示出的关键词召回装置的框图,如图9所示,本实施例提供的关键词召回装置500包括第一计算模块510、第二计算模块520、分析模块530以及召回模块540。

其中,第一计算模块510用于计算待召回词与种子关键词之间的第一相似度,将第一相似度大于第一阈值的待召回词确定为目标关键词,并将第一相似度小于第一阈值且大于第二阈值的待召回词确定为候选关键词,第一阈值大于第二阈值;第二计算模块520用于计算待召回句与种子关键句之间的第二相似度,种子关键句包括至少一个种子关键词,待召回句包括至少一个待召回词;分析模块530用于将第二相似度大于第三阈值的待召回句作为候选待召回句,并将候选待召回句中包含的候选关键词确定为目标关键词;召回模块540用于召回目标关键词。

在一示例性实施例中,第二计算模块520包括获取单元、计算单元。

其中获取单元用于获取待召回句的第一特征向量以及种子关键句的第二特征向量;计算单元用于对第一特征向量与第二特征向量进行相似度运算,得到第二相似度。

在一示例性实施例中,计算单元包括分词子单元、获取子单元以及处理子单元。

其中,分词子单元用于对待召回句进行分词处理,得到待召回句对应的多个分词;获取子单元用于获取多个分词对应的特征向量;处理子单元用于将多个分词对应的特征向量相加,得到第一结果向量,并对第一结果向量进行归一化处理,得到第一特征向量。

在一示例性实施例中,计算单元包括初始特征向量获取子单元、降维子单元以及归一化子单元。

其中,初始特征向量获取子单元用于获取待召回句中各个字对应的字向量,将所有字的字向量拼接得到待召回句对应的初始特征向量;降维子单元用于对初始特征向量进行降维处理,得到低维特征向量;归一化子单元用于对低维特征向量进行归一化处理,得到第一特征向量。

在一示例性实施例中,实施例提供的关键词召回装置500还包括其它分词获取模块、统计模块以及关键词确定模块。

其中,其它分词获取模块用于获取文本库中除待召回词以外的其它分词,其它分词是基于对文本库中所有句子进行分词处理得到的;统计模块用于统计其它分词对应的词频;关键词确定模块用于将词频大于第四阈值的其它分词作为目标关键词进行召回。

在一示例性实施例中,关键词确定模块包括推送单元和关键词确定单元。

其中,推送单元用于将词频大于第四阈值的其它分词推送用户终端;关键词确定单元用于若接收到用户终端返回的通知信息,则将词频大于第四阈值的其它分词作为目标关键词进行召回,通知信息用于指示用户将词频大于第四阈值的其它分词确定为目标关键词。

需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块、单元或者子单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。

在另一示例性实施例中,本申请提供一种电子设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前的关键词召回方法。

图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示,计算机系统1000包括中央处理单元(Central Processing Unit,CPU)1001,其可以根据存储在只读存储器(Read-Only Memory,ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory,RAM)1003中的程序而执行各种适当的动作和处理,例如执行上述实施例中的信息推荐方法。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output,I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的系统中限定的各种功能。

需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前实施例中任一项的关键词召回方法。

本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的关键词召回方法。

需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

相关技术
  • 关键词召回方法、装置、电子设备以及存储介质
  • 商户召回方法、装置、电子设备及可读存储介质
技术分类

06120113807374