掌桥专利:专业的专利平台
掌桥专利
首页

一种长尾关键词识别方法、关键词搜索方法及计算机设备

文献发布时间:2023-06-19 10:35:20


一种长尾关键词识别方法、关键词搜索方法及计算机设备

技术领域

本发明涉及搜索领域,更具体地说,涉及一种长尾关键词识别方法、关键词搜索方法及计算机设备。

背景技术

用户在互联网获取各种信息,通常是通过输入一个或多个搜索关键词,通过搜索引擎获取相关的信息。例如,参考附图1,搜索引擎中预建搜索关键词a和搜索关键词b的对应关系,即搜索关键词a对应文档1、文档2和文档3,搜索关键词b对应文档3、文档4、文档5和文档6。当用户输入搜索关键词b时,搜索引擎根据预建搜索关键词a和搜索关键词b的对应关系查找到搜索关键词b对应的文档3、文档4、文档5和文档6。

在用户同时输入两个或两个以上搜索关键词时,如果搜索引擎中没有所有搜索关键词匹配的资料,则如何将不同搜索关键词对应的资料进行优先级排序,以推荐给用户更符合预期的结果,是搜索领域长期存在的问题。现有技术简单通过每个搜索关键词的字数多少来确定搜索关键词的长尾属性,这种方式容易出现错误判定,搜索精度不高。

发明内容

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种长尾关键词识别方法、关键词搜索方法及计算机设备。

本发明解决其技术问题所采用的技术方案是:构造一种长尾关键词识别方法,包括:

S101、接收检索关键词,通过历史词库识别出所述检索关键词包含原子关键词的数量,其中所述历史词库包括多个所述原子关键词和每个所述原子关键词的权重值;

S102、若所述检索关键词包含至少两个所述原子关键词,则将所述检索关键词作为组合关键词,根据所述组合关键词中所有所述原子关键词的权重值计算所述组合关键词的长尾权重值。

进一步,在本发明所述的长尾关键词识别方法中,所述步骤S102中根据所述组合关键词中所有所述原子关键词的权重值计算所述组合关键词的长尾权重值包括:

S1021、判断所述组合关键词的所有所述原子关键词之间是否有词语包含关系;

S1022、若是,则剔除所述词语包含关系对应的原子关键词中权重值低的原子关键词,保留权重值高的原子关键词;

S1023、根据所述组合关键词中剩余所述原子关键词的权重值计算所述组合关键词的长尾权重值。

进一步,在本发明所述的长尾关键词识别方法中,在所述步骤S1022之后所述步骤S1023之前还包括:

S1024、判断所述组合关键词中保留所述原子关键词的数量;

S1025、若保留至少两个所述原子关键词,则执行所述步骤S1023;

S1026、若保留一个所述原子关键词,则将所述检索关键词作为原子关键词存储到所述历史词库中,并设置对应权重值。

进一步,在本发明所述的长尾关键词识别方法中,所述步骤S1023包括:将所述组合关键词中剩余所述原子关键词的权重值之和作为所述组合关键词的长尾权重值。

进一步,在本发明所述的长尾关键词识别方法中,在所述步骤S101之后还包括:

S103、若所述检索关键词包含一个所述原子关键词,则将所述检索关键词作为原子关键词存储到所述历史词库中,并设置对应权重值。

进一步,在本发明所述的长尾关键词识别方法中,所述步骤S102中根据所述组合关键词中所有所述原子关键词的权重值计算所述组合关键词的长尾权重值包括:

将所述组合关键词中所有所述原子关键词的权重值之和作为所述组合关键词的长尾权重值。

另外,本发明还提供一种关键词搜索方法,包括:

S201、搜索框接收用户输入的至少两个检索关键词;

S202、使用如上述的长尾关键词识别方法计算出每个所述检索关键词的长尾权重值。

进一步,在本发明所述的关键词搜索方法中,在所述步骤S202之后还包括:

S203、将所述长尾权重值最大的所述检索关键词作为长尾关键词,查找与所述长尾关键词对应的搜索结果。

进一步,在本发明所述的关键词搜索方法中,在所述步骤S202之后还包括:

S204、查找与每个所述检索关键词对应的搜索结果,所述搜索结果按照所述长尾权重值从高到低进行排序。

另外,本发明还提供一种计算机设备,包括存储器和处理器;

所述存储器用于存储计算机程序;

所述处理器用于执行所述存储器中存储的计算机程序以实现如上述的长尾关键词识别方法,或如上述的关键词搜索方法。

实施本发明的一种长尾关键词识别方法、关键词搜索方法及计算机设备,具有以下有益效果:本发明能有效识别出长尾关键词,并计算长尾关键词的长尾权重值,提高搜索过程中命中目标的精度。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是现有技术中关键词检索过程的流程图;

图2是一实施例提供的一种长尾关键词识别方法的流程图;

图3是一实施例提供的一种长尾关键词识别方法的流程图;

图4是一实施例提供的一种长尾关键词识别方法的流程图;

图5是一实施例提供的一种长尾关键词识别方法的流程图;

图6是一实施例提供的一种关键词搜索方法的流程图;

图7是一实施例提供的一种关键词搜索方法的流程图;

图8是一实施例提供的一种关键词搜索方法的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

在一优选实施例中,参考图2,本实施例的长尾关键词识别方法包括下述步骤:

S101、接收检索关键词,通过历史词库识别出检索关键词包含原子关键词的数量,其中历史词库包括多个原子关键词和每个原子关键词的权重值。历史词库中原子关键词由人工设置或由机器学习得到,每个原子关键词对应有权重值。在接收到检索关键词后,按照历史词库中存储的原子关键词对检索关键词进行拆分,得到检索关键词对应的一个或多个原子关键词。拆分过程中,可能存在词语包含关系,即一个原子关键词包含另一个原子关键词;例如,检索关键词为“工业控制器”,其中“控制器”和“控制”都为原子关键词,且“控制器”和“控制”形成词语包含关系,即“控制器”包含“控制”。可以理解的,并非检索关键词的每个字都有对应的原子关键词;例如,检索关键词为“控制器”,而历史词库中仅有“控制”这个原子关键词,则检索关键词为“控制器”对应的原子关键词是“控制”。

S102、若检索关键词包含至少两个原子关键词,则将检索关键词作为组合关键词,根据组合关键词中所有原子关键词的权重值计算组合关键词的长尾权重值。将检索关键词拆分为原子关键词后,可能得到一个或多个原子关键词,若检索关键词包含至少两个原子关键词,则将检索关键词作为组合关键词,根据组合关键词中所有原子关键词的权重值计算组合关键词的长尾权重值。作为选择,将组合关键词中所有原子关键词的权重值之和作为组合关键词的长尾权重值,也可使用其他计算方法计算组合关键词中所有原子关键词的权重值对应的长尾权重值。

本实施例能有效识别出长尾关键词,并计算长尾关键词的长尾权重值,提高搜索过程中命中目标的精度。

在一些实施例中,参考图3,本实施例的长尾关键词识别方法中在步骤S101之后还包括:

S103、若检索关键词包含一个原子关键词,则将检索关键词作为原子关键词存储到历史词库中,并设置对应权重值。将检索关键词拆分为原子关键词后,可能得到一个或多个原子关键词,若检索关键词包含一个原子关键词,则可将该检索关键词作为原子关键词存储到历史词库中,并设置对应权重值。例如,检索关键词为“控制器”,而历史词库中仅有“控制”这个原子关键词,则可将检索关键词“控制器”作为新的原子关键词存储到历史词库中,并设置对应权重值。经过长期用户输入积累,可使历史词库更加符合用户习惯。

在一些实施例中,参考图4,在本实施例的长尾关键词识别方法中,步骤S102中根据组合关键词中所有原子关键词的权重值计算组合关键词的长尾权重值包括:

S1021、判断组合关键词的所有原子关键词之间是否有词语包含关系。拆分过程中,可能存在词语包含关系,即一个原子关键词包含另一个原子关键词;例如,检索关键词为“工业控制器”,其中“控制器”和“控制”都为原子关键词,且“控制器”和“控制”形成词语包含关系,即“控制器”包含“控制”。

S1022、若组合关键词的所有原子关键词之间有词语包含关系,则剔除词语包含关系对应的原子关键词中权重值低的原子关键词,保留权重值高的原子关键词。需要说明的是,本实施例并非以原子关键词的字数多少来进行剔除,即并非一定剔除字数少的原子关键词;而是以原子关键词的权重值为标准进行剔除,即比较组合关键词中所有原子关键词的权重值的大小,剔除词语包含关系对应的原子关键词中权重值低的原子关键词,保留权重值高的原子关键词。例如原子关键词“控制器”和“控制”形成词语包含关系,若“控制器”的权重值大于“控制”的权重值,则剔除原子关键词“控制”;若“控制器”的权重值小于“控制”的权重值,则剔除原子关键词“控制器”。

S1023、根据组合关键词中剩余原子关键词的权重值计算组合关键词的长尾权重值。剔除一部分原子关键词后,根据组合关键词中剩余原子关键词的权重值计算组合关键词的长尾权重值。作为选择,将组合关键词中剩余原子关键词的权重值之和作为组合关键词的长尾权重值,也可使用其他计算方法计算组合关键词中剩余原子关键词的权重值对应的长尾权重值。

本实施例进一步考虑原子关键词之间有词语包含关系,剔除权重值低的原子关键词,确保搜索范围更加精准,提高搜索过程中命中目标的精度。

在一些实施例中,参考图5,本实施例的长尾关键词识别方法中在步骤S1022之后步骤S1023之前还包括:

S1024、判断组合关键词中保留原子关键词的数量。剔除一部分原子关键词后,组合关键词中保留原子关键词可能为一个或多个。

S1025、若保留至少两个原子关键词,则执行步骤S1023。

S1026、若保留一个原子关键词,则将检索关键词作为原子关键词存储到历史词库中,并设置对应权重值。

在一优选实施例中,参考图6,本实施例还提供一种关键词搜索方法,包括:

S201、搜索框接收用户输入的至少两个检索关键词。搜索框为检索入口,用户可在搜索框中输入想要检索的内容,可通过空格或其他预设隔离字符来区分不同的检索关键词,在识别到用户输入两个或两个以上检索关键词时,才使用上述实施例的长尾关键词识别方法计算出每个检索关键词的长尾权重值;若用户仅输入一个搜索关键词,可使用现有技术进行检索即可。

S202、使用如上述实施例的长尾关键词识别方法计算出每个检索关键词的长尾权重值。

本实施例能有效识别出长尾关键词,并计算长尾关键词的长尾权重值,提高搜索过程中命中目标的精度。

在一些实施例中,参考图7,本实施例的关键词搜索方法中,在步骤S202之后还包括:S203、将长尾权重值最大的检索关键词作为长尾关键词,查找与长尾关键词对应的搜索结果。本实施例仅选取长尾权重值最大的检索关键词来检索,可将检索范围最小化且精确化。后台服务器保存有每个长尾关键词对应的内容,后台服务器查找与长尾关键词对应的搜索结果,返回至浏览器供用户查看。

在一些实施例中,参考图8,本实施例的关键词搜索方法中,在步骤S202之后还包括:S204、查找与每个检索关键词对应的搜索结果,搜索结果按照长尾权重值从高到低进行排序。对于一些检索关键词,如果仅采用长尾权重值最大的检索关键词,可能存在检索结果较少的情况,所以可采用所有检索关键词全部检索的策略,但需要对检索结果进行排序,即搜索结果按照长尾权重值从高到低进行排序。将搜索结果按照长尾权重值从高到低进行排序,以使用户想到看到的内容排列在前,方便用户查看。

在一优选实施例中,本实施例的计算机设备包括存储器和处理器;存储器用于存储计算机程序;处理器用于执行存储器中存储的计算机程序以实现如上述实施例的长尾关键词识别方法,或如上述实施例的关键词搜索方法。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施,并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰,均应属于本发明权利要求的涵盖范围。

相关技术
  • 一种长尾关键词识别方法、关键词搜索方法及计算机设备
  • 一种技术关键词的识别方法、装置、计算机设备和存储介质
技术分类

06120112607566