掌桥专利:专业的专利平台
掌桥专利
首页

扩展查询词的生成方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:19:16


扩展查询词的生成方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理技术领域,特别涉及一种扩展查询词的生成方法、装置、设备及存储介质。

背景技术

互联网的高速发展,带来了互联网数据爆炸式的指数级增长,在这个数字洪流汹涌澎湃的新时代,每天产生的数据大约有370EB之多。随着数据的指数级增长,所面临的问题是如何在海量的互联网数据中精准和高效地检索信息,为用户智能推荐相关资讯和信息。

在当前的信息检索领域,学术界侧重于探索各种语言学方法来提高检索的有效性,而工程界侧重于充分利用历史数据,利用统计学方法为用户推荐相关信息。但是,基于语言学分析方法的模型需要有比较完善的训练数据集,需要维护额外的词典,并且模型的迁移能力比较弱;而基于统计学方法的模型依赖于搜索用户的历史行为数据;而且现有技术中的方法无法预测相关联扩展词的趋势。

发明内容

本公开实施例提供了一种扩展查询词的生成方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。

第一方面,本公开实施例提供了一种扩展查询词的生成方法,包括:

根据用户输入的查询词获取实时的搜索引擎数据;

对搜索引擎数据进行预处理,得到词频矩阵;

对词频矩阵中的词语进行分类,并根据词语的TF-IDF值对每个类别中的词语进行排序,在每个类别中选取预设数量个词语作为生成的分类扩展查询词。

在一个可选地实施例中,根据用户输入的查询词获取实时的搜索引擎数据,包括:

获取用户输入的查询词;

采用爬虫技术实时获取搜索引擎数据;

解析并合并多个搜索引擎数据,形成待处理的文本数据。

在一个可选地实施例中,对搜索引擎数据进行预处理,得到词频矩阵,包括:

对待处理的文本数据进行分词,并标注各个词语的词性;

根据各个词语在各个文章中出现的次数,生成词频矩阵。

在一个可选地实施例中,对词频矩阵中的词语进行分类,包括:

根据标注的词性将词频矩阵中的词语分为人名类、动词类、形容词类、机构名类四个类别。

在一个可选地实施例中,在每个类别中选取预设数量个词语作为生成的分类扩展查询词之后,还包括:

根据扩展查询词与其类别的趋势阈值确定扩展查询词的趋势。

在一个可选地实施例中,根据扩展查询词与其类别的趋势阈值确定扩展查询词的趋势,包括:

当扩展查询词的TF-IDF值大于等于其类别的趋势阈值时,确定扩展查询词为上升趋势;

当扩展查询词的TF-IDF值小于其类别的趋势阈值时,确定扩展查询词为下降趋势。

在一个可选地实施例中,根据扩展查询词与其类别的趋势阈值确定扩展查询词的趋势之后,还包括:

根据处于上升趋势的扩展查询词确定新闻部门的策划选题。

第二方面,本公开实施例提供了一种扩展查询词的生成装置,包括:

获取模块,用于根据用户输入的查询词获取实时的搜索引擎数据;

预处理模块,用于对搜索引擎数据进行预处理,得到词频矩阵;

扩展查询词生成模块,用于对词频矩阵中的词语进行分类,并根据词语的TF-IDF值对每个类别中的词语进行排序,在每个类别中选取预设数量个词语作为生成的分类扩展查询词。

第三方面,本公开实施例提供了一种扩展查询词的生成设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的扩展查询词生成方法。

第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的一种扩展查询词生成方法。

本公开实施例提供的技术方案可以包括以下有益效果:

本公开实施例提供的扩展查询词的生成方法,通过实时获取搜索引擎的数据,保证扩展查询词的及时性,解决了查询词不能实时进行扩展的问题,同时也解决了统计方法中依赖于搜索用户的历史行为数据问题。通过对扩展查询词按照词性进行分类,可以为用户提供更多符合用户需求的查询词,提高了搜索的有效性;还可以计算生成的扩展查询词的趋势,根据趋势结果作为后续应用的输入数据,例如可以应用在人物的实时画像,搜索引擎的智能推荐,相近词的联想等领域。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种扩展查询词的生成方法的流程示意图;

图2是根据一示例性实施例示出的一种扩展查询词的生成方法的流程示意图;

图3是根据一示例性实施例示出的一种实时获取搜索引擎数据的示意图;

图4是根据一示例性实施例示出的一种数据预处理的示意图;

图5是根据一示例性实施例示出的一种词频矩阵的示意图;

图6是根据一示例性实施例示出的一种生成扩展查询词及趋势的示意图;

图7是根据一示例性实施例示出的一种扩展查询词的生成装置的结构示意图;

图8是根据一示例性实施例示出的一种扩展查询词的生成设备的结构示意图;

图9是根据一示例性实施例示出的一种计算机存储介质的示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。

在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面将结合附图1-附图6,对本申请实施例提供的扩展查询词的生成方法进行详细介绍。图1是根据一示例性实施例示出的一种扩展查询词的生成方法的流程示意图,参见图1,该方法具体包括以下步骤。

S101根据用户输入的查询词获取实时的搜索引擎数据。

在一种可能的实现方式中,用户通过搜索平台输入查询词,例如,用户通过百度、360、搜狗等网络平台输入查询词,得到搜索出来的结果数据。其中,输入的查询词最好为名词或动词。

进一步地,调用搜索引擎接口,通过爬虫技术实时获取搜索引擎数据,对得到的搜索引擎结果数据进行解析,提取列表中的标题和摘要,去除html标签、去除广告等。然后合并多个搜索引擎数据,形成待处理的文本数据。

图3是根据一示例性实施例示出的一种实时获取搜索引擎数据的示意图,如图3所示,首先输入查询词,然后实时调用多个搜索引擎接口,得到多个结果数据集,对得到的多个结果数据集进行解析处理,例如提取列表中的标题和摘要,去除html标签、去除广告等,最后合并多个搜索引擎数据,形成待处理的文本数据。

通过实时获取搜索引擎的数据,解决了查询词不能实时进行扩展的问题,同时也解决了统计方法中依赖于搜索用户的历史行为数据问题。

S102对搜索引擎数据进行预处理,得到词频矩阵。

图4是根据一示例性实施例示出的一种数据预处理的示意图,如图4所示,对待处理的文本数据进行预处理,包括,首先获取步骤S101中待处理的文本数据,然后对待处理的文本数据进行分词、词性标注、去除停用词等处理,最后根据分词标注结果,生成词频矩阵。

具体地,首先对待处理的文本数据进行分词,然后根据分词后的每个词语的词性进行标注,例如,该词语为人名,则标注为人名类,该词语为动词,则标注为动词类,该词语为形容词或副词,则标注为形容词或副词类,该词语为机构名,则标注为机构名类。并删除文本数据集中的一些停用词等无意义词语。

进一步地,根据分词标注结果,统计词频,生成词频矩阵,词频矩阵中的数字表示其对应的词语在其对应的文章中出现的次数。

图5是根据一示例性实施例示出的一种词频矩阵的示意图,如图5所示,假设有两篇文章,其中第一行第一列的数字0表示“下任总统”这个词语在文章1中出现的次数为0,第二行第一列中的数字1表示“下任总统”这个词语在文章2中出现的次数为1。根据词频矩阵中的数字可以看出其对应的词语在其对应的文章中出现的次数。

S103对词频矩阵中的词语进行分类,并根据词语的TF-IDF值对每个类别中的词语进行排序,在每个类别中选取预设数量个词语作为生成的分类扩展查询词。

在一种可能的实现方式中,计算词频矩阵中每个词语的TF-IDF值,TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率指数)是一种统计方法,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF表示词条在文档d中出现的频率,IDF的主要思想是如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF,因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

在本公开实施例中,词语的TF-IDF值越高,说明该词语与输入的查询词之间的关联度越高。

进一步地,根据标注的词性将词频矩阵中的词语分为人名类、动词类、形容词类、机构名类四个类别。然后根据词语的TF-IDF值对每个类别中的词语按从大到小的顺序进行排序,在每个类别中选取预设数量个词语作为生成的分类扩展查询词。

在一种可能的实现方式中,在每个类别中选取TF-IDF值较高的前10个词语作为该类别的扩展查询词,得到人名扩展查询词集、动词扩展查询词集、形容词/副词扩展查询词集、机构名扩展查询词集。其中,每类扩展查询词集中扩展查询词的数量可以相同,也可以不同,本领域技术人员可根据需要自行设置。

通过对扩展查询词按照词性进行分类,可以更好地满足用户需求,提高了搜索的有效性。

在一个可选地实施例中,在每个类别中选取预设数量个词语作为生成的分类扩展查询词之后,还包括根据扩展查询词与其类别的趋势阈值确定扩展查询词的趋势。

具体地,当扩展查询词的TF-IDF值大于等于其类别的趋势阈值时,确定扩展查询词为上升趋势,当扩展查询词的TF-IDF值小于其类别的趋势阈值时,确定扩展查询词为下降趋势。

其中,每个类别的趋势阈值是通过对历史数据分析得到的,在一个示例性场景中,人名类趋势阈值为0.35,动词类趋势阈值为0.43,形容词/副词类趋势阈值为0.28,机构名类趋势阈值为0.24。若扩展查询词的TF-IDF值大于等于其类别的趋势阈值时,确定扩展查询词为上升趋势,该处于上升趋势的扩展查询词一段时间之后与查询词的关联度会越来越高,若扩展查询词的TF-IDF值小于其类别的趋势阈值时,确定扩展查询词为下降趋势,该处于下降趋势的扩展查询词一段时间之后与查询词的关联度会越来越低。

进一步地,得到各类扩展查询词以及趋势性之后,可以作为后续各类应用的输入数据。在一个示例性场景中,比如新闻宣传部门策划选题时,可以从扩展查询词列表中选择处于关联度高并且处于上升趋势的扩展查询词作为选题的依据。在一个示例性场景中,比如补充完善知识图谱时,可以从扩展查询词列表中选择处于关联度高并且处于上升趋势的扩展查询词作为知识图谱的节点数据。在一个示例性场景中,比如生成人物实时画像时,同样可以选择关联度高并且处于上升趋势的扩展查询词作为输入数据。

通过计算各类扩展查询词的趋势,可以大大提高后续智能推荐、相关词联想、策划选题等应用的准确率。

图6是根据一示例性实施例示出的一种生成扩展查询词及趋势的示意图,如图6所示,首先获取生成的词频矩阵,然后计算词频矩阵中每个词语的TF-IDF值,按词语的词性将词语分为人名类、动词类、形容词类、机构名类四个类别,然后根据词语的TF-IDF值对每个类别中的词语按从大到小的顺序进行排序,在每个类别中选取预设数量个词语作为生成的分类扩展查询词。

进一步地,将扩展查询词与其类别的趋势阈值进行比较,当扩展查询词的TF-IDF值大于等于其类别的趋势阈值时,确定扩展查询词为上升趋势,当扩展查询词的TF-IDF值小于其类别的趋势阈值时,确定扩展查询词为下降趋势,最终得到人物扩展查询词及趋势、属性扩展查询词及趋势、状态扩展查询词及趋势、机构扩展查询词及趋势。其中,图6中的关联性阈值指的是趋势阈值,可以根据历史数据分析得到。

为了便于理解本申请实施例提供的扩展查询词的生成方法,下面结合附图2进行说明。如图2所示,该方法包括:

首先,根据用户输入的查询词获取搜索引擎的实时数据,对获取到的数据进行分词、标注、生成词频矩阵等操作的预处理。

进一步地,计算词频矩阵中每个词语的TF-IDF值,根据标注的词性将词频矩阵中的词语分为人名类、动词类、形容词类、机构名类四个类别。然后根据词语的TF-IDF值对每个类别中的词语按从大到小的顺序进行排序,在每个类别中选取预设数量个词语作为生成的分类扩展查询词。

进一步地,根据扩展查询词与其类别的趋势阈值判断扩展查询词的趋势,当扩展查询词的TF-IDF值大于等于其类别的趋势阈值时,确定扩展查询词为上升趋势,当扩展查询词的TF-IDF值小于其类别的趋势阈值时,确定扩展查询词为下降趋势。

最后,根据生成的扩展查询词及其趋势作为后续各类应用的输入数据,例如,根据生成的扩展查询词生成人物画像、进行智能推荐、完善知识图谱等。

本公开实施例提供的扩展查询词的生成方法,通过获取实时的搜索引擎数据,可以对查询词进行实时扩展,可以对扩展词进行分类,更好的满足用户需求,提高搜索的有效性,可以计算生成的扩展查询词的趋势,根据趋势结果作为后续应用的输入数据。

本公开实施例还提供一种扩展查询词的生成装置,该装置用于执行上述实施例的扩展查询词的生成方法,如图7所示,该装置包括:

获取模块701,用于根据用户输入的查询词获取实时的搜索引擎数据;

预处理模块702,用于对搜索引擎数据进行预处理,得到词频矩阵;

扩展查询词生成模块703,用于对词频矩阵中的词语进行分类,并根据词语的TF-IDF值对每个类别中的词语进行排序,在每个类别中选取预设数量个词语作为生成的分类扩展查询词。

需要说明的是,上述实施例提供的扩展查询词的生成装置在执行扩展查询词的生成方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的扩展查询词的生成装置与扩展查询词的生成方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。

本公开实施例还提供一种与前述实施例所提供的扩展查询词的生成方法对应的电子设备,以执行上述扩展查询词的生成方法。

请参考图8,其示出了本申请的一些实施例所提供的一种电子设备的示意图。如图8所示,电子设备包括:处理器800,存储器801,总线802和通信接口803,处理器800、通信接口803和存储器801通过总线802连接;存储器801中存储有可在处理器800上运行的计算机程序,处理器800运行计算机程序时执行本申请前述任一实施例所提供的扩展查询词的生成方法。

其中,存储器801可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口803(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。

总线802可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器801用于存储程序,处理器800在接收到执行指令后,执行程序,前述本申请实施例任一实施方式揭示的扩展查询词的生成方法可以应用于处理器800中,或者由处理器800实现。

处理器800可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器800中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器800可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801,处理器800读取存储器801中的信息,结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的扩展查询词的生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。

本申请实施例还提供一种与前述实施例所提供的扩展查询词的生成方法对应的计算机可读存储介质,请参考图9,其示出的计算机可读存储介质为光盘900,其上存储有计算机程序(即程序产品),计算机程序在被处理器运行时,会执行前述任意实施例所提供的扩展查询词的生成方法。

需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的扩展查询词的生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 扩展查询词的生成方法、装置、设备及存储介质
  • 用于生成扩展查询词的方法和装置
技术分类

06120112880703