掌桥专利:专业的专利平台
掌桥专利
首页

搜索结果过滤方法、装置,及电子设备

文献发布时间:2023-06-19 19:30:30


搜索结果过滤方法、装置,及电子设备

技术领域

本申请涉及计算机技术领域,特别是涉及搜索结果过滤方法、装置,及电子设备及计算机可读存储介质。

背景技术

在数据挖掘,信息收集类任务中,往往需要利用一些特定的关键词汇进行搜索和匹配,由于现阶段搜索引擎以及数据仓库的智能算法的限制,通过关键词搜索得到的内容中有部分信息是和目标任务无关的信息。现有技术中,对于搜索结果进行过滤主要包括关键词过滤和人工过滤。通过关键词匹配的方式对搜索结果进行过滤准确率过低,而通过人工对搜索结果进行过滤,耗时耗力。

综上所述,需要一种准确、高效的搜索结果过滤方法,对搜索结果进行过滤。

发明内容

本申请实施例提供一种搜索结果过滤方法、装置,及电子设备,可以解决在无关搜索结果过滤方面的人工成本高、效率低,以及,准确率低的问题。

第一方面,本申请实施例公开了一种搜索结果过滤方法,包括:

获取待过滤搜索结果;

对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;

获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;

根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

可选的,所述隐藏关键词集合是通过以下方法预先推导得到的:

获取与所述搜索目标对应的正样本集合和负样本集合;

对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合;

以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。

可选的,所述以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合,包括:

以所述样本分词集合作为搜索关键词的集合;

通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词;

通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词;

将位于所述第一候选隐藏关键词和所述第二候选隐藏关键词的交集以外的所述第一候选隐藏关键词,作为隐藏关键词,组成隐藏关键词集合。

可选的,所述通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词,包括:

获取候选关键词在样本集合中出现的第一概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;

获取在所述正样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第二概率;

根据所述第一概率的对数值和所述第二概率的对数值之和,得到所述候选关键词对应的第一对数概率;

将使得所述第一对数概率最大的所述候选关键词,作为第一候选隐藏关键词。

可选的,所述通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词,包括:

获取候选关键词在样本集合中出现的第三概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;

获取在所述负样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第四概率;

根据所述第三概率的对数值和所述第四概率的对数值之和,得到所述候选关键词对应的第二对数概率;

将使得所述第二对数概率最大的所述候选关键词,作为第二候选隐藏关键词。

可选的,所述对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合,包括:

对所述正样本集合和所述负样本集合中的样本进行分词处理,得到若干候选样本分词;

基于所述正样本集合和所述负样本集合,计算各所述候选样本分词的逆文本词频;

选择所述逆文本词频大于预设词频阈值的所述候选样本分词,构成样本分词集合。

可选的,所述根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果,包括:

获取所述隐藏关键词集合和所述待匹配分词集合的交集,作为交集关键词;

根据所述交集关键词在所述隐藏关键词集合中的占比,获取所述待过滤搜索结果与所述搜索目标的匹配度预测值;

根据所述匹配度预测值对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

第二方面,本申请实施例公开了一种搜索结果过滤装置,包括:

待过滤搜索结果获取模块,用于获取待过滤搜索结果;

待匹配分词集合获取模块,用于对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;

隐藏关键词集合获取模块,用于获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;

搜索结果过滤模块,用于根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

可选的,所述装置还包括:隐藏关键词集合推导模块,所述隐藏关键词集合推导模块用于通过以下方法预先推导得到所述隐藏关键词集合:

获取与所述搜索目标对应的正样本集合和负样本集合;

对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合;

以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。

可选的,所述以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合,包括:

以所述样本分词集合作为搜索关键词的集合;

通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词;

通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词;

将位于所述第一候选隐藏关键词和所述第二候选隐藏关键词的交集以外的所述第一候选隐藏关键词,作为隐藏关键词,组成隐藏关键词集合。

可选的,所述通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词,包括:

获取候选关键词在样本集合中出现的第一概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;

获取在所述正样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第二概率;

根据所述第一概率的对数值和所述第二概率的对数值之和,得到所述候选关键词对应的第一对数概率;

将使得所述第一对数概率最大的所述候选关键词,作为第一候选隐藏关键词。

可选的,所述通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词,包括:

获取候选关键词在样本集合中出现的第三概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;

获取在所述负样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第四概率;

根据所述第三概率的对数值和所述第四概率的对数值之和,得到所述候选关键词对应的第二对数概率;

将使得所述第二对数概率最大的所述候选关键词,作为第二候选隐藏关键词。

可选的,所述对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合,包括:

对所述正样本集合和所述负样本集合中的样本进行分词处理,得到若干候选样本分词;

基于所述正样本集合和所述负样本集合,计算各所述候选样本分词的逆文本词频;

选择所述逆文本词频大于预设词频阈值的所述候选样本分词,构成样本分词集合。

可选的,所述搜索结果过滤模块,进一步用于:

获取所述隐藏关键词集合和所述待匹配分词集合的交集,作为交集关键词;

根据所述交集关键词在所述隐藏关键词集合中的占比,获取所述待过滤搜索结果与所述搜索目标的匹配度预测值;

根据所述匹配度预测值对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的搜索结果过滤方法。

第四方面,本申请实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的搜索结果过滤方法的步骤。

本申请实施例公开的搜索结果过滤方法,通过获取待过滤搜索结果;对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果,通过预先推导得到的隐藏关键词集合,用于对搜索结果自动进行进一步过滤,充分利用了搜索目标关注的数据隐藏特征,不但提升了搜索结果的过滤效率,而且,提升了搜索结果过滤的准确率。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1是本申请实施例公开的搜索结果过滤方法的流程图;

图2是本申请实施例公开的搜索结果过滤方法的另一流程图;

图3是本申请实施例公开的搜索结果过滤方法中隐藏关键词集合推导流程示意图;

图4是本申请实施例公开的搜索结果过滤方法应用场景示意图;

图5是本申请实施例公开的搜索结果过滤装置结构示意图之一;

图6是本申请实施例公开的搜索结果过滤装置结构示意图之二;

图7示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及

图8示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面,对本申请实施例公开的搜索结果过滤方法的具体实施方式,进行举例说明。

如图1所示,本申请实施例公开的一种搜索结果过滤方法,包括:步骤110至步骤140。

步骤110,获取待过滤搜索结果。

其中,所述待过滤搜索结果可以为根据搜索关键词召回的搜索结果,也可以为通过其他方式获取的搜索结果。

例如,在一个应用场景中,所述待过滤搜索结果为用户输入搜索关键词后,由搜索引擎召回的搜索结果。又例如,在对某一网站中某一栏目的内容进行内容过滤时,所述搜索结果为通过爬虫或其他网站内容爬取技术抓取的该栏目中的文档。

通常情况下,所述待过滤搜索结果为非结构化的文档。

步骤120,对所述待过滤搜索结果进行分词处理,获取待匹配分词集合。

接下来,为了便于进行文档比对,首先对所述待过滤搜索结果进行分词处理,得到组成所述待过滤搜索结果的分词。通常情况下,对所述待过滤搜索结果进行分词处理,可以得到若干条词语。本申请的实施例中,将对所述待过滤搜索结果进行分词处理所得到的词语,组成待匹配分词集合。

可选的,对所述待过滤搜索结果进行分词处理,得到组成所述待过滤搜索结果的分词的具体实施方式,可以参见现有技术,本申请实施例中不再赘述。

步骤130,获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合。

可选的,所述搜索目标为最终期望输出的搜索结果。所述隐藏关键词集合中包括的隐藏关键词为用户输入的搜索关键词以外的关键词,且所述隐藏关键词对搜索目标具有较强的特征表达能力。

本申请的实施例中,为了根据待过滤搜索结果中包括的分词进一步判断所述待过滤搜索结果是否为关注的目标搜索结果,需要预先推导隐藏关键词集合。之后,在应用阶段,可以获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合,用于与所述待匹配分词集合进行匹配。

本申请的一些实施例中,所述隐藏关键词集合是基于样本数据进行反向推到分析后得到的。

所述隐藏关键词集合的推导方法,参见下文描述,此处不再赘述。

步骤140,根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

接下来,需要根据所述待匹配分词集合中的词语在所述隐藏关键词集合中的匹配度,确定所述搜索结果与所述搜索目标的匹配度,从而对搜索结果进行过滤。

可选的,所述根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果,包括:获取所述隐藏关键词集合和所述待匹配分词集合的交集,作为交集关键词;根据所述交集关键词在所述隐藏关键词集合中的占比,获取所述待过滤搜索结果与所述搜索目标的匹配度预测值;根据所述匹配度预测值对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

以推导得到的所述隐藏关键词集合通过符号“S”表示,所述待匹配分词集合通过符号“T”表示为例,可以通过公式:predict=(T∩S)/S计算所述待过滤搜索结果与所述搜索目标的匹配度预测值predict。由匹配度预测值predict的计算方法可知:匹配度预测值predict越大,则所述待过滤搜索结果越有可能是关注的数据。

具体举例而言,如果所述隐藏关键词集合S中包括M个词语,而待过滤搜索结果doc1分词得到的所述待匹配分词集合T中包括N个词语,其中,所述待匹配分词集合T中有n个词语是所述隐藏关键词集合S中的元素,n<M,则待过滤搜索结果doc1匹配搜索目标的匹配度预测值为n/M。即待过滤搜索结果doc1是搜索目标的概率可以表示为:n/M,其中,n为自然数,M和N为正整数。

在实际应用中,如果获取到多个待过滤搜索结果(例如,针对用户输入的一个搜索关键词,搜索引擎召回多条搜索结果),对于每一个待过滤搜索结果,可以得到一个所述待匹配分词集合T,经过与所述隐藏关键词集合S进行匹配,可以得到每一个待过滤搜索结果对应的匹配度预测值predict。接下来,则可以根据每个待过滤搜索结果对应的匹配度预测值predict,对待过滤搜索结果进行过滤。

本申请的一些实施例中,可以通过预先设定匹配度预测值阈值的方式对搜索结果进行过滤。例如,选择匹配度预测值大于或等于所述匹配度预测值阈值的待过滤搜索结果,作为与所述搜索目标匹配的所述搜索结果。

本申请的另一些实施例中,还可以选择匹配度预测值最高的预设数量的待过滤搜索结果,作为与所述搜索目标匹配的所述搜索结果。

本申请对根据所述匹配度预测值对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果的具体实施方式不做限定。

为了使本申请实施例公开的搜索结果过滤方法更加清楚,下面对隐藏关键词集合的推导方法进行进一步阐述。

如图2所示,所述方法还包括:步骤100。

步骤100,推导指定搜索目标所关联的隐藏关键词集合。

在推导指定搜索目标所关联的隐藏关键词集合步骤中,所述隐藏关键词集合是通过以下方法预先推导得到的:获取与所述搜索目标对应的正样本集合和负样本集合;对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合;以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。

下面结合图3所示的隐藏关键词集合推导流程示意图,举例说明隐藏关键词集合的推导方法。

以搜索目标为搜索包含“电信”字样,并且描述电信网络拓扑的文档为例,阐述隐藏关键词集合的获取方法。

首先,获取与所述搜索目标对应的正样本集合和负样本集合。

例如,需要采集包含关键词“电信”的数据,得到原始数据集。可选的,可以使用特定爬虫采集搜索引擎、代码托管平台、文档管理平台等数据源。之后,对采集的数据预处理。例如,可以使用相似性哈希等算法对比采集数据间的相似度,对采集的数据进行去重过滤,得到预处理数据集。然后,对预处理数据集中的每个文档进行标注,确定预处理数据集中的正样本和负样本,分别得到正样本集合和负样本集合。

例如,可以人工分类出预处理数据集中一类具有网络拓扑信息(例如包含“电信网络拓扑”、“电信拓扑图”之类字眼)的文档,作为正样本,另一类是没有上述网络拓扑信息的文档作为负样本。

然后,对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合。

本申请的实施例中,所述对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合,包括:对所述正样本集合和所述负样本集合中的样本进行分词处理,得到若干候选样本分词;基于所述正样本集合和所述负样本集合,计算各所述候选样本分词的逆文本词频;选择所述逆文本词频大于预设词频阈值的所述候选样本分词,构成样本分词集合。

可选的,可以采用现有技术中的分词技术对所述正样本集合中的文档和所述负样本集合中的文档进行分词处理,得到每个正样本和每个负样本分贝包括的词语,作为候选样本分词。

为了减少运算量,同时减少文档中的词语噪声,本申请的实施例中,需要进一步对候选样本分词进行过滤,得到样本分词。

本申请的实施例中,可以基于候选样本分词的逆文本词频,对候选样本分词进行过滤,得到样本分词。

以所述正样本集合和所述负样本集合中包括的文档数量为|D|为例,第i个词语的逆文本词频tf-idf可以通过以下公式计算tf-idf=tf·idf,其中,

采用上述逆文本词频的计算方法,可以得到所述正样本集合和所述负样本集合中包含的每个候选样本分词的逆文本词频tf-idf。逆文本词频tf-idf越大说明该词语集中出现在某个文档中的概率越大。本申请的实施例中,采用逆文本词频特征算法进行计算所有词语的词频特征分值,然后选取所有分值超过指定阈值的所有词语,作为样本分词。例如,可以将候选样本分词的逆文本词频tf-idf大于或等于预设词频阈值的候选样本分词,作为样本分词,从而得到样本分词集合。

在得到样本分词集合之后,接下来,以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。

滤筛选无关搜索结果的方法,其本质就是从所有搜索结果中挖掘出所有真正关注的结果的隐藏特征,并且这部分特征是不包含在无关搜索结果中。搜索结果的各种特征信息关系如下:

W=W

S=S

其中,W表示所有特征信息,W

在计算过程中,可以用符号“W”表示样本分词集合中的样本词语特征,用符号“W

在应用过程中,如果已知特征W

本申请的实施例中,根据已经计算分析出的样本分词集合W,通过反向推导统计方式计算出隐藏关键词集合W

可选的,以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合,包括:子步骤S1至子步骤S4。

子步骤S1,以所述样本分词集合作为搜索关键词的集合。

下文中,搜索关键词的集合通过符号“W

子步骤S2,通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词。

首先通过预设贝叶斯模型反向推导对正样本具有更强表达能力的隐藏特征,即第一候选隐藏关键词。即已知正样本集合Y作为目标,其出现的概率受限于W

可选的,所述通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词,包括:获取候选关键词在样本集合中出现的第一概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;获取在所述正样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第二概率;根据所述第一概率的对数值和所述第二概率的对数值之和,得到所述候选关键词对应的第一对数概率;将使得所述第一对数概率最大的所述候选关键词,作为第一候选隐藏关键词。

可选的,贝叶斯模型可以表示为:

上述贝叶斯模型最后的目标就是:通过遍历寻找合适的X集合,令目标函数概率值最大化。

上述贝叶斯模型中,Y表示正样本集合,X表示通过计算得到使得整个式子计算得到的值最大的特征集合(即候选关键词,用来推导作为隐藏关键词集合的概率),P(W

上述贝叶斯模型中,已知概率量可以通过求样本集合中的各个占比求得统计级别的概率值,例如:P(Y,W

由于概率值是介于0到1之间,小于1的数连乘后数值会越来越接近0,而导致计算机的精度丢失,因此,本申请的实施例中,对计算得到的概率值取对数,既可以保持函数单调性不变,又可以保障计算精度。

其中,候选关键词X的取值可以采用动态规划的算法确定。

通过不断尝试候选关键词X的各种取值,直至找到时目标函数概率值最大,此时,将候选关键词X作为与正样本对应的隐藏关键词,即第一候选隐藏关键词。

子步骤S3,通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词。

同理,将已知负样本集合作为目标,采用子步骤S2中的方法,确定第二候选隐藏关键词。

可选的,通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词,包括:获取候选关键词在样本集合中出现的第三概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;获取在所述负样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第四概率;根据所述第三概率的对数值和所述第四概率的对数值之和,得到所述候选关键词对应的第二对数概率;将使得所述第二对数概率最大的所述候选关键词,作为第二候选隐藏关键词。

其中,获取候选关键词的方法参见前文描述。

各已知概率量可以通过求样本集合中的各个占比求得统计级别的概率值,例如:P(Y,W

子步骤S4,将位于所述第一候选隐藏关键词和所述第二候选隐藏关键词的交集以外的所述第一候选隐藏关键词,作为隐藏关键词,组成隐藏关键词集合。

在得到与正样本对应的第一候选隐藏关键词(例如表示为集合S

之后,将第一候选隐藏关键词中剔除交集S’中的候选隐藏关键词后保留的第一候选隐藏关键词,作为表达正样本(即搜索目标)的隐藏关键词,组成隐藏关键词集合。

至此,完成了隐藏关键词集合的推导过程。输出的隐藏关键词集合将用于对待过滤搜索结果进行过滤。

为了便于读者理解本申请,下面结合4所示的某一主题的搜索应用场景,进一步阐述本申请实施例公开的搜索结果过滤方法的实施过程。

在用户通过各种搜索引擎或者数据源获取到搜索结果之后,执行本申请实施例公开的搜索结果过滤方法,获取搜索结果。之后,对搜索结果进行中文分词、数据清洗、向量空间模型的特征提取,再到逆文本词频特征权值计算,得到向量形式的样本分词集合。以样本分词集合作为反向推导统计模型的输入,利用概率图进行分类,得到用户关注的数据关联的隐藏特征(即隐藏关键词集合)。最后,基于隐藏关键词集合进一步分类得到用户关注的信息,向用户输出,从而过滤无关的信息内容。在后续的针对该主题的搜索应用场景中,则可以直接应用前期确定的隐藏关键词集合对当前的搜索结果进行过滤。

本申请实施例公开的搜索结果过滤方法,通过获取待过滤搜索结果;对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果,通过预先推导得到的隐藏关键词集合,用于对搜索结果自动进行进一步过滤,充分利用了搜索目标关注的数据隐藏特征,不但提升了搜索结果的过滤效率,而且,提升了搜索结果过滤的准确率。

本申请实施例中公开的搜索结果过滤方法仅需在推导隐藏关键词集合时人工标注正负数据样本,隐藏关键词集合是利用统计机器学习的自我学习能力实现端到端的训练,大幅降低人工筛选的人工成本。

经过对关键词匹配方法与本申请实施例公开的搜索结果过滤方法进行对比测试,得出了不同数据数量级下的准确率比较结果,见下表。

由上表中的准确率对比结果可见,采用本申请实施例中公开的搜索结果过滤方法对搜索结果过滤的准确率有非常大的提升。

进一步的,在反向推导隐藏关键词集合(即数据的隐藏特征)的过程中,采用逆文本词频特征提取算法,能够快速分析检测出数据中的关键特征信息点。进一步的,采用反向推导统计的方式推导隐藏关键词集合,通过结合逆文本词频特征的特点,能够有效对无关搜索结果进行过滤,具有较高的准确率。即使在数据很少的情况下也可以进行推导分析,并且随着数据量的增大,推导结果也会越来越准确,适用场景更加广泛。

并且,随着数据集的变化(如随着时间推移数据量增加,或者搜索目标发生调整),可以重新执行隐藏关键词集合的推导过程,对过滤需求做出瞬时反应,自动升级推测。

本申请实施例公开的搜索结果过滤方法,不仅可以应用于搜索应用中,还可以通过主动化、事先化的IT技术手段主动在代码共享平台、技术论坛、微信公众号、文档库上实现违规上传问题的自动发现,从而减少因信息泄露带来的安全隐患,建设信息泄露自动监测识别的能力。

相应的,本申请实施例还公开了一种搜索结果过滤装置,如图5所示,所述装置包括:

待过滤搜索结果获取模块510,用于获取待过滤搜索结果;

待匹配分词集合获取模块520,用于对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;

隐藏关键词集合获取模块530,用于获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;

搜索结果过滤模块540,用于根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

本申请的一些实施例中,如图6所示,所述装置还包括:隐藏关键词集合推导模块500,所述隐藏关键词集合推导模块500用于通过以下方法预先推导得到所述隐藏关键词集合:

获取与所述搜索目标对应的正样本集合和负样本集合;

对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合;

以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。

可选的,所述以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合,包括:

以所述样本分词集合作为搜索关键词的集合;

通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词;

通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词;

将位于所述第一候选隐藏关键词和所述第二候选隐藏关键词的交集以外的所述第一候选隐藏关键词,作为隐藏关键词,组成隐藏关键词集合。

可选的,所述通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词,包括:

获取候选关键词在样本集合中出现的第一概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;

获取在所述正样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第二概率;

根据所述第一概率的对数值和所述第二概率的对数值之和,得到所述候选关键词对应的第一对数概率;

将使得所述第一对数概率最大的所述候选关键词,作为第一候选隐藏关键词。

可选的,所述通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词,包括:

获取候选关键词在样本集合中出现的第三概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;

获取在所述负样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第四概率;

根据所述第三概率的对数值和所述第四概率的对数值之和,得到所述候选关键词对应的第二对数概率;

将使得所述第二对数概率最大的所述候选关键词,作为第二候选隐藏关键词。

可选的,所述对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合,包括:

对所述正样本集合和所述负样本集合中的样本进行分词处理,得到若干候选样本分词;

基于所述正样本集合和所述负样本集合,计算各所述候选样本分词的逆文本词频;

选择所述逆文本词频大于预设词频阈值的所述候选样本分词,构成样本分词集合。

可选的,所述搜索结果过滤模块540,进一步用于:

获取所述隐藏关键词集合和所述待匹配分词集合的交集,作为交集关键词;

根据所述交集关键词在所述隐藏关键词集合中的占比,获取所述待过滤搜索结果与所述搜索目标的匹配度预测值;

根据所述匹配度预测值对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。

本申请实施例公开的搜索结果过滤装置,用于实现本申请实施例中所述的搜索结果过滤方法,装置的各模块的具体实施方式不再赘述,可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的搜索结果过滤装置,通过获取待过滤搜索结果;对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果,通过预先推导得到的隐藏关键词集合,用于对搜索结果自动进行进一步过滤,充分利用了搜索目标关注的数据隐藏特征,不但提升了搜索结果的过滤效率,而且,提升了搜索结果过滤的准确率。

本申请实施例中公开的搜索结果过滤方法仅需在推导隐藏关键词集合时人工标注正负数据样本,隐藏关键词集合是利用统计机器学习的自我学习能力实现端到端的训练,大幅降低人工筛选的人工成本。

进一步的,在反向推导隐藏关键词集合(即数据的隐藏特征)的过程中,采用逆文本词频特征提取算法,能够快速分析检测出数据中的关键特征信息点。进一步的,采用反向推导统计的方式推导隐藏关键词集合,通过结合逆文本词频特征的特点,能够有效对无关搜索结果进行过滤,具有较高的准确率。即使在数据很少的情况下也可以进行推导分析,并且随着数据量的增大,推导结果也会越来越准确,适用场景更加广泛。

并且,在数据集的变化(如随着时间推移数据量增加,或者搜索目标发生调整)的情况下,可以重新执行隐藏关键词集合的推导过程,对过滤需求做出瞬时反应,自动升级推测。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种搜索结果过滤方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

例如,图7示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器710和存储器720及存储在所述存储器720上并可在处理器710上运行的程序代码730,所述处理器710执行所述程序代码730时实现上述实施例中所述的方法。所述存储器720可以为计算机程序产品或者计算机可读介质。存储器720可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器720具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码730的存储空间7201。例如,用于程序代码730的存储空间7201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码730为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码,当所述计算机可读代码在电子设备上运行时,导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的搜索结果过滤方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质,该计算机可读存储介质可以具有与图7所示的电子设备中的存储器720类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图8所述的便携式或者固定存储单元。通常,存储单元包括计算机可读代码730’,所述计算机可读代码730’为由处理器读取的代码,这些代码被处理器执行时,实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 过滤第三方网页广告的方法、装置、电子设备及存储介质
  • 一种文本信息的过滤方法、装置和电子设备
  • 一种题目搜索、批改方法、装置、电子设备和存储介质
  • 搜索结果的刷新方法、装置、存储介质及电子设备
  • 对象搜索方法、装置、电子设备及计算机可读存储介质
  • 搜索结果过滤器的构建方法、装置、电子设备及存储介质
  • 电路搜索方法、搜索模型的训练方法、装置和电子设备
技术分类

06120115935941