掌桥专利:专业的专利平台
掌桥专利
首页

一种信息搜索方法及装置

文献发布时间:2023-06-19 13:49:36


一种信息搜索方法及装置

技术领域

本发明涉及搜索技术领域,特别是涉及一种信息搜索方法以及一种信息搜索装置。

背景技术

现有技术中,在用户需要在互联网中搜索信息的情况下,通常可以在搜索引擎输入搜索条件,以获取搜索引擎返回的搜索结果信息。一般来说,搜索应收可以对搜索条件所包含的文字进行分词、改写等处理,以尽可能获取与用户输入搜索条件关联度较高的搜索结果信息。

但是,用户在搜索信息时,可能并不存在明显的搜索目的,此时其输入的搜索条件可能表达的是用户大致的搜索意图。例如,在用户输入搜索条件“短视频”时,其并未明确地指定特定的信息,而只是希望查找短视频类别的视频。在此情况下,若采用分词、改写等处理方式获取搜索结果信息,可能存在搜索结果信息并不满足用户搜索意图的情况。

发明内容

本发明实施例的目的在于提供一种信息搜索方法以及一种信息搜索装置,以实现针对泛化搜索请求提高搜索结果信息的准确度。具体技术方案如下:

在本发明实施的第一方面,首先提供了一种信息搜索方法,所述方法包括:

响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求;所述泛化搜索请求为具有模糊搜索意图的搜索请求;

若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息;

根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率;

基于所述预估点击率,确定所述搜索结果信息的排列顺序;

采用所述排列顺序,向用户发送所述搜索结果信息。

可选地,所述根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率的步骤,包括:

将所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度输入点击率预估模型中,获取所述点击率预估模型输出的所述搜索结果信息的预估点击率。

可选地,在所述根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率的步骤之前,所述方法还包括:

根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序;

所述基于所述预估点击率,确定所述搜索结果信息的排列顺序的步骤,包括:

根据所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整,得到所述搜索结果信息的精排顺序。

可选地,所述根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序的步骤,包括:

确定所述搜索结果信息对应的所述搜索方式的评分值;

将所述搜索方式的评分值、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度输入粗排排序模型中,并获取所述粗排排序模型输出的所述搜索结果信息的粗排顺序。

可选地,所述搜索方式包括热门关联搜索方式和/或用户关联搜索方式;

所述采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息的步骤,包括:

采用倒排索引搜索方式,获取索引搜索信息;

基于所述搜索请求和/或所述用户,采用所述热门关联搜索方式获取搜索结果信息和/或采用所述用户关联搜索方式中获取搜索结果信息。

可选地,所述热门关联搜索方式包括全站热门搜索方式和/或分类热门搜索方式;

所述采用所述热门关联搜索方式获取搜索结果信息的步骤,包括:

采用全站热门搜索方式,获取预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息;和/或

采用分类热门搜索方式,识别所述泛化搜索请求对应的类别,并获取所述类别中在预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息。

可选地,所述第二预设搜索方式包括用户历史搜索关联搜索方式、用户历史观看关联搜索方式、用户当前请求关联搜索方式中的至少一种;

所述采用所述用户关联搜索方式中获取搜索结果信息的步骤,包括:

响应用户发送的泛化搜索请求,采用用户历史搜索关联搜索方式,获取与用户历史搜索信息关联的信息,作为搜索结果信息;和/或

响应用户发送的泛化搜索请求,采用用户历史观看关联搜索方式,获取与用户历史观看信息关联的信息,作为搜索结果信息;和/或

响应用户发送的泛化搜索请求,采用用户当前输入关联搜索方式,获取与所述泛化搜索请求关联的信息,作为搜索结果信息。

在本发明实施的第二方面,还提供了信息搜索装置,所述装置包括:

请求识别模块,用于响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求;所述泛化搜索请求为具有模糊搜索意图的搜索请求;

信息获取模块,用于若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息;

点击率预估模块,用于根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率;

排序模块,用于基于所述预估点击率,确定所述搜索结果信息的排列顺序;

发送模块,用于采用所述排列顺序,向用户发送所述搜索结果信息。

可选地,所述点击率预估模块包括:

模型预估子模块,用于将所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度输入点击率预估模型中,获取所述点击率预估模型输出的所述搜索结果信息的预估点击率。

可选地,所述装置还包括:

粗排模块,用于根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序;

所述排序包括:

精排模块,用于根据所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整,得到所述搜索结果信息的精排顺序。

可选地,所述粗排模块包括:

评分子模块,用于确定所述搜索结果信息对应的所述搜索方式的评分值;

粗排子模块,用于将所述搜索方式的评分值、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度输入粗排排序模型中,并获取所述粗排排序模型输出的所述搜索结果信息的粗排顺序。

可选地,所述搜索方式包括热门关联搜索方式和/或用户关联搜索方式;

所述信息获取模块包括:

倒排索引搜索子模块,用于采用倒排索引搜索方式,获取索引搜索信息;

信息获取子模块,用于基于所述搜索请求和/或所述用户,采用所述热门关联搜索方式获取搜索结果信息和/或采用所述用户关联搜索方式中获取搜索结果信息。

可选地,所述热门关联搜索方式包括全站热门搜索方式和/或分类热门搜索方式;

所述信息获取子模块包括:

全站热门搜索单元,用于采用全站热门搜索方式,获取预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息;和/或

分类热门搜索单元,用于采用分类热门搜索方式,识别所述泛化搜索请求对应的类别,并获取所述类别中在预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息。

可选地,所述第二预设搜索方式包括用户历史搜索关联搜索方式、用户历史观看关联搜索方式、用户当前请求关联搜索方式中的至少一种;

所述信息获取子模块包括:

历史搜索关联搜索单元,用于响应用户发送的泛化搜索请求,采用用户历史搜索关联搜索方式,获取与用户历史搜索信息关联的信息,作为搜索结果信息;和/或

历史观看关联搜索单元,用于响应用户发送的泛化搜索请求,采用用户历史观看关联搜索方式,获取与用户历史观看信息关联的信息,作为搜索结果信息;和/或

泛化搜索关联搜索单元,用于响应用户发送的泛化搜索请求,采用用户当前输入关联搜索方式,获取与所述泛化搜索请求关联的信息,作为搜索结果信息。

在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一所述的信息搜索方法步骤。

在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的信息搜索方法。

在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的信息搜索方法。

通过本发明实施例的信息搜索方法,响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求,以确定用户是否具有模糊的搜索意图;若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息,以针对用户具有模糊的搜索意图的情况下,可以通过在倒排索引搜索方式的基础上,添加多样化的搜索方式,从而可以更加容易找到用户感兴趣的内容。根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率,以在搜索结果信息中预估用户更感兴趣的内容,基于所述预估点击率,确定所述搜索结果信息的排列顺序,采用所述排列顺序,向用户发送所述搜索结果信息,用户更加容易在搜索结果信息中查找到其可能感兴趣的内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中的一种信息搜索方法实施例的步骤流程图。

图2为本发明实施例中的另一种信息搜索方法实施例的步骤流程图;

图3为本发明实施例中的一种信息搜索装置实施例的结构框图;

图4为本发明实施例中的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。

本发明实施例的核心构思之一在于,针对用户发送的搜索请求,识别搜索请求是否不具备明显的搜索意图,在搜索请求不具备明显的搜索意图,即搜索请求为泛化搜索请求的情况下,在现有的倒排索引搜索方式的基础上补充其他至少一个搜索方式获取搜索结果信息,使搜索结果信息可以更加丰富,使得在用户不具有明显的搜索意图的情况下,也可以较为容易获取得到用户感兴趣的搜索结果信息。同时,面对搜索结果信息来源多样,简单地基于每种搜索方式原有的搜索结果信息排列方式向用户提供搜索结果信息,可能使用户较难查看到自己感兴趣的搜索结果信息的情况,对搜索结果信息的点击率进行预估,并基于预估点击率确定搜索结果信息的排列顺序,使用户更加可能感兴趣的搜索结果信息可以尽可能位于搜索结果信息的较为靠前的排序,提高用户的搜索体验。

参照图1,示出了本发明实施例的一种信息搜索方法实施例的步骤流程图,具体可以包括如下步骤:

步骤101,响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求;所述泛化搜索请求为具有模糊搜索意图的搜索请求;

在本发明实施例中,在用户需要搜索信息的情况下,可以在搜索界面中输入搜索条件,从而可以向服务器发送搜索请求。用户输入的搜索条件可以具有明显的搜索目的,也可以不具有明显的搜索目的。例如,在搜索条件为“电视剧A”的情况下,此时可以明确地得知用户需要搜索与电视剧A相关的内容,该搜索条件具有明显的搜索目的。在搜索条件为“短视频”的情况下,此时用户可以希望查看短视频类别相关的视频,但是并没有明确地指定短视频所需要包含的内容,该搜索条件可以不具有明显的搜索目的。

在用户输入的搜索条件不具有明显搜索目的的情况下,可以认为用户发送的搜索请求为泛化搜索请求。泛化搜索请求可以不具有对应的目标信息,而只是代表一类或多个大致的搜索意图。

在本发明实施例中,在获取得到用户发送的搜索请求之后,可以识别用户发出的搜索请求是否为泛化搜索请求,以确定是否需要针对泛化搜索请求变更搜索方式,以使搜索结果信息可以更加容易向用户提供感兴趣的内容。

由此,可以响应用户发送的搜索请求,识别所述搜索请求对应的搜索意图是否为模糊的。

具体而言,可以对搜索请求对应的搜索意图进行分类,根据搜索请求对应的搜索意图类型,确定搜索意图是否是模糊的,以确定其是否为泛化搜索请求;也可以识别搜索请求中是否包含具体的命名实体(例如,人名、地名、机构名、专有名词),以确定其是否为泛化搜索请求;还可以基于模板规则、行为统计反馈等方法确定搜索请求是否为泛化搜索请求,本发明对此不做限制。

可选地,为了使用户可以更加容易获取得到其感兴趣的内容。可以在搜索请求对应的搜索意图不是模糊的,即搜索请求不是泛化搜索请求的情况下,也可以对搜索请求进行泛化处理,以为用户提供更多其可能需要的搜索结果信息。

步骤102,若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息;

在本发明实施例中,若搜索请求对应的搜索意图是模糊的,则可以确定搜索请求为泛化搜索请求,此时为了使搜索结果信息可以更加容易向用户提供感兴趣的内容,可以采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息。由此,可以采用至少两种搜索方式获取至少一个搜索结果信息,使搜索结果信息可以尽可能地包含用户可能感兴趣的内容。

具体地,对于倒排索引搜索方式来说,可以基于“关键词——搜索结果信息”形式的映射结构建立倒排索引数据库。其后,在获取得到泛化搜索请求之后,可以将泛化搜索请求中包含的文本进行分词,得到至少一个搜索词后,在倒排索引数据库中查找与搜索词匹配的关键词,并将关键词对应的搜索结果信息作为泛化搜索请求对应的搜索结果信息,从而获取得到至少一种搜索结果信息。

但是,倒排索引搜索方式获取得到的搜索结果信息可能无法完全包含用户可能感兴趣的内容,由此,还可以采用至少一种搜索方式获取搜索结果信息,使获取得到的搜索结果信息可以包含更多用户可能感兴趣的内容。

其中,所述搜索方式可以包括获取热门信息的搜索方式、获取与用户历史操作关联的信息的搜索方式等,本发明对此不做限制。

所述搜索结果信息的类型可以根据服务器所提供的功能确定。例如,在服务器所提供的功能为网页检索功能的情况下,所述搜索结果信息可以为网页信息。在服务器所提供的功能为视频检索功能的情况下,所述搜索结果信息可以为视频信息。在服务器所提供的功能为商品检索功能的情况下,所述搜索结果信息可以为商品信息。

在具体实现中,服务器在获取用户发送搜索请求之后,可以响应用户发送的泛化搜索请求,采用意图识别模板匹配、意图识别规则匹配、意图识别模型分类等意图识别方式,确定搜索请求是否为泛化搜索请求。在确定搜索请求是泛化搜索请求的情况下,可以采用至少两种搜索方式,获取至少一个搜索结果信息。

具体地,不同的搜索方式可以在考虑不同因素的情况下,获取搜索结果信息。例如,可以无需考虑所述泛化搜索请求包含的搜索条件,而直接返回当前热门的信息;也可以通过意图识别等方式,确定所述泛化搜索请求可能涉及类别,再返回该种类别的热门信息;也可以查找与用户历史操作关联的信息;也可以查找与所述泛化搜索请求包含的搜索条件关联,同时与用户历史操作关联的信息等。

步骤103,根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率;

在本发明实施例中,每一种搜索方式获取得到的搜索结果信息可以具有排列顺序,且不同所述搜索结果集合中包含的搜索结果信息可能存在部分重合。在此情况下,若简单地基于每种搜索方式对应搜索结果信息的排列顺序,确定所有搜索结果信息的综合排列顺序,其可能导致综合排列顺序中用户更加可能查看的搜索结果信息不位于靠前的位置,从而导致用户较难查找到自身希望查看的信息,影响用户的搜索体验。

由此,可以根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率,以基于预估点击率估计用户更加可能查看的信息。

在具体实现中,搜索结果信息与泛化搜索请求的相关度可以为搜索结果信息与泛化搜索请求之间的关联程度,若搜索结果信息与泛化搜索请求之间的关联程度越高,则可以认为搜索结果信息与泛化搜索请求具有较高的相关度。

具体地,可以采用意图识别模板匹配、意图识别规则匹配、意图识别模型分类等意图识别方式,确定所述泛化搜索请求的意图类别。其后,可以根据搜索结果信息所包含的特征信息与所述泛化搜索请求的意图类别之间的相似度,确定所述搜索结果信息与所述泛化搜索请求的相关度。若搜索结果信息所包含的特征信息与所述泛化搜索请求的意图类别之间的相似度越高,则可以认为所述搜索结果信息与所述泛化搜索请求的相关度越高。若搜索结果信息所包含的特征信息与所述泛化搜索请求的意图类别之间的相似度越低,则可以认为所述搜索结果信息与所述泛化搜索请求的相关度较低。

其中,所述搜索结果信息所包含的特征信息可以包括信息的标识信息、信息的名称、信息的类别、信息的标签、信息中包含的具体内容(文章正文、视频、图像)等、信息对应的用户评论、信息的作者、信息的来源等,本发明对此不做限制。

具体地,也可以直接比较所述泛化搜索请求所记载的搜索条件与所述搜索结果信息所包含的特征信息的相似度,确定所述搜索结果信息与所述泛化搜索请求的相关度。

在具体实现中,搜索结果信息与用户的相关度可以为搜索结果信息与用户的个人身份、个人偏好等与用户关联的信息之间的关联程度,若搜索结果信息与用户间的关联程度越高,则可以认为搜索结果信息与泛化搜索请求具有较高的相关度。

具体地,可以根据所述用户的个人身份信息、信息查看记录、信息搜索记录、个人偏好信息等与用户相关的信息与所述搜索结果信息所包含的特征信息之间的相似度。确定所述搜索结果信息与所述用户之间的相关度。若与所述用户相关的信息与所述搜索结果信息之间的相似度越高,则可以认为所述搜索结果信息与所述用户的相关度越高。若与所述用户相关的信息与所述搜索结果信息之间的相似度越低,则可以认为所述搜索结果信息与所述用户的相关度越低。

具体地,也可以事先采集泛化搜索请求对应的搜索结果信息中,用户最终点击的信息,建立用户与用户最终点击信息之间的关联关系。同时,若不同的用户皆对应一相同的用户最终点击信息,则可以认为对应相同用户最终点击信息的用户具有相似的爱好,存在一定的关联信息,则还可以生成用户的关联关系。其后,可以基于用户与用户最终点击信息之间的关联关系,以及用户之间的关联关系,查找发送所述泛化搜索请求的用户可能点击的搜索结果信息,并可以认为该搜索结果信息与所述泛化搜索请求具有较高的相关度。

由此,可以基于所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率。若所述搜索结果信息与所述泛化搜索请求的相关度的越高,则可以认为用户更加可能点击该搜索结果信息,从而该搜索结果信息可以具有较高的预估点击率。若所述搜索结果信息与所述用户的相关度较高,则可以认为用户更加可能点击该搜索结果信息,从而该搜索结果信息可以具有较高的预估点击率。

步骤104,基于所述预估点击率,确定所述搜索结果信息的排列顺序;

在本发明实施例中,可以基于所述预估点击率,确定所述搜索结果信息的排列顺序。具体而言,可以将预估点击率高的搜索结果信息放在排列顺序中靠前的位置,而将预估点击率地的搜索结果信息放在排列顺序中靠后的位置。

步骤105,采用所述排列顺序,向用户发送所述搜索结果信息。

在本发明实施例中,在确定所述排列顺序之后,可以向用户发送搜索结果信息,由于预估点击率较高的搜索结果信息可以在排列顺序中靠前的位置,从而可以使用户更加容易在搜索结果信息中查找到其可能感兴趣的内容。

通过本发明实施例的信息搜索方法,响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求,以确定用户是否具有模糊的搜索意图;若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息,以针对用户具有模糊的搜索意图的情况下,可以通过在倒排索引搜索方式的基础上,添加多样化的搜索方式,从而可以更加容易找到用户感兴趣的内容。根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率,以在搜索结果信息中预估用户更感兴趣的内容,基于所述预估点击率,确定所述搜索结果信息的排列顺序,采用所述排列顺序,向用户发送所述搜索结果信息,用户更加容易在搜索结果信息中查找到其可能感兴趣的内容。

参照图2,示出了本发明实施例的一种信息搜索方法实施例的步骤流程图,具体可以包括如下步骤:

步骤201,响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求;所述泛化搜索请求为具有模糊搜索意图的搜索请求;

在本发明实施例中,在用户需要搜索信息的情况下,可以在搜索界面中输入搜索条件,从而可以向服务器发送搜索请求。用户输入的搜索条件可以具有明显的搜索目的,也可以不具有明显的搜索目的。例如,在搜索条件为“电视剧A”的情况下,此时可以明确地得知用户需要搜索与电视剧A相关的内容,该搜索条件具有明显的搜索目的。在搜索条件为“短视频”的情况下,此时用户可以希望查看短视频类别相关的视频,但是并没有明确地指定短视频所需要包含的内容,该搜索条件可以不具有明显的搜索目的。

在用户输入的搜索条件不具有明显搜索目的的情况下,可以认为用户发送的搜索请求为泛化搜索请求。泛化搜索请求可以不具有对应的目标信息,而只是代表一类或多个大致的搜索意图。

在本发明实施例中,在获取得到用户发送的搜索请求之后,可以识别用户发出的搜索请求是否为泛化搜索请求,以确定是否需要针对泛化搜索请求变更搜索方式,以使搜索结果信息可以更加容易向用户提供感兴趣的内容。

由此,可以响应用户发送的搜索请求,识别所述搜索请求对应的搜索意图是否为模糊的。

具体而言,可以对搜索请求对应的搜索意图进行分类,根据搜索请求对应的搜索意图类型,确定搜索意图是否是模糊的,以确定其是否为泛化搜索请求;也可以识别搜索请求中是否包含具体的命名实体(例如,人名、地名、机构名、专有名词),以确定其是否为泛化搜索请求;还可以基于模板规则、行为统计反馈等方法确定搜索请求是否为泛化搜索请求,本发明对此不做限制。

可选地,为了使用户可以更加容易获取得到其感兴趣的内容。可以在搜索请求对应的搜索意图不是模糊的,即搜索请求不是泛化搜索请求的情况下,也可以对搜索请求进行泛化处理,以为用户提供更多其可能需要的搜索结果信息。

步骤202,若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息;

在本发明实施例中,若搜索请求对应的搜索意图是模糊的,则可以确定搜索请求为泛化搜索请求,此时为了使搜索结果信息可以更加容易向用户提供感兴趣的内容,可以采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息。由此,可以采用至少两种搜索方式获取至少一个搜索结果信息,使搜索结果信息可以尽可能地包含用户可能感兴趣的内容。

在本发明一种实施例中,所述采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息的步骤,包括:

S11,采用倒排索引搜索方式,获取索引搜索信息;

在本发明实施例中,可以响应用户发送的泛化搜索请求,采用倒排索引搜索方式,获取索引搜索信息,以基于泛化搜索请求中包含的搜索词,获取与搜索词相关的搜索结果信息。

具体而言,对于倒排索引搜索方式来说,可以基于“关键词——搜索结果信息”形式的映射结构建立倒排索引数据库。其后,在获取得到泛化搜索请求之后,可以将泛化搜索请求中包含的文本进行分词,得到至少一个搜索词后,在倒排索引数据库中查找与搜索词匹配的关键词,并将关键词对应的搜索结果信息作为泛化搜索请求对应的索引搜索信息,从而获取得到至少一种搜索结果信息。

S12,基于所述搜索请求和/或所述用户,采用所述热门关联搜索方式获取搜索结果信息和/或采用所述用户关联搜索方式中获取搜索结果信息。

在本发明实施例中,倒排索引搜索方式获取得到的搜索结果信息可能无法完全包含用户可能感兴趣的内容,由此,还可以采用至少一种搜索方式获取搜索结果信息,使获取得到的搜索结果信息可以包含更多用户可能感兴趣的内容。

具体地,搜索方式可以包括热门关联搜索方式以及用户关联搜索方式。热门关联搜索方式可以用于获取较多用户点击查看的搜索结果信息,而用户关联搜索方式可以用于获取与用户身份、用户历史操作等关联的搜索结果信息。

具体而言,较多用户点击查看的搜索结果信息可以认为所述热门点击信息可以是当前多数用户具有一定兴趣的信息。对于发送所述泛化搜索请求的用户来说,其也可能期望查看较多用户点击查看的搜索结果信息。由此,可以采用热门关联搜索方式为用户提供搜索结果信息。

通常来说,用户在对信息进行过搜索、观看、收藏等操作的情况下,通常可以认为用户对该信息具有一定的兴趣,从而用户在查看其它信息时,也更加可能对与用户身份、用户操作存在关联的信息感兴趣。由此,可以采用用户关联搜索方式为用户提供搜索结果信息。

在本发明实施例中,针对所述泛化搜索请求,可以采用所有可选的搜索方式为用户提供搜索结果信息,也可以基于所述搜索请求和/或所述用户,在多种搜索方式中确定更加可能为用户提供其感兴趣的内容的搜索方式,为用户提供搜索信息。

具体而言,可以基于搜索请求中包含的搜索词,以及用户的身份信息、历史操作信息,确定更加可能获取得到用户感兴趣的内容的搜索方式。例如,搜索请求中搜索词与用户历史观看视频相关度较高的情况下,则可以考虑优先采用用户关联搜索方式获取搜索结果信息,在搜索词与热门视频相关度较高的情况下,可以优先考虑采用热门关联搜索方式获取搜索结果信息。

可选地,搜索方式可以根据用户实际需要,由用户自行选择,本发明对此不做限制。

在本发明一种实施例中,所述采用所述热门关联搜索方式获取搜索结果信息的步骤,包括:

S21,采用全站热门搜索方式,获取预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息;和/或

在本发明实施例中,全站热门搜索方式可以用于查找当前整体网站中具有较多用户点击的信息。在整体网站中具有较多用户进行点击的热门点击信息,其可以具有更好的质量,所述用户可以对整体网站的所述热门点击信息具有一定的兴趣。

由此,可以统计预设时段内,网站中每一信息的点击数以及点击率,并分别基于点击数以及点击率对网站中的信息进行排序,从而可以得到在预设时段内网站中信息的点击数排序,以及预设时段内网站中信息的点击率排序。在点击率和/或点击数高于预设次序的情况下,可以认为所述信息在当前整体网站中具有较多用户点击。在用户发送泛化搜索请求的情况下,可以采用全站热门搜索方式,获取预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息。

其中,所述预设时段可以根据实际需要确定。例如,所述预设时段可以为最近预设时长内,如最近1小时内、最近一天内、最近三天内、最近一周内等。所述预设时段也可以为指定的时间范围,如春节时段内,用户在线数量高峰时段内等。本发明对此不做限制、

所述预设次序可以根据实际需要进行确定,例如,第三名、第十名、第五十名、第一百名等,本发明对此不做限制。

S22,采用分类热门搜索方式,识别所述泛化搜索请求对应的类别,并获取所述类别中在预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息。

在本发明实施例中,用户发送的所述泛化搜索请求虽然不具有明显的搜索目的,但其可能存在一类或多类的搜索意图。由此,所述分类热门搜索方式可以用基于所述泛化搜索请求的搜索意图,识别所述泛化搜索请求可能需要查看的类别,并将所述类别中在预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息,从而可以向用户提供一定程度上满足用户搜索意图,且具有较多用户进行点击的信息,以向用户提供其较为可能查看的信息。

由此,可以统计预设时段内,分别获取网站中每一类别中每一信息的点击数以及点击率,并分别基于点击数以及点击率对网站中的每一类别信息进行排序,从而可以得到预设时段内网站中每一类别下的信息的点击数排序,以及预设时段内网站中每一类别下的信息的点击率排序。其后,若点击率和/或点击数在信息对应的类别中高于预设次序的情况下,可以认为所述信息在其所属类别下具有较多用户点击。在用户发送泛化搜索请求的情况下,可以采用分类热门搜索方式,识别所述泛化搜索请求对应的类别,并获取所述类别中在预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息。

在本发明一种实施例中,所述采用所述用户关联搜索方式中获取搜索结果信息的步骤,包括:

S31,响应用户发送的泛化搜索请求,采用用户历史搜索关联搜索方式,获取与用户历史搜索信息关联的信息,作为搜索结果信息;和/或

在本发明实施例中,用户历史搜索信息可以为用户历史搜索输入的信息,例如,用户在历史搜索中输入过关键词、某个信息的标识信息、信息的发布者的标识信息等。一般来说,用户历史搜索曾经输入的用户历史搜索信息,可以认为与用户感兴趣的信息存在关联。例如,若用户历史输入关键词“汽车品牌A”,则若用户输入记载有“汽车测评”关键词的泛化搜索请求的情况下,可以认为用户更加倾向于查看与汽车品牌A关联的汽车测评信息。

由此,所述用户历史搜索关联搜索方式可以用于查找网站中与用户历史搜索信息存在关联的信息。从而可以通过用户历史搜索关联搜索方式,在用户输入泛化搜索请求的情况下,获取与用户历史搜索信息关联的信息,作为搜索结果信息,以便针对所述泛化搜索请求,向用户提供其更加感兴趣的信息。

在具体实现中,可以计算网站中的信息与所述用户历史搜索信息之间的相似度,并将网站中与所述用户历史搜索信息相似度较高的信息,作为搜索结果信息。

作为本发明的一种示例,可以采用item2vector算法,将网站中的信息转换为词嵌入(Word embedding)信息,并将所述用户历史搜索信息也转换为词嵌入信息。一般来说,词嵌入信息可以采用向量的形式表达,可以计算网站中信息对应的词嵌入信息与用户历史搜索信息对应的词嵌入信息之间的相似度,从而可以计算得所述网站中的信息与所述用户历史搜索信息之间的相似度。

其中,网站中信息可以包括文章、视频、图像等内容的名称、标识信息、具体内容信息、网络地址信息等,本发明对此不做限制。

S32响应用户发送的泛化搜索请求,采用用户历史观看关联搜索方式,获取与用户历史观看信息关联的信息,作为搜索结果信息;和/或

在本发明实施例中,用户历史观看信息可以为用户历史观看过的内容信息。例如,用户在网站中观看文章、图像、视频等内容信息。一般来说,用户曾经观看的用户历史观看信息,可以为与用户感兴趣的信息存在关联。例如,若用户历史观看过汽车品牌A的测评信息,则用户可以更加倾向于观看与汽车品牌A的测评信息相关的其他内容。

由此,用户历史观看关联搜索方式可以用于查找网站中与用户历史观看信息存在关联的信息、从而可以通过用户历史观看关联搜索方式,在用户输入泛化搜索请求的情况下,获取与用户历史观看关联的信息,作为搜索结果信息,以便针对所述泛化请求,向用户提供其更加感兴趣的信息。

在具体实现中,可以计算网站中的信息与所述用户历史观看信息之间的相似度,并将网站中与所述用户历史观看信息相似度较高的信息,作为搜索结果信息。

作为本发明的一种示例,可以采用item2vector算法,将网站中的信息转换为词嵌入(Word embedding)信息,并将所述用户历史观看信息也转换为词嵌入信息。一般来说,词嵌入信息可以采用向量的形式表达,可以计算网站中信息对应的词嵌入信息与用户历史观看信息对应的词嵌入信息之间的相似度,从而可以计算得所述网站中的信息与所述用户历史观看信息之间的相似度。

其中,网站中信息可以包括文章、视频、图像等内容的名称、标识信息、具体内容信息、网络地址信息等,本发明对此不做限制。

在具体实现中,若其他用户与发送所述泛化搜索请求的用户皆查看过相同的信息,则可以认为其他用户与发送所述泛化搜索请求的用户具有相似的爱好。在此情况下,其他用户查看的其他信息,可能是发送所述泛化搜索请求的用户同样感兴趣的信息。由此,可以采用基于物品的协同过滤(item-cf)算法,查找观看过所述用户历史观看信息的相似爱好用户,并在相似爱好用户观看过的其他信息中,查找相似爱好用户观看较多的其他信息,作为搜索结果信息。

S33,响应用户发送的泛化搜索请求,采用用户当前输入关联搜索方式,获取与所述泛化搜索请求关联的信息,作为搜索结果信息。

在本发明实施例中,所述泛化搜索请求虽然可以不具有明显的搜索目的,但是其仍然可以一定程度上记载有与用户希望查看的内容存在关联的信息。例如,在用户输入的内容为“短视频”的情况下,虽然不具有明显的搜索目的,但是其可以一定程度上表达用户希望查看的内容与短视频存在关联。

由此,用户当前输入关联搜索方式可以用于查找与所述泛化搜索请求存在关联的信息,从而可以通过所述用户当前输入关联搜索方式,获取与所述泛化搜索请求关联的信息,作为搜索结果信息,以便针对所述泛化请求,向用户提供其更加感兴趣的信息。

在具体实现中,可以计算网站中的信息与所述泛化搜索请求之间的相似度,并将网站中与所述泛化搜索请求相似度较高的信息,作为搜索结果信息。

作为本发明的一种示例,可以采用item2vector算法,将网站中的信息转换为词嵌入(Word embedding)信息,并将所述泛化搜索请求也转换为词嵌入信息。一般来说,词嵌入信息可以采用向量的形式表达,可以计算网站中信息对应的词嵌入信息与泛化搜索请求对应的词嵌入信息之间的相似度,从而可以计算得所述网站中的信息与所述泛化搜索请求之间的相似度。

其中,网站中信息可以包括文章、视频、图像等内容的名称、标识信息、具体内容信息、网络地址信息等,本发明对此不做限制。

步骤203,根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序。

在本发明实施例中,在获取用户可能感兴趣的搜索结果信息之后,为了使用户可以容易查看到其更加可能查看的搜索结果信息,可以确定所述搜索结果信息的排列顺序,使用户更加可能感兴趣的搜索结果信息可以位于所有搜索结果信息中靠前的位置。

由此,可以根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序,以融合不同搜索方式获取得到的搜索结果信息,对搜索结果信息进行初步排列,使用户更加可能感兴趣的搜索结果信息可以尽量位于所有搜索结果信息中靠前的位置。

具体而言,根据搜索方式获取得到的搜索结果信息与用户以及搜索词之间的匹配程度,可以对搜索方式具有不同的评分。若搜索方式可以具有更高的评分,则可以认为搜索方式获取得到的搜索结果信息与用户以及搜索词之间具有更高的匹配程度。在此情况下,若搜索结果信息有该搜索方式获取得到,则该搜索结果信息可以更加可能为用户感兴趣的信息。由此,在确定粗排顺序的过程中,可以根据搜索结果信息对应的搜索方式进行排序,将具有较好评分的搜索方式对应的搜索结果信息放在更加靠前的排列顺序,以便用户容易查看到其更加可能查看的搜索结果信息。

一般来说,所述泛化搜索请求通常可以具有一类或多类搜索意图,由此,在获取搜索结果信息之后,可以比较所述搜索结果信息与所述泛化搜索请求之间的相关度,在所述搜索结果信息与所述泛化搜索请求之间的相关度较高的情况下,可以认为搜索结果信息具有更高的准确度,并将其放在更加靠前的排列顺序,以便用户容易查看到其更加可能查看的搜索结果信息。

具体地,可以采用意图识别模板匹配、意图识别规则匹配、意图识别模型分类等意图识别方式,确定所述泛化搜索请求的意图类别。其后,可以根据搜索结果信息所包含的特征信息与所述泛化搜索请求的意图类别之间的相似度,确定所述搜索结果信息与所述泛化搜索请求的相关度。若搜索结果信息所包含的特征信息与所述泛化搜索请求的意图类别之间的相似度越高,则可以认为所述搜索结果信息与所述泛化搜索请求的相关度越高。若搜索结果信息所包含的特征信息与所述泛化搜索请求的意图类别之间的相似度越低,则可以认为所述搜索结果信息与所述泛化搜索请求的相关度较低。

其中,所述搜索结果信息所包含的特征信息可以包括信息的标识信息、信息的名称、信息的类别、信息的标签、信息中包含的具体内容(文章正文、视频、图像)等、信息对应的用户评论、信息的作者、信息的来源等,本发明对此不做限制。

具体地,也可以直接比较所述泛化搜索请求所记载的搜索条件与所述搜索结果信息所包含的特征信息的相似度,确定所述搜索结果信息与所述泛化搜索请求的相关度。

具体地,也可以事先采集泛化搜索请求对应的搜索结果信息中,用户最终点击的信息,建立泛化搜索请求与用户最终点击信息之间的关联关系。同时,若不同的泛化搜索请求皆对应一相同的用户最终点击信息,则可以认为对应相同用户最终点击信息的泛化搜索请求具有一定关联性,则还可以生成泛化搜索请求所记载的泛化搜索请求之间的关联关系。其后,可以基于所述泛化搜索请求与用户最终点击信息之间的关联关系,以及泛化搜索请求之间的关联关系,查找当前所述泛化搜索请求对应的用户可能点击的搜索结果信息,并可以认为该搜索结果信息与所述泛化搜索请求具有较高的相关度。

一般来说,在所述搜索结果信息与所述用户的个人身份、个人偏好等与用户关联的信息相关度越高的情况下,可以认为用户更加可能对所述搜索结果信息感兴趣。由此,可以将与所述用户的相关度较高的搜索结果信息放在更加靠前的排列顺序,以便用户容易查看到其更加可能查看的搜索结果信息。

具体地,可以根据所述用户的个人身份信息、信息查看记录、信息搜索记录、个人偏好信息等与用户相关的信息与所述搜索结果信息所包含的特征信息之间的相似度。确定所述搜索结果信息与所述用户之间的相关度。若与所述用户相关的信息与所述搜索结果信息之间的相似度越高,则可以认为所述搜索结果信息与所述用户的相关度越高。若与所述用户相关的信息与所述搜索结果信息之间的相似度越低,则可以认为所述搜索结果信息与所述用户的相关度越低。

具体地,也可以事先采集泛化搜索请求对应的搜索结果信息中,用户最终点击的信息,建立用户与用户最终点击信息之间的关联关系。同时,若不同的用户皆对应一相同的用户最终点击信息,则可以认为对应相同用户最终点击信息的用户具有相似的爱好,存在一定的关联信息,则还可以生成用户的关联关系。其后,可以基于用户与用户最终点击信息之间的关联关系,以及用户之间的关联关系,查找发送所述泛化搜索请求的用户可能点击的搜索结果信息,并可以认为该搜索结果信息与所述泛化搜索请求具有较高的相关度。

由此,可以综合所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,对所述搜索结果信息进行评价。并基于所述搜索结果信息的评价结果,对所述搜索结果信息进行排序,使用户更加可能查看的搜索结果信息可以位于所述排列顺序的靠前位置,便于用户可以更加容易查看到其希望查看的信息。

具体而言,可以为所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种分配不同的评价权重,并分别对所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种进行评价,基于评价结果以及评价权重得到所述搜索结果信息的综合评价,并基于所述搜索结果信息的综合评价由高至低排列所述搜索结果信息,得到所述搜索结果信息的粗排顺序。

也可以将所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种作为排序模型的输入特征,由排序模型输出所述搜索结果信息的粗排顺序、本发明对此不做限制。

在本发明一种实施例中,所述根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序的步骤,包括:

S41,确定所述搜索结果信息对应的所述搜索方式的评分值;

在本发明实施例中,可以根据搜索方式获取得到的搜索结果信息与用户感兴趣的信息之间的匹配程度,确定搜索方式对应的评分值。

具体而言,若搜索结果信息与用户本身相关度较高,和/或,搜索结果信息与用户输入的搜索词相关度较高,则可以认为搜索结果信息可以是用户更加可能感兴趣的内容。若一搜索方式搜索得到的搜索结果信息与用户感兴趣的信息之间具有较高的匹配度,则可以认为该搜索方式更加容易获取得到用户感兴趣的内容,从而该搜索方式可以获得更高的评分值。

S42,将所述搜索方式的评分值、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度输入粗排排序模型中,并获取所述粗排排序模型输出的所述搜索结果信息的粗排顺序。

在本发明实施例中,可以采用粗排排序模型对搜索结果信息进行排序,以得到搜索结果信息的粗排顺序。具体地,可以将所述搜索方式的评分值、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度作为模型输入,输入粗排排序模型中,并得到粗排排序模型输出的搜索结果信息的粗排顺序。

具体而言,搜索结果信息与泛化搜索请求之间的相关度可以采用泛化搜索请求-搜索结果信息(query-doc)交叉特征进行表示。其可以用于表示在一泛化搜索请求得到所有搜索结果信息中,一特定的搜索结果信息被点击的次数。若该特定的搜索结果信息被点击的次数较高,则可以认为该搜索结果信息与泛化搜索请求具有较高的关联性。

搜索结果信息与所述用户的相关度可以采用用户-搜索结果信息(user-doc)交叉特征进行表示。其可以用于表示具有特定特征的一个或多个用户点击特定的搜索结果信息的次数。若该特定的搜索结果信息被点击的次数较多,则可以认为该搜索结果信息与具有特定特征的用户具有较高的关联性。

其中,搜索结果信息的点击次数可以属于后验数据。其可以基于在先采集的搜索数据确定。具体而言,可以将搜索结果信息是否被点击作为正负样本的区分条件,得到至少一个搜索样本。其后,若需要获取泛化搜索请求-搜索结果信息交叉特征,则可以将搜索样本中与该泛化搜索请求关联的搜索样本提取出来,并根据搜索样本,确定该泛化搜索请求得到所有搜索结果信息中,一特定的搜索结果信息被点击的次数,作为泛化搜索请求-搜索结果信息交叉特征。若需要获取用户-搜索结果信息交叉特征,则可以将与该用户关联的搜索结果信息提取出来,根据搜索样本,确定具有特定特征的一个或多个用户点击特定的搜索结果信息的次数,作为用户-搜索结果信息交叉特征。

在获取得到搜索方式的评分值、泛化搜索请求-搜索结果信息交叉特征、以及用户-搜索结果信息交叉特征之后,可以将搜索方式的评分值、泛化搜索请求-搜索结果信息交叉特征、以及用户-搜索结果信息交叉特征输入预设的粗排排序模型中,并得到粗排排序模型输出的粗排顺序。

具体而言,粗排排序模型可以为GBDT(Gradient Boost Decision Tree,梯度提升决策树)模型。其可以由多棵决策树组成,基于所有决策树的结论进行加和,得到最终的输出。在训练过程中,可以采用线上真实的点击数据,对粗排排序模型进行训练,使粗排排序模型可以生成将用户更有可能点击的搜索结果信息放在靠前位置的粗排顺序,则粗排排序模型训练完成。

在具体实现中,在粗排排序模型的训练过程中,可以将所述搜索方式的评分值、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种作为输入,将基于线上真实的点击数据得到的排列顺序作为模型输出,对粗排排序模型进行迭代训练,得到训练完成的粗排排序模型。

其中,粗排排序模型实际应用中所需的输入,可以在模型训练过程中,基于训练模型过程中输入的特征确定。

例如,若实际应用中所需要的输入为搜索方式的评分值,则相应地,在模型训练过程中,只将搜索方式的评分值作为输入,将基于线上真实的点击数据得到的排列顺序作为模型输出,对粗排排序模型进行迭代训练,得到训练完成的粗排排序模型,以使粗排排序模型可以将搜索方式的评分值作为输入。

又例如,若实际应用中所需要的输入为搜索结果信息与泛化搜索请求的相关度,则相应地,在模型训练过程中,只将搜索结果信息与泛化搜索请求的相关度作为输入,将基于线上真实的点击数据得到的排列顺序作为模型输出,对粗排排序模型进行迭代训练,得到训练完成的粗排排序模型,以使粗排排序模型可以将搜索结果信息与泛化搜索请求的相关度作为输入。

又例如,若实际应用中所需要的输入为搜索方式的评分值以及搜索结果信息与泛化搜索请求的相关度,则相应地,在模型训练过程中,将搜索方式的评分值以及搜索结果信息与泛化搜索请求的相关度作为输入,将基于线上真实的点击数据得到的排列顺序作为模型输出,对粗排排序模型进行迭代训练,得到训练完成的粗排排序模型,以使粗排排序模型可以将搜索方式的评分值以及搜索结果信息与泛化搜索请求的相关度作为输入。

又例如,若实际应用中所需要的输入为搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度,则相应地,在模型训练过程中,将搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度作为输入,将基于线上真实的点击数据得到的排列顺序作为模型输出,对粗排排序模型进行迭代训练,得到训练完成的粗排排序模型,以使粗排排序模型可以将搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度作为输入。

又例如,若实际应用中所需要的输入为搜索方式的评分值、搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度,则相应地,在模型训练过程中,将搜索方式的评分值、搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度作为输入,将基于线上真实的点击数据得到的排列顺序作为模型输出,对粗排排序模型进行迭代训练,得到训练完成的粗排排序模型,以使粗排排序模型可以将搜索方式的评分值、搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度作为输入。

由此,搜索结果信息的粗排顺序可以是基于搜索方式的评分值、搜索结果信息与所述泛化搜索请求的相关度、搜索结果信息与所述用户的相关度得到的,其可以将用户更加感兴趣的内容排列在前列,使用户更加容易查看到其感兴趣的内容。

步骤204,将所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度输入点击率预估模型中,获取所述点击率预估模型输出的所述搜索结果信息的预估点击率;

在本发明实施例中,在所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序之后,为了进一步提高搜索结果信息的排列准确性,还可以进一步对所述搜索结果信息进行二次排序,使用户可以更加容易在搜索结果信息中查看到其感兴趣的信息。

由此,可以根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率,以基于预估点击率估计用户更加可能查看的信息。

具体而言,搜索结果信息与泛化搜索请求之间的相关度可以采用泛化搜索请求-搜索结果信息(query-doc)交叉特征进行表示。其可以用于表示在一泛化搜索请求得到所有搜索结果信息中,一特定的搜索结果信息被点击的次数。若该特定的搜索结果信息被点击的次数较高,则可以认为该搜索结果信息与泛化搜索请求具有较高的关联性。

搜索结果信息与所述用户的相关度可以采用用户-搜索结果信息(user-doc)交叉特征进行表示。其可以用于表示具有特定特征的一个或多个用户点击特定的搜索结果信息的次数。若该特定的搜索结果信息被点击的次数较多,则可以认为该搜索结果信息与具有特定特征的用户具有较高的关联性。

在具体实现中,可以训练一点击率预估模型,所述点击率预估模型可以用于预估对于在所述泛化搜索请求的场景下,每一所述搜索结果信息的预估点击率。

在所述点击率预估模型的训练过程中,可以采用将所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度作为输入信息,将基于线上真实点击数据得到的搜索结果信息的真实点击率作为输出信息,对所述点击率预估模型进行迭代训练,得到训练完成的点击率预估模型,以得到基于所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度进行点击率预估的点击率预估模型。

在具体实现中,点击率预估模型可以为GBDT模型、FM(factor Machine,因子分解机)模型、DNN(Deep Neural Network,深度神经网络)模型、基于DNN升级的Wide&Deep模型等,本发明对此不做限制。

其中,点击率预估模型实际应用中所需的输入,可以在模型训练过程中,基于训练模型过程中输入的特征确定。

例如,若实际应用中所需要的输入为搜索结果信息与泛化搜索请求的相关度,则相应地,在模型训练过程中,将搜索结果信息与泛化搜索请求的相关度作为输入,将基于线上真实的点击数据得到的搜索结果信息的真实点击率作为模型输出,对点击率预估模型进行迭代训练,得到训练完成的点击率预估模型,以使点击率预估模型可以将搜索结果信息与泛化搜索请求的相关度作为输入。

又例如,若实际应用中所需要的输入为搜索结果信息与用户的相关度,则相应地,在模型训练过程中,将搜索结果信息与用户的相关度作为输入,将基于线上真实的点击数据得到的搜索结果信息的真实点击率作为模型输出,对点击率预估模型进行迭代训练,得到训练完成的点击率预估模型,以使点击率预估模型可以将搜索结果信息与用户的相关度作为输入。

又例如,若实际应用中所需要的输入为搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度,则相应地,在模型训练过程中,将搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度作为输入,将基于线上真实的点击数据得到的搜索结果信息的真实点击率作为模型输出,对点击率预估模型进行迭代训练,得到训练完成的点击率预估模型,以使点击率预估模型可以将搜索结果信息与泛化搜索请求的相关度以及搜索结果信息与用户的相关度作为输入。

可选地,在所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度的基础上,还可以进一步将泛化搜索请求、用户、搜索结果信息中的至少一种作为点击率预估模型的输入,使点击率预估模型可以综合用户输入的泛化搜索请求、用户自身的身份信息以及用户历史操作信息、以及泛化搜索请求得到的搜索结果信息中的至少一种,更加准确地对点击率进行预估,为用户提供更加准确的,符合其偏好的搜索结果信息的排列顺序。

可选地,为了进一步提高预估点击率的准确率,还可以将所述搜索结果信息的稀疏特征信息作为所述点击率预估模型的输入,所述稀疏特征信息可以为所述搜索结果信息的ID(Identity document,标识信息)类特征等。通过稀疏特征信息结合点击率预估模型可以将所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,可以一定程度上提高所述预估点击率模型的准确率。

步骤205,根据所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整,得到所述搜索结果信息的精排顺序;

在本发明实施例中,在确定所述搜索结果信息的预估点击率之后,可以根据所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整,得到所述搜索结果信息的精排顺序。从而可以根据用户个人的偏好,将用户可能感兴趣的搜索结果信息放在精排顺序中较前的位置,使用户可以更加容易在搜索结果信息中查看到其感兴趣的信息。

具体而言,可以根据实际所需要,基于所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整。可以按照所述搜索结果信息的预估点击率由高至低进行排序,得到精排顺序。也可以对于粗排顺序中位置相近的若干搜索结果信息来说,若排列顺序较后的搜索结果信息具有更高的预估点击率,则在位置相近的若干搜索结果信息中,将预估点击率更高的搜索结果信息移动至靠前的顺序等,本发明对此不做限制。

步骤206,采用所述排列顺序,向用户发送所述搜索结果信息。

在本发明实施例中,在确定所述排列顺序之后,可以向用户发送搜索结果信息,由于预估点击率较高的搜索结果信息可以在排列顺序中靠前的位置,从而可以使用户更加容易在搜索结果信息中查找到其可能感兴趣的内容。

通过本发明实施例的信息搜索方法,响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求,以确定用户是否具有模糊的搜索意图;若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息,以针对用户具有模糊的搜索意图的情况下,可以通过在倒排索引搜索方式的基础上,添加多样化的搜索方式,从而可以更加容易找到用户感兴趣的内容。根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序,以融合不同搜索方式获取得到的搜索结果信息,并对搜索结果信息进行初步排列;将所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度输入点击率预估模型中,获取所述点击率预估模型输出的所述搜索结果信息的预估点击率,以在搜索结果信息中预估用户更感兴趣的内容,根据所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整,得到所述搜索结果信息的精排顺序,向用户发送所述搜索结果信息,用户更加容易在搜索结果信息中查找到其可能感兴趣的内容。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图3,示出了本发明实施例的一种信息搜索装置实施例的结构框图,具体可以包括如下模块:

请求识别模块301,用于响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求;所述泛化搜索请求为具有模糊搜索意图的搜索请求;

信息获取模块302,用于若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息;

点击率预估模块303,用于根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率;

排序模块304,用于基于所述预估点击率,确定所述搜索结果信息的排列顺序;

发送模块305,用于采用所述排列顺序,向用户发送所述搜索结果信息。

在本发明一种实施例中,所述点击率预估模块包括:

模型预估子模块,用于将所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度输入点击率预估模型中,获取所述点击率预估模型输出的所述搜索结果信息的预估点击率。

在本发明一种实施例中,所述装置还包括:

粗排模块,用于根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序;

所述排序包括:

精排模块,用于根据所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整,得到所述搜索结果信息的精排顺序。

在本发明一种实施例中,所述粗排模块包括:

评分子模块,用于确定所述搜索结果信息对应的所述搜索方式的评分值;

粗排子模块,用于将所述搜索方式的评分值、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度输入粗排排序模型中,并获取所述粗排排序模型输出的所述搜索结果信息的粗排顺序。

在本发明一种实施例中,所述搜索方式包括热门关联搜索方式和/或用户关联搜索方式;

所述信息获取模块包括:

倒排索引搜索子模块,用于采用倒排索引搜索方式,获取索引搜索信息;

信息获取子模块,用于基于所述搜索请求和/或所述用户,采用所述热门关联搜索方式获取搜索结果信息和/或采用所述用户关联搜索方式中获取搜索结果信息。

在本发明一种实施例中,所述热门关联搜索方式包括全站热门搜索方式和/或分类热门搜索方式;

所述信息获取子模块包括:

全站热门搜索单元,用于采用全站热门搜索方式,获取预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息;和/或

分类热门搜索单元,用于采用分类热门搜索方式,识别所述泛化搜索请求对应的类别,并获取所述类别中在预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息。

在本发明一种实施例中,所述第二预设搜索方式包括用户历史搜索关联搜索方式、用户历史观看关联搜索方式、用户当前请求关联搜索方式中的至少一种;

所述信息获取子模块包括:

历史搜索关联搜索单元,用于响应用户发送的泛化搜索请求,采用用户历史搜索关联搜索方式,获取与用户历史搜索信息关联的信息,作为搜索结果信息;和/或

历史观看关联搜索单元,用于响应用户发送的泛化搜索请求,采用用户历史观看关联搜索方式,获取与用户历史观看信息关联的信息,作为搜索结果信息;和/或

泛化搜索关联搜索单元,用于响应用户发送的泛化搜索请求,采用用户当前输入关联搜索方式,获取与所述泛化搜索请求关联的信息,作为搜索结果信息。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,

存储器403,用于存放计算机程序;

处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:

响应用户发送的搜索请求,识别所述搜索请求是否为泛化搜索请求;所述泛化搜索请求为具有模糊搜索意图的搜索请求;

若所述搜索请求为泛化搜索请求,采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息;

根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率;

基于所述预估点击率,确定所述搜索结果信息的排列顺序;

采用所述排列顺序,向用户发送所述搜索结果信息。

可选地,所述根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率的步骤,包括:

将所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度输入点击率预估模型中,获取所述点击率预估模型输出的所述搜索结果信息的预估点击率。

可选地,在所述根据所述搜索结果信息与所述泛化搜索请求的相关度和/或所述搜索结果信息与所述用户的相关度,确定所述搜索结果信息的预估点击率的步骤之前,所述方法还包括:

根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序;

所述基于所述预估点击率,确定所述搜索结果信息的排列顺序的步骤,包括:

根据所述搜索结果信息的预估点击率,对所述搜索结果信息的粗排顺序进行调整,得到所述搜索结果信息的精排顺序。

可选地,所述根据所述搜索结果信息对应的所述搜索方式、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度中的至少一种,确定所述搜索结果信息的粗排顺序的步骤,包括:

确定所述搜索结果信息对应的所述搜索方式的评分值;

将所述搜索方式的评分值、所述搜索结果信息与所述泛化搜索请求的相关度、所述搜索结果信息与所述用户的相关度输入粗排排序模型中,并获取所述粗排排序模型输出的所述搜索结果信息的粗排顺序。

可选地,所述搜索方式包括热门关联搜索方式和/或用户关联搜索方式;

所述采用倒排索引搜索方式以及至少一种搜索方式获取搜索结果信息的步骤,包括:

采用倒排索引搜索方式,获取索引搜索信息;

基于所述搜索请求和/或所述用户,采用所述热门关联搜索方式获取搜索结果信息和/或采用所述用户关联搜索方式中获取搜索结果信息。

可选地,所述热门关联搜索方式包括全站热门搜索方式和/或分类热门搜索方式;

所述采用所述热门关联搜索方式获取搜索结果信息的步骤,包括:

采用全站热门搜索方式,获取预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息;和/或

采用分类热门搜索方式,识别所述泛化搜索请求对应的类别,并获取所述类别中在预设时段内点击率和/或点击数高于预设次序的信息,作为搜索结果信息。

可选地,所述第二预设搜索方式包括用户历史搜索关联搜索方式、用户历史观看关联搜索方式、用户当前请求关联搜索方式中的至少一种;

所述采用所述用户关联搜索方式中获取搜索结果信息的步骤,包括:

响应用户发送的泛化搜索请求,采用用户历史搜索关联搜索方式,获取与用户历史搜索信息关联的信息,作为搜索结果信息;和/或

响应用户发送的泛化搜索请求,采用用户历史观看关联搜索方式,获取与用户历史观看信息关联的信息,作为搜索结果信息;和/或

响应用户发送的泛化搜索请求,采用用户当前输入关联搜索方式,获取与所述泛化搜索请求关联的信息,作为搜索结果信息。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息搜索方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息搜索方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

相关技术
  • 信息搜索方法、信息搜索装置、信息搜索系统
  • 一种信息展示方法、信息搜索方法及装置
技术分类

06120113822267