掌桥专利:专业的专利平台
掌桥专利
首页

内容排序方法、装置、服务器及存储介质

文献发布时间:2023-06-19 12:13:22


内容排序方法、装置、服务器及存储介质

技术领域

本公开涉及互联网技术领域,尤其涉及一种内容排序方法、装置、服务器及存储介质。

背景技术

随着互联网技术的迅速发展,用户可以通过手机、笔记本电脑等访问互联网提供的图片、视频、音乐等媒体内容。例如,用户可以通过移动终端上安装的短视频应用程序实时观看短视频内容。

相关技术在进行搜索排序时往往是基于视频的用户行为数据即消费数据,然而新视频在冷启动后往往缺少用户行为数据,这使得相关技术无法更合理地对冷启动后的视频进行排序,进而无法合适地确定各个视频在搜索结果中的展示顺序。

发明内容

本公开提供一种内容排序方法、装置、服务器及存储介质,以至少解决相关技术中无法合适地确定各个视频在搜索结果中的展示顺序的问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种内容排序方法,包括:

从已有内容中确定目标内容的至少一个相似内容;其中,所述相似内容与所述目标内容间的相似度大于预设阈值;所述已有内容为已对应有用户行为数据的内容;

根据各相似内容对应的所述相似度和所述用户行为数据,生成所述目标内容的用户行为数据;

根据所述目标内容的用户行为数据,确定所述目标内容在目标搜索结果中的展示顺序。

在一种可能实现方式中,若所述相似内容具有一个,所述根据各相似内容对应的所述相似度和所述用户行为数据,生成所述目标内容的用户行为数据,包括:

获取与所述相似度对应的数据调整权重;所述数据调整权重与所述相似度呈正相关关系;

按照所述数据调整权重,对所述相似内容的用户行为数据进行加权处理,得到所述目标内容的用户行为数据。

在一种可能实现方式中,若所述相似内容具有多个,所述根据各相似内容对应的所述相似度和所述用户行为数据,生成所述目标内容的用户行为数据,包括:

根据各个所述相似内容对应的所述相似度,确定各个所述相似内容对应的数据调整权重;每个所述数据调整权重与对应的所述相似度呈正相关关系;

按照各个所述相似内容对应的数据调整权重,对各个所述相似内容的用户行为数据进行加权,得到各个所述相似内容对应的加权后行为数据;

根据各个所述相似内容对应的加权后行为数据,确定所述目标内容的用户行为数据。

在一种可能实现方式中,在所述从已有内容中确定目标内容的至少一个相似内容的步骤之前,还包括:

获取训练样本集;所述训练样本集包括正样本对和负样本对;所述正样本对包括两个第一样本内容;所述第一样本内容为在同一搜索请求对应的内容搜索结果中被访问的内容;所述负样本对包括一个所述第一样本内容和一个第二样本内容;所述第二样本内容为所述内容搜索结果中未被访问的内容;

采用所述训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型;

其中,所述目标特征提取模型,用于分别提取出所述已有内容与所述目标内容的内容特征,所述内容特征用于确定所述已有内容与所述目标内容间的相似度。

在一种可能实现方式中,所述训练样本集中的每个样本对具有对应的相似度标签值,其中,所述相似度标签值用于表征对应所述样本对中的样本内容间的相似度是否大于预设阈值;

所述采用所述训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型,包括:

将所述样本对中的样本内容输入至所述初始特征提取模型,提取出所述样本内容对应的内容特征;

确定所述样本内容对应的内容特征间的相似度,得到所述样本对对应的相似度输出值;

基于所述样本对对应的相似度输出值与所述样本对对应的相似度标签值间的差异,对所述初始特征提取模型的模型参数进行调整,直至调整后的所述初始特征提取模型符合预设训练条件,得到所述目标特征提取模型。

在一种可能实现方式中,所述目标内容包括目标视频,在所述从已有内容中确定目标内容的至少一个相似内容的步骤之前,还包括:

在预设视频集合中,将未具有用户行为数据的视频,作为所述目标视频。

在一种可能实现方式中,所述根据所述目标内容的用户行为数据,确定所述目标内容在目标搜索结果中的展示顺序,包括:

响应于内容搜索请求,获得内容搜索词条;所述内容搜索请求为获取所述目标搜索结果的请求;

根据所述内容搜索词条的语义特征与所述目标内容的内容特征之间的相似度,确定所述目标内容对应于所述内容搜索词条的搜索关联度;

根据所述搜索关联度和所述目标内容的用户行为数据,确定所述目标内容于所述目标搜索结果中的展示顺序。

根据本公开实施例的第二方面,提供一种内容排序装置,包括:

确定单元,被配置为执行从已有内容中确定目标内容的至少一个相似内容;其中,所述相似内容与所述目标内容间的相似度大于预设阈值;所述已有内容为已对应有用户行为数据的内容;

生成单元,被配置为执行根据各相似内容对应的所述相似度和所述用户行为数据,生成所述目标内容的用户行为数据;

排序单元,被配置为执行根据所述目标内容的用户行为数据,确定所述目标内容在目标搜索结果中的展示顺序。

在一种可能实现方式中,若所述相似内容具有一个,所述生成单元,具体被配置为执行获取与所述相似度对应的数据调整权重;所述数据调整权重与所述相似度呈正相关关系;按照所述数据调整权重,对所述相似内容的用户行为数据进行加权处理,得到所述目标内容的用户行为数据。

在一种可能实现方式中,若所述相似内容具有多个,所述生成单元,具体被配置为执行根据各个所述相似内容对应的所述相似度,确定各个所述相似内容对应的数据调整权重;每个所述数据调整权重与对应的所述相似度呈正相关关系;按照各个所述相似内容对应的数据调整权重,对各个所述相似内容的用户行为数据进行加权,得到各个所述相似内容对应的加权后行为数据;根据各个所述相似内容对应的加权后行为数据,确定所述目标内容的用户行为数据。

在一种可能实现方式中,所述一种内容排序装置,还包括:获取单元,具体被配置为执行获取训练样本集;所述训练样本集包括正样本对和负样本对;所述正样本对包括两个第一样本内容;所述第一样本内容为在同一搜索请求对应的内容搜索结果中被访问的内容;所述负样本对包括一个所述第一样本内容和一个第二样本内容;所述第二样本内容为所述内容搜索结果中未被访问的内容;训练单元,具体被配置为执行采用所述训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型;其中,所述目标特征提取模型,用于分别提取出所述已有内容与所述目标内容的内容特征,所述内容特征用于确定所述已有内容与所述目标内容间的相似度。

在一种可能实现方式中,所述训练样本集中的每个样本对具有对应的相似度标签值,其中,所述相似度标签值用于表征对应所述样本对中的样本内容间的相似度是否大于预设阈值;所述训练单元,具体被配置为执行将所述样本对中的样本内容输入至所述初始特征提取模型,提取出所述样本内容对应的内容特征;确定所述样本内容对应的内容特征间的相似度,得到所述样本对对应的相似度输出值;基于所述样本对对应的相似度输出值与所述样本对对应的相似度标签值间的差异,对所述初始特征提取模型的模型参数进行调整,直至调整后的所述初始特征提取模型符合预设训练条件,得到所述目标特征提取模型。

在一种可能实现方式中,所述目标内容包括目标视频,所述一种内容排序装置,还包括:筛选单元,具体被配置为执行在预设视频集合中,将未具有用户行为数据的视频,作为所述目标视频。

在一种可能实现方式中,所述排序单元,被配置为执行响应于内容搜索请求,获得内容搜索词条;所述内容搜索请求为获取所述目标搜索结果的请求;根据所述内容搜索词条的语义特征与所述目标内容的内容特征之间的相似度,确定所述目标内容对应于所述内容搜索词条的搜索关联度;根据所述搜索关联度和所述目标内容的用户行为数据,确定所述目标内容于所述目标搜索结果中的展示顺序。

根据本公开实施例的第三方面,提供一种服务器,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的内容排序方法。

根据本公开实施例的第四方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述的内容排序方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行第一方面的任一项实施例中所述的内容排序方法。

本公开的实施例提供的技术方案至少带来以下有益效果:通过从已有内容中确定目标内容的至少一个相似内容;其中,相似内容与目标内容间的相似度大于预设阈值;其中,已有内容为已对应有用户行为数据的内容;根据各相似内容对应的相似度和用户行为数据,生成目标内容的用户行为数据;根据目标内容的用户行为数据,确定目标内容在目标搜索结果中的展示顺序;如此,可以实现在冷启动后的目标内容不具有用户行为数据的前提下,通过将相似内容的用户行为数据泛化为目标内容的用户行为数据,从而目标内容初步赋予与该目标内容的内容相适配的用户行为数据,进而可以基于该目标内容的用户行为数据对目标内容进行排序,以确定目标内容在目标搜索结果中的展示顺序,从而能够实现让与优质视频相似的中长尾视频有更多的展示机会,使得这些中长尾视频的点击、点赞等用户行为数据进一步加强,进而形成良性循环而产生更多的优质视频。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种内容排序方法的应用环境图。

图2是根据一示例性实施例示出的一种内容排序方法的流程图。

图3是根据一示例性实施例示出的另一种内容排序方法的流程图。

图4是根据一示例性实施例示出的一种内容排序装置的框图。

图5是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

本公开所提供的内容排序方法,可以应用于如图1所示的应用环境中。服务器110从已有内容中确定目标内容的至少一个相似内容;其中,相似内容与目标内容间的相似度大于预设阈值;已有内容为已对应有用户行为数据的内容;然后,服务器110根据各相似内容对应的相似度和用户行为数据,生成目标内容的用户行为数据;服务器110根据目标内容的用户行为数据,确定目标内容在目标搜索结果中的展示顺序。实际应用中,服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种内容排序方法的流程图,如图2所示,该内容排序方法用于图1的服务器110中,包括以下步骤。

在步骤S210中,从已有内容中确定目标内容的至少一个相似内容。

其中,内容可以是指文章、图片、视频、网页等媒体内容。

其中,已有内容为已经具有对应的用户行为数据的内容。实际应用中,已有内容可以是一个或是多个。

其中,目标内容可以是指不具有用户行为数据的内容。例如,目标视频可以是指冷启动后没有被点播过的视频即较为冷门的视频。实际应用中,目标视频也可以命名为中长尾视频。具体来说,服务器可以在预设视频集合(如,视频池)中,将未具有用户行为数据的视频,作为目标视频。

其中,用户行为数据为至少一个用户账户访问已有内容所产生的行为数据。实际应用中,用户行为数据可以是指该内容的点击率(ctr)、点赞率(ltr)、关注率(wtr)、长播率(lvtr)等。当然,用户行为数据也可以命名为消费数据。

由于短视频平台中的视频数量庞多,在实际应用中,可以选择用户行为数据排名靠前的视频,例如,短视频平台中播放量前100名的视频,作为已有视频,进而减少服务器在执行获取目标内容与至少一个已有内容之间的内容相似度时的数据处理量。

具体实现中,服务器可以获取目标内容与至少一个已有内容之间的内容相似度;具体来说,服务器可以通过预训练的内容特征提取模型,提取出目标内容对应的内容特征,以及,提取出已有内容对应的内容特征;然后,服务器则计算目标内容对应的内容特征与已有内容对应的内容特征之间的相似度,确定为目标内容与已有内容之间的内容相似度。

然后,服务器则基于各个已有内容对应的内容相似度,在各个已有内容中出与该目标内容的相似内容。具体来说,服务器可以将内容相似度大于预设阈值的已有内容,作为该目标内容的相似内容。

在步骤S230中,根据各相似内容对应的所述相似度和所述用户行为数据,生成所述目标内容的用户行为数据。

具体实现中,服务器在确定出该目标内容的相似内容后,服务器则可以根据相似内容与目标内容之间的内容相似度,对相似内容的用户行为数据进行调整,得到调整后的用户行为数据。最后,服务器将调整后的用户行为数据,作为目标内容的用户行为数据。换句话说,服务器将调整后的用户行为数据赋予给目标内容。实际应用中,可以将服务器根据相似内容与目标内容之间的内容相似度,对相似内容的用户行为数据进行调整,并将调整后的用户行为数据,作为目标内容的用户行为数据的过程命名为消费特征泛化过程。

在步骤S240中,根据目标内容的用户行为数据,确定目标内容在目标搜索结果中的展示顺序。

其中,目标搜索结果可以是指服务器接收到客户端的内容搜索请求后返回至客户端的内容搜索结果。

具体实现中,当服务器确定出各个目标内容的用户行为数据后,服务器则可以根据目标内容的用户行为数据,对目标内容进行排序。具体来说,服务器在接收到客户端的内容搜索请求后,响应于该内容搜索请求,在内容池中查询得到初始内容搜索结果;其中,该初始内容搜索结果包括该目标内容;然后,服务器可以将该目标内容的用户行为数据输入至预训练的内容排序模型中,进而确定目标内容的排序结果。最后,服务器基于该排序结果,确定出目标内容在待生成的目标搜索结果中的展示顺序,进而生成目标搜索结果,并将该目标搜索结果返回至客户端。

上述内容排序方法中,通过从已有内容中确定目标内容的至少一个相似内容;其中,相似内容与目标内容间的相似度大于预设阈值;其中,已有内容为已对应有用户行为数据的内容;根据各相似内容对应的相似度和用户行为数据,生成目标内容的用户行为数据;根据目标内容的用户行为数据,确定目标内容在目标搜索结果中的展示顺序;如此,可以实现在冷启动后的目标内容不具有用户行为数据的前提下,通过将相似内容的用户行为数据泛化为目标内容的用户行为数据,从而目标内容初步赋予与该目标内容的内容相适配的用户行为数据,进而可以基于该目标内容的用户行为数据对目标内容进行排序,以确定目标内容在目标搜索结果中的展示顺序,从而能够实现让与优质视频相似的中长尾视频有更多的展示机会,使得这些中长尾视频的点击、点赞等用户行为数据进一步加强,进而形成良性循环而产生更多的优质视频。

在一示例性实施例中,若所述相似内容具有一个,根据各相似内容对应的相似度和用户行为数据,生成目标内容的用户行为数据,包括:获取与相似度对应的数据调整权重;按照数据调整权重,对相似内容的用户行为数据进行加权处理,得到目标内容的用户行为数据。

其中,数据调整权重与相似度呈正相关关系。实际应用中,数据调整权重与相似度可以呈线性正相关关系或非线性正相关关系。

具体实现中,服务器在根据各相似内容对应的相似度和用户行为数据,生成目标内容的用户行为数据的过程中,服务器可以根据相似内容与目标内容之间的相似度,确定对应的数据调整权重。数据调整权重与内容相似度呈正相关关系。然后,服务器在按照数据调整权重,对相似内容的用户行为数据进行加权,得到加权后的用户行为数据,以实现对相似内容的用户行为数据进行调整,得到目标内容的用户行为数据。

例如,已知相似内容的点击率n1为0.9,而相似内容与目标内容之间的内容相似度s为0.6;此时,服务器可以根据相似内容与目标内容之间的内容相似度s,确定出对应的数据调整权重为q=s^2=0.36。然后,服务器采用数据调整权重q对相似内容的点击率n1进行加权,得到目标内容的泛化点击率n2为0.324。

本实施例的技术方案,通过根据相似内容与目标内容之间的内容相似度,确定对应的数据调整权重;数据调整权重与内容相似度呈正相关关系;按照数据调整权重,对相似内容的用户行为数据进行加权,得到调整后的用户行为数据,如此,使得调整后的用户行为数据可以较为合理地反映出该目标内容的内容质量,从而提高了后续对目标内容进行排序的准确度。

在一示例性实施例中,若相似内容具有多个,根据各相似内容对应的相似度和用户行为数据,生成目标内容的用户行为数据,包括:根据各个相似内容对应的相似度,确定各个相似内容对应的数据调整权重;每个数据调整权重与对应的相似度呈正相关关系;按照各个相似内容对应的数据调整权重,对各个相似内容的用户行为数据进行加权,得到各个相似内容对应的加权后行为数据;根据各个相似内容对应的加权后行为数据,确定目标内容的用户行为数据。

具体实现中,若相似内容具有多个,服务器在根据各相似内容对应的相似度和用户行为数据,生成目标内容的用户行为数据的过程中,服务器可以根据各个相似内容对应的相似度,确定各个相似内容对应的数据调整权重;然后,服务器可以按照各个相似内容对应的数据调整权重,对各个相似内容的用户行为数据进行加权,得到各个相似内容对应的加权后行为数据,并根据各个相似内容对应的加权后行为数据,确定目标内容的用户行为数据。实际应用中,服务器可以对各个相似内容对应的加权后行为数据进行求和取平均,得到平均行为数据;服务器将平均行为数据作为该目标内容的用户行为数据。

举例来说,已知目标内容的相似内容包括相似内容a和相似内容b,其中,相似内容a的点击率Na=0.9,相似内容a与目标内容间的相似度Sa=0.6;相似内容b的点击率Nb=0.6,相似内容b与目标内容间的相似度Sb=0.8。然后,服务器可以根据各个相似内容对应的相似度,确定各个相似内容对应的数据调整权重;即可以得到相似内容a的数据调整权重qa=Sa^2=0.36;相似内容b的数据调整权重qb=Sb^2=0.64;然后,服务器可以采用相似内容a的数据调整权重qa对相似内容a的点击率Na进行加权,得到加权后的点击率N’a==qa*Na=0.324;服务器可以采用相似内容b的数据调整权重qb对相似内容b的点击率Nb进行加权,得到加权后的点击率N’b==qb*Nb=0.384;最后,服务器将各个加权后行为数据进行求和取平均,得到平均行为数据N=0.354,作为该目标内容的用户行为数据。即目标内容的泛化后点击率为0.354。

本实施例的技术方案,当相似内容具有多个时,通过根据各个所述相似内容对应的所述相似度,确定各个所述相似内容对应的数据调整权重;并按照各个所述相似内容对应的数据调整权重,对各个所述相似内容的用户行为数据进行加权,得到各个所述相似内容对应的加权后行为数据;最后,根据各个所述相似内容对应的加权后行为数据,确定所述目标内容的用户行为数据,进而实现将多个相似内容对应的用户行为数据进行合理地融合,使得调整后的用户行为数据可以较为合理地反映出该目标内容的内容质量,从而提高了后续对目标内容进行排序的准确度。

在一示例性实施例中,根据目标内容的用户行为数据,对目标内容进行排序,包括:响应于内容搜索请求,获得内容搜索词条;根据内容搜索词条的语义特征向量与目标内容的内容特征向量之间的相似度,确定目标内容对应于内容搜索词条的搜索关联度;根据搜索关联度和目标内容的用户行为数据,确定所述目标内容在目标搜索结果中的展示顺序。

具体实现中,服务器在根据目标内容的用户行为数据,对目标内容进行排序的过程中,具体包括:当用户账户在进行内容搜索时可以向服务器发送携带有内容搜素词条的内容搜索请求。服务器在接收到内容搜索请求后,则响应于内容搜索请求,在内容池中查询得到初始内容搜索结果;其中,该初始内容搜索结果包括该目标内容;服务器还可以获得内容搜索请求中的内容搜索词条,并提取出内容搜索词条的语义特征向量,以及,提取出目标内容的内容特征向量;然后,根据内容搜索词条的语义特征向量与目标内容的内容特征向量之间的相似度,确定目标内容对应于内容搜索词条的搜索关联度。具体来说,服务器可以提取出内容搜索词条query的向量表示即query-embedding,以及,提取出目标内容中文本的向量表示即文本embedding、以及,提取出目标内容中内容的向量表示即内容embedding。然后,服务器可以基于query-embedding与文本embedding之间的相似度,以及,query-embedding与内容embedding之间的相似度,确定出目标内容对应于内容搜索词条的搜索关联度。最后,服务器在基于搜索关联度和目标内容的用户行为数据,对目标内容进行排序。具体来说,服务器可以将搜索关联度和目标内容的用户行为数据输入至预训练的内容排序模型中,进而确定目标内容的排序结果。实际应用中,内容排序模型可以选用基于pairwise的XGBoost树模型(一种机器学习模型)。最后,服务器基于该排序结果,确定出目标内容在待生成的目标搜索结果中的展示顺序,进而生成目标搜索结果,并将该目标搜索结果返回至客户端。

本实施例的技术方案,通过响应于内容搜索请求,获得内容搜索词条;根据内容搜索词条的语义特征向量与目标内容的内容特征向量之间的相似度,确定目标内容对应于内容搜索词条的搜索关联度;根据搜索关联度和目标内容的用户行为数据,对目标内容进行排序;如此,通过目标内容对应于内容搜索词条的搜索关联度和目标内容的用户行为数据,对目标内容进行排序,从而可以提高针对内容搜索请求的内容搜索结果的准确度,使得冷启动后的目标内容可以具有更多的展示机会。

在一示例性实施例中,在从已有内容中确定目标内容的至少一个相似内容的步骤之前,还包括:获取训练样本集;训练样本集包括正样本对和负样本对;采用训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型。

其中,正样本对包括两个第一样本内容;负样本对包括一个第一样本内容和一个第二样本内容。

其中,第一样本内容为在同一搜索请求对应的内容搜索结果中被访问的内容;第二样本内容为内容搜索结果中未被访问的内容。

以内容为视频为例,第一样本视频可以是指服务器针对客户端发送的某一个视频搜索请求返回至客户端的视频搜索结果中,被客户端的用户账户点击的视频;第二样本内容是该视频搜索结果中未被该用户账户点击的视频。换句话说,第一样本视频可以是指在同一次搜索请求对应的内容搜索结果中的被点击视频。第二样本视频可以是指在同一次搜索请求对应的内容搜索结果中的未被点击视频。

然后,服务器将两个第一样本内容进行组合,得到正样本对;将一个第一样本内容和一个第二样本内容进行组合,得到负样本对。实际应用中,由于正样本数量远少于负样本,因此,服务器可以对第一样本视频进行数据扩增,例如,采用的数据增广方法可以包括但不限于:crop、rotation、scale等。

然后,服务器则采用训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型。

其中,目标特征提取模型,用于分别提取出已有内容与目标内容的内容特征,内容特征用于确定已有内容与目标内容间的相似度。

其中,目标特征提取模型可以是指经过预训练的特征提取网络;其中,该特征提取网络可以是CNN网络(例如,resnet50、vgg、mobile net、shuffle net等特征提取网络)。

如此,服务器可以采用该目标特征提取模型,并将目标内容输入至目标特征提取模型,得到目标内容的内容特征向量。同时,服务器将已有内容输入至目标特征提取模型,得到已有内容的内容特征向量。然后,服务器则计算目标内容的内容特征向量与已有内容的内容特征向量之间的向量相似度,并将该向量相似度用于表征目标内容与已有内容之间的相似度。

本实施例的技术方案,通过将同一搜索请求对应的内容搜索结果中被访问的内容作为正样本内容,将该内容搜索结果中未被访问的内容作为负样本内容,并对该正样本内容进行两两组合,并对负样本内容和正样本内容进行组合,得到用于对初始特征提取模型进行训练的样本对,使得得到的目标特征提取模型可以更准确地对内容搜索场景下的内容进行特征提取处理,满足后续在内容搜索场景下准确确定目标内容的相似内容的需求。

在一示例性实施例中,训练样本集中的每个样本对具有对应的相似度标签值,其中,相似度标签值用于表征对应样本对中的样本内容间的相似度是否大于预设阈值;采用训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型,包括:将样本对中的样本内容输入至初始特征提取模型,提取出样本内容对应的内容特征;确定样本内容对应的内容特征间的相似度,得到样本对对应的相似度输出值;基于样本对对应的相似度输出值与样本对对应的相似度标签值间的差异,对初始特征提取模型的模型参数进行调整,直至调整后的初始特征提取模型符合预设训练条件,得到目标特征提取模型。

其中,训练样本集中的每个样本对具有对应的相似度标签值。其中,相似度标签值用于表征对应样本对中的样本内容间的相似度是否大于预设阈值。举例来说,正样本对对应的相似度标签值用于表征正样本对中的两个样本内容之间的相似度大于预设阈值;负样本对对应的相似度标签值用于表征正样本对中的两个样本内容之间的相似度小于等于预设阈值。

具体实现中,服务器在采用训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型的过程中,服务器可以将样本对中的两个样本内容输入至初始特征提取模型,提取出各个样本内容对应的内容特征;确定各个样本内容对应的内容特征间的相似度,得到样本对对应的相似度输出值。

然后,服务器再基于样本对对应的相似度输出值与样本对对应的相似度标签值间的差异,对初始特征提取模型的模型参数进行调整,直至调整后的初始特征提取模型符合预设训练条件,得到目标特征提取模型。具体来说,服务器可以将样本对对应的相似度输出值与样本对对应的相似度标签值输入至预设的损失函数,得到损失函数值。

其中,预设的损失函数可以表示为:

然后,服务器再基于该损失函数值,采用反向传播算法确定出初始特征提取模型的模型参数的梯度,并采用梯度下降的方法,利用该模型参数的梯度对初始特征提取模型的模型参数进行调整,直至调整后的初始特征提取模型符合预设训练条件(例如,调整后的初始特征提取模型的损失值小于预设阈值,或者,调整后的初始特征提取模型的参数调整次数大于预设阈值),从而得到目标特征提取模型。

本实施例的技术方案,通过将样本对中的样本内容输入至初始特征提取模型,提取出样本内容对应的内容特征;确定样本内容对应的内容特征间的相似度,得到样本对对应的相似度输出值;基于样本对对应的相似度输出值与样本对对应的相似度标签值间的差异,来表征出初始特征提取模型的实际处理表现,并基于该实际处理表现对初始特征提取模型的模型参数进行准确地调整,直至调整后的初始特征提取模型符合预设训练条件,得到符合实际任务需求的目标特征提取模型。

图3是根据一示例性实施例示出的另一种内容排序方法的流程图,如图3所示,该方法用于图1中的服务器110中,包括以下步骤。在步骤S310中,获取训练样本集;所述训练样本集包括正样本对和负样本对;所述正样本对包括两个第一样本内容;所述第一样本内容为在同一搜索请求对应的内容搜索结果中被访问的内容;所述负样本对包括一个所述第一样本内容和一个第二样本内容;所述第二样本内容为所述内容搜索结果中未被访问的内容。在步骤S320中,采用所述训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型;其中,所述目标特征提取模型,用于分别提取出所述已有内容与所述目标内容的内容特征,所述内容特征用于确定所述已有内容与所述目标内容间的相似度。在步骤S330中,从已有内容中确定目标内容的至少一个相似内容;其中,所述相似内容与所述目标内容间的相似度大于预设阈值;所述已有内容为已对应有用户行为数据的内容。在步骤S340中,获取与所述相似度对应的数据调整权重;所述数据调整权重与所述相似度呈正相关关系。在步骤S350中,按照所述数据调整权重,对所述相似内容的用户行为数据进行加权处理,得到所述目标内容的用户行为数据。在步骤S360中,响应于内容搜索请求,获得内容搜索词条;所述内容搜索请求为获取所述目标搜索结果的请求。在步骤S370中,根据所述内容搜索词条的语义特征与所述目标内容的内容特征之间的相似度,确定所述目标内容对应于所述内容搜索词条的搜索关联度。在步骤S380中,根据所述搜索关联度和所述目标内容的用户行为数据,确定所述目标内容于所述目标搜索结果中的展示顺序。需要说明的是,上述步骤的具体限定可以参见上文对一种内容排序方法的具体限定,在此不再赘述。

应该理解的是,虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图4是根据一示例性实施例示出的一种内容排序装置框图。参照图4,该装置包括:

确定单元410,被配置为执行从已有内容中确定目标内容的至少一个相似内容;其中,所述相似内容与所述目标内容间的相似度大于预设阈值;所述已有内容为已对应有用户行为数据的内容;

生成单元420,被配置为执行根据各相似内容对应的所述相似度和所述用户行为数据,生成所述目标内容的用户行为数据;

排序单元430,被配置为执行根据所述目标内容的用户行为数据,确定所述目标内容在目标搜索结果中的展示顺序。

在一示例性实施例中,若所述相似内容具有一个,所述生成单元420,具体被配置为执行获取与所述相似度对应的数据调整权重;所述数据调整权重与所述相似度呈正相关关系;按照所述数据调整权重,对所述相似内容的用户行为数据进行加权处理,得到所述目标内容的用户行为数据。

在一示例性实施例中,若所述相似内容具有多个,所述生成单元420,具体被配置为执行根据各个所述相似内容对应的所述相似度,确定各个所述相似内容对应的数据调整权重;每个所述数据调整权重与对应的所述相似度呈正相关关系;按照各个所述相似内容对应的数据调整权重,对各个所述相似内容的用户行为数据进行加权,得到各个所述相似内容对应的加权后行为数据;根据各个所述相似内容对应的加权后行为数据,确定所述目标内容的用户行为数据。

在一示例性实施例中,所述一种内容排序装置,还包括:获取单元,具体被配置为执行获取训练样本集;所述训练样本集包括正样本对和负样本对;所述正样本对包括两个第一样本内容;所述第一样本内容为在同一搜索请求对应的内容搜索结果中被访问的内容;所述负样本对包括一个所述第一样本内容和一个第二样本内容;所述第二样本内容为所述内容搜索结果中未被访问的内容;训练单元,具体被配置为执行采用所述训练样本集,对初始特征提取模型进行训练,得到目标特征提取模型;其中,所述目标特征提取模型,用于分别提取出所述已有内容与所述目标内容的内容特征,所述内容特征用于确定所述已有内容与所述目标内容间的相似度。

在一示例性实施例中,所述训练样本集中的每个样本对具有对应的相似度标签值,其中,所述相似度标签值用于表征对应所述样本对中的样本内容间的相似度是否大于预设阈值;所述训练单元,具体被配置为执行将所述样本对中的样本内容输入至所述初始特征提取模型,提取出所述样本内容对应的内容特征;确定所述样本内容对应的内容特征间的相似度,得到所述样本对对应的相似度输出值;基于所述样本对对应的相似度输出值与所述样本对对应的相似度标签值间的差异,对所述初始特征提取模型的模型参数进行调整,直至调整后的所述初始特征提取模型符合预设训练条件,得到所述目标特征提取模型。

在一示例性实施例中,所述目标内容包括目标视频,所述一种内容排序装置,还包括:筛选单元,具体被配置为执行在预设视频集合中,将未具有用户行为数据的视频,作为所述目标视频。

在一示例性实施例中,所述排序单元430,被配置为执行响应于内容搜索请求,获得内容搜索词条;所述内容搜索请求为获取所述目标搜索结果的请求;根据所述内容搜索词条的语义特征与所述目标内容的内容特征之间的相似度,确定所述目标内容对应于所述内容搜索词条的搜索关联度;根据所述搜索关联度和所述目标内容的用户行为数据,确定所述目标内容于所述目标搜索结果中的展示顺序。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于执行内容排序方法的设备500的框图。例如,设备500可以为一服务器。参照图5,设备500包括处理组件520,其进一步包括一个或多个处理器,以及由存储器522所代表的存储器资源,用于存储可由处理组件520的执行的指令,例如应用程序。存储器522中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件520被配置为执行指令,以执行上述内容排序方法。

设备500还可以包括一个电源组件524被配置为执行设备500的电源管理,一个有线或无线网络接口526被配置为将设备500连接到网络,和一个输入输出(I/O)接口528。设备500可以操作基于存储在存储器522的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。

在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器522,上述指令可由设备500的处理器执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供一种计算机程序产品,包括计算机程序,所述计算机程序存储在计算机可读存储介质中,所述计算机程序可由设备500的处理器执行以完成上述方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 内容排序方法、装置、服务器及存储介质
  • 搜索内容排序方法、装置、存储介质和电子设备
技术分类

06120113212359