掌桥专利:专业的专利平台
掌桥专利
首页

信息推荐方法、装置、电子设备及计算机可读存储介质

文献发布时间:2023-06-19 19:07:35


信息推荐方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能、云技术及多媒体技术领域,具体而言,本申请涉及一种信息推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着科技的发展,互联网已经成为人们生活中不可缺少的一部分。在互联网飞速发展的时代,各种信息发布平台也得到了快速发展,用户可以通过信息发布平台方便快捷的获取到各种信息。比如,通过新闻类的信息发布平台,用户可以在线进行新闻的阅读,及时了解到各个领域的消息。

为了满足不同用户的不同需求,目前都会通过一些推荐算法来实现信息的推荐,从而使得不同的用户可以获得不同的推荐信息。虽然目前已经存在很多不同的信息推荐算法,但是信息推荐的准确性仍有待改进。

发明内容

本申请的目标在于提供一种有效提高信息推荐准确性的信息推荐方法、装置、电子设备及计算机可读存储介质。为了实现该目的,本申请实施例提供的技术方案如下:

一方面,本申请提供了一种信息推荐方法,该方法包括:

获取第一应用的目标对象的对象信息以及至少一个待推荐信息;

对于每个所述待推荐信息,基于所述目标对象的对象信息和该待推荐信息,通过多目标预测模型,预测得到该待推荐信息对应于至少两个推荐评估指标中每个评估指标的第一推荐值;

对于每个所述待推荐信息,通过融合该待推荐信息对应的各所述第一推荐值,得到该待推荐信息的第二推荐值;

根据各所述待推荐信息的第二推荐值,从所述至少一个待推荐信息中确定所述目标对象的目标推荐信息;

其中,所述多目标预测模型是基于多个训练样本和模型的目标损失函数对神经网络模型进行训练得到的,所述目标损失函数包括对应于各评估指标的损失函数,每个评估指标的损失函数的值是根据所述多个训练样本对应于该评估指标的训练损失值和损失修正系数确定的;

一个训练样本包括一个样本对象的样本数据,该样本对应的各所述评估指标的损失修正系数是基于该样本的样本数据中包含的目标信息确定的,所述目标信息包括样本对象对应于第二应用的使用行为信息。

另一方面,本申请实施例提供了一种信息推荐装置,该装置包括:

信息获取模块,用于获取第一应用的目标对象的对象信息以及至少一个待推荐信息;

推荐值确定模块,用于对于每个所述待推荐信息,基于所述目标对象的对象信息和该待推荐信息,通过多目标预测模型,预测得到该待推荐信息对应于至少两个推荐评估指标中每个评估指标的第一推荐值,以及通过融合该待推荐信息对应的各所述第一推荐值,得到该待推荐信息的第二推荐值;

目标信息确定模块,用于根据各所述待推荐信息的第二推荐值,从所述至少一个待推荐信息中确定所述目标对象的目标推荐信息;

其中,上述多目标预测模型是基于多个训练样本和模型的目标损失函数对神经网络模型进行训练得到的,所述目标损失函数包括对应于各评估指标的损失函数,每个评估指标的损失函数的值是根据多个训练样本对应于该评估指标的训练损失值和损失修正系数确定的;

一个训练样本包括一个样本对象的样本数据,该样本对应的各评估指标的损失修正系数是基于该样本的样本数据中包含的目标信息确定的,目标信息包括样本对象对应于第二应用的使用行为信息。

可选的,上述一个样本对象的样本数据包括该样本对象的模型输入数据、该模型输入数据对应于各评估指标的标注标签、以及该对象的目标信息,模型输入数据包括样本对象信息和样本推荐信息;神经网络模型包括多任务学习模型和第一网络模型;上述多目标预测模型是由模型训练装置通过以下方式训练得到的:

基于各训练样本对神经网络模型重复执行以下操作,直至训练总损失值满足训练结束条件,将训练结束时的多任务学习模型确定为多目标预测模型:

对于每个训练样本,将每个训练样本的模型输入数据输入至多任务学习模型中,得到该样本对应于各评估指标的预测推荐值,将该样本的目标信息输入至第一网络模型中,得到该样本对应于各评估指标的损失修正系数;

对于每个训练样本,基于该样本对应于每个评估指标的预测推荐值和标注标签,确定该样本对应于每个评估指标的损失函数的训练损失值,基于该样本对应于各评估指标的训练损失值和损失修正系数,确定该样本的训练损失值;

基于各训练样本的训练损失值,确定训练总损失值,若训练总损失值不满足训练结束条件,则调整神经网络模型的模型参数。

可选的,一个训练样本对应于一个评估指标的损失修正系数表征了该样本与该评估指标的关联性;对于每个训练样本,模型训练装置在确定该样本的训练损失值时用于:

将该样本对应于各评估指标的损失修正系数,分别作为各个评估指标的训练损失值的第一权重,对该样本对应于各评估指标的训练损失值进行加权求和,得到该样本的训练损失值。

可选的,一个训练样本对应于一个评估指标的损失修正系数表征了该样本是该评估指标的噪声样本的可能性;对于每个训练样本,模型训练装置在确定该样本的训练损失值时用于:

对于每个评估指标,基于该样本对应于该评估指标的训练修正系数,确定该样本对应于该评估指标的训练损失值的第二权重,其中,第二权重与训练修正系数成负相关;

基于该样本对应于各评估指标的第二权重,对该样本对应于各评估指标的训练损失值进行加权;

基于该样本对应于各评估指标的加权后的训练损失值,确定该样本的训练损失值。

可选的,目标损失函数还包括正则修正项,对于每个训练样本,对于每个训练样本,模型训练装置在确定该样本的训练损失值时用于:

基于该样本对应于各评估指标的训练修正系数,确定该样本的正则修正项的值;

基于该样本对应于各评估指标的加权后的训练损失值、以及正则修正项,确定该样本的训练损失值。

可选的,正则修正项的表达式为:logS,其中,S表示各评估指标对应的训练修正系数的乘积。

可选的,多目标预测型包括对应于每个评估指标的第二网络模型;对于每个待推荐信息,推荐值确定模块可以用于:

获取目标对象的对象信息的第一信息特征、以及该待推荐信息的第二信息特征;将第一信息特征和第二信息特征拼接,将拼接后的信息特征分别输入至各评估指标的第二网络模型中,通过每个评估指标的第二网络模型预测得到该待推荐信息对应于该评估指标的第一推荐值。

可选的,每个第二网络模型包括第一特征提取层、至少两个第二特征提取层、特征融合层和推荐值预测层;对于每个评估指标,该评估指标对应的第二网络模型通过执行以下操作得到一个待推荐信息对应于该评估指标的预测推荐值:

通过第一特征提取层对该待推荐信息的拼接后的特征进行特征提取,得到第一特征,通过至少一个第二特征提取层对该待推荐信息的拼接后的特征进行特征提取,得到对应于每个第二特征提取层的第二特征;

通过特征融合层,分别确定每个第二特征与第一特征的匹配度,基于匹配度对对应的第二特征进行加权,并对加权后的各第二特征进行融合,得到融合后的特征;

基于融合后的特征,通过推荐值预测层得到该待推荐信息对应于该评估指标的第一推荐值。

可选的,待推荐信息包括多媒体信息,至少两个评估指标包括信息阅读时长和信息点击率。

可选的,一个样本对象对应于第二应用的使用行为信息包括以下至少一项:

该样本对象访问第二应用的访问频率;

通过第二应用向该样本对象推荐的推荐信息量;

该样本对象在第二应用中的推荐信息阅读量;

该样本对象对第二应用的使用时长;

该样本对象针对第二应用中的推荐信息的交互行为信息。

另一个方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现本申请实施例提供的方法的步骤。

另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的方法的步骤。

再一方面,本申请实施例还提供了一种计算机程序产品,该产品包括计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的方法的步骤。

本申请实施例提供的技术方案带来的有益效果是:本申请实施例提供的信息推荐方法,在确定目标待推荐信息时,可以通过训练好的多目标预测模型,预测每个待推荐信息对应于多个不同推荐评估指标的推荐之,即综合考虑了每个待推荐信息对应于多个推荐评估指标的推荐值,实现了从多个不同的维度综合衡量是否将一个待推荐信息作为目标推荐信息。在训练得到多目标预测模型时,模型的每个训练样本中除了包含模型输入数据之外,还考虑每个样本对象对于应用的使用行为信息,并采用该信息实现对相应的训练样本的训练损失值的修正,从而可以使得模型的训练损失情况更加符合样本对象的实际行为数据,使得模型能够基于不同的使用行为信息学习到更加准确的模型参数,提高模型的性能,提升了通过该模型预测待推荐信息对应的第一推荐值的准确性,为筛选更加符合目标对象的目标推荐信息提供了基础,更好的满足了应用需求,提升用户的使用感知。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种信息推荐方法的流程示意图;

图2为本申请实施例提供的一种神经网络模型的结构示意图;

图3为本申请实施例所适用的一种信息推荐系统的系统架构示意图;

图4为本申请实施例提供的一种信息推荐方法的流程示意图;

图5为本申请实施例提供的一种神经网络模型的结构示意图;

图6为本申请实施例提供的一种信息推荐方法的流程示意图;

图7为本申请实施例提供的一种信息推荐装置的结构示意图;

图8为本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。

本申请是针对现有信息推荐应用场景中,信息的个性化推荐效果仍有有待改进,信息推荐的准确性不投理想的问题,而提出的一种信息推荐方法,基于该方法能够更好的满足实际应用需求,提升用户使用感知。

可选的,本申请实施例提供的信息推荐方法,可以基于人工智能(ArtificialIntelligence,AI)技术实现。比如,获取待推荐信息对应于各个推荐评估指标的第一推荐值的可以通过训练好的神经网络模型(即多目标预测模型)实现。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步,人工智能技术已经在多个领域广泛展开研究和应用,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

其中,本申请实施例中的待推荐信息可以包括文本信息,比如包括文本内容的新闻,上述多目标预测模型可以是基于自然语言处理(Nature Language processing,NLP)的神经网络模型。NLP)计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

可选的,本申请实施例所涉及的数据处理可以基于云技术(Cloud technology)实现,比如,在对神经网络模型进行训练得到上述多目标预测模型时,可以采用云技术,训练过程中所涉及的数据计算可以采用云计算(Cloud computing)方式。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

为了更好的说明和理解本申请实施例提供的方案,首先对本申请实施例中所涉及的一些相关的技术用语进行介绍:

推荐系统:推荐系统是自动联系用户和物品的一种工具,它能够在信息过载的环境中帮助用户发现令他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。

新闻个性化推荐:根据用户的用户信息(如兴趣特点和阅读行为等),向用户推荐他们感兴趣的新闻。

CTR(Click Through Rate,点击通过率)预估模块:也可以称为点击率预估模块,根据特征列表和排序模型对物品候选集进行点击率预估计算。在本申请实施例中,CTR模型用于预估待推荐信息的点击率。

MTL(multi-task learning,多任务学习):把多个相关(related)的任务放在一起学习,同时学习多个任务。

Attention(注意力)机制:本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上,将更多的注意力聚焦到有用的部分,Attention的本质就是加权。

用户活跃度:用户活跃度是指用户使用产品的行为频率,比如在新闻APP(应用)中每天登陆的频率,阅读的数量,使用的时长等行为情况。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

图1示出了本申请实施例提供的一种信息推荐方法的流程示意图,该方法可以由任意的电子设备执行,如可以由终端设备,终端设备可以通过执行该方法,从待推荐信息中确定出目标对象对应的目标推荐信息,从而后续可以向该目标对象展示更加符合该对象的个性化需求的目标推荐信息,提升了用户感知。该方法也可以由服务器执行,可选的,该服务器可以是云服务器,该方法可以实现为一个应用程序或者作为已有的具有信息推荐功能的应用程序的插件或功能模块,比如,可以作为新闻类应用程序的一个新的功能模块,通过执行本申请实施例的该方法,对于不同的用户,可以更加准确的筛选出向该用户推荐的目标推荐信息,进一步的,可以将目标推荐信息推送到用户的终端设备,并展示该用户,基于该方法可以提升用户对该应用程序的使用感知,提高应用程序的用户粘度。其中,上述终端设备包括用户终端,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。

如图1中所示,本申请实施例提供的该信息推荐方法可以包括以下步骤S110-步骤S140,可选的,该方法可以由服务器执行。

步骤S110:获取第一应用的目标对象的对象信息以及至少一个待推荐信息。

其中,第一应用可以是任一具有信息推荐功能的应用程序,该应用程序的类型本申请实施例不做限定,可以是能够安装在移动终端设备或其他计算机设备上的应用程序,也可以是在线的应用程序,比如网页版的应用程序,还可以是小程序。第一应用的目标对象是使用该应用的任一对象,也就是使用者即用户,该对象可以是注册、登录过该应用的对象,也可以是没有注册的对象。比如,一个用户注册或登录过一个应用,但是在用户授权的情况下,服务器可以将该用户所使用的终端设备的标识作为该用户的标识,为该用户进行信息推荐。

目标对象的对象信息,即目标对象的用户画像,包括但不限于对象的属性信息(如在对象授权的情况下获知的对象的年龄、性别、所在地、用户的喜好等相关信息)、对应于第一应用的历史行为信息,如与该第一应用有关的操作行为数据、与第一应用属于相同类型的其他应用的操作行为数据等,操作行为数据可以包括但不限于用户(即用户)使用应用的频率、在应用上的操作数据,比如每次使用的时长、每次使用阅读推荐信息(已经推送给用户的信息)的数量、每次使用应用程序的时间(即什么时间使用了该应用程序)每次点击推荐信息的数量、点击的推荐信息的类型等等。

作为一可选方式,目标对象的对象信息包括该对象的属性信息和该对象对应于第一应用的使用行为信息。

待推荐信息即候选的推荐信息,待推荐信息的具体获取方式本申请实施例不做限定,可以是从信息数据库中随机选取的信息,也可以是通过一些预筛选手段从信息数据库中进行初步筛选后得到的一些信息,即经过至少一次粗排得到的信息。比如,第一应用是新闻类应用程序,该应用的信息数据库中存储有大量的新闻,第一应用的服务器可以该应用的信息数据库中随机取出设定数量的新闻作为候选待推荐信息,或者是按照目标用户的用户画像,按照该用户的平时阅读的新闻类型从信息数据库中筛选出该类型的多个新闻作为待推荐信息。

对于待推荐信息的类型本申请实施例也不做限定。在实际应用中,不同的应用场景中的待推荐信息很可能是不同的。待推荐信息可以是多媒体信息,一个待推荐信息可以包括文本、图像、音频、视频等信息中的一项或多项。比如,第一应用可以是新闻类应用,待推荐信息可以是待推荐的新闻,新闻可以包括文本,还可以包括图像。

步骤S120:对于每个待推荐信息,基于目标对象的对象信息和该待推荐信息,通过多目标预测模型,预测得到该待推荐信息对应于至少两个推荐评估指标中每个评估指标的第一推荐值。

其中,多目标预测模型是基于多个训练样本训练得到的,每个训练样本包括一个样本对象的样本数据,一个训练样本的训练损失值是基于该样本对应于各个评估指标的训练损失值和损失修正系数得到的,该样本对应于各评估指标的损失修正系数与样本对象的目标信息关联,目标信息包括该样本对象对应于第二应用的使用行为信息,其中,第二应用为第一应用、或者是与第一应用属于同一类型的应用。

本申请实施例中,推荐评估指标是指用于评估待推荐信息是否会被作为目标推荐信息的指标,采用多个不同的评估指标则可以从多个不同的维度对待推荐信息进行评价,提高最终评估的准确性。

上述至少两个推荐评估指标具体包括哪些评估本申请实施例不做限定,可以根据实际应用需求配置。待推荐信息对应于一个推荐评估指标的第一推荐值,表征了从这个评估指标的维度来看,待推荐信息会被作为目标推荐信息的可能性(也就是被推荐给目标用户的可能性),第一推荐值越高,从该维度上来看,待推荐信息被作为目标推荐信息的可能性越高,第一推荐值也可以称为第一得分。

可选的,待推荐信息可以是多媒体信息,比如文本类信息(如新闻完整),上述至少两个推荐评估指标可以包括但不限于信息阅读时长和信息点击率。对于一个待推荐信息,该信息对应的信息阅读时长这一指标的第一推荐值的大小,表征了目标对象在阅读该信息时所用时间的长短,也就是会花费在该信息上的时长;该信息对应的信息点击率的第一推荐值则表征了该信息会被目标对象点击的可能性。

本申请实施例中,可以采用已经训练好的多目标预测模型来预测每个待推荐信息对应于各个评估指标的第一推荐值,对于每个待推荐信息而言,模型的输入可以目标对象的对象信息和该待推荐信息,输出是该待推荐信息对应于各个评估指标的第一推荐值,当然,也可以是先对目标对象的对象信息和该待推荐信息进行预处理后再输入到模型中,以使得处理后的数据满足模型的输入数据的格式要求,比如,可以将目标对象的对象信息转换为第一指定格式的向量化的数据,将待推荐信息也转换为第二指定格式的向量化的数据,将向量化的对象信息和待推荐信息输入到模型中。

对于多目标预测模型的具体模型结构本申请实施例不做限定,可以根据实际需求选择,多目标预测模型可以是多任务学习模型,可以基于训练样本对初始的多任务学习模型进行训练得到该多目标预测模型,可选的,可以采用带有注意力机制的多任务学习模型,以在进行信息的特征提取时,模型可以将更多的注意力聚焦到有用的部分,从而可以学习到具有更好的表达能力的特征。

本申请的可选实施例中,上述多目标预测模型包括对应于每个评估指标的第二网络模型;对于每个待推荐信息,上述基于目标对象的对象信息和该待推荐信息,通过多目标预测模型,预测得到该待推荐信息对应于至少两个推荐评估指标中每个评估指标的第一推荐值,可以包括:

获取该目标对象的对象信息的第一信息特征、以及该待推荐信息的第二信息特征;

将第一信息特征和第二信息特征拼接,将拼接后的特征分别输入至各评估指标的第二网络模型中,通过每个评估指标的第二网络模型预测得到该待推荐信息对应于该评估指标的第一推荐值。

其中,对于第一信息特征和第二信息特征的提取,可以是在多目标预测模型内实现的,也可以是模型外实现的,即多目标预测模型可以包括用于提取第一信息特征和第二信息特征的特征提取模块,也可以是通过词嵌入(Embedding)或者其他特征提取方式获取上述第一特征信息和第二特征信息。

在获取到目标对象的第一信息特征和待推荐信息的第二信息特征之后,可以将两者拼接之后分别输入至各个第二网络模型,预测得到每个评估指标对应的第一推荐值。可选的,第一推荐值可以是分数的形式,如每个第二网络模型输出的可以是待推荐信息对应于该模型对应的推荐评估指标的推荐分值或者是分值区间,比如推荐分值的取值范围是0-100分,第一推荐值可以是具体的某个分值,也可以是将上述取值范围划分为了10个分值区间,第一推荐值可以是对应其中一个区间。

其中,对于每个推荐评估指标对应的第二网络模型的模型结构本申请实施例也不做限定。不同推荐评估指标对应的第二网络模型之间可以完全是并列的模型分支,也可以是具有部分共用网络结构的模型,即有些网络结构是多个评估指标对应的多个第二网络模型所共同包含的结构。

本申请的可选实施例中,每个第二网络模型包括第一特征提取层、至少一个第二特征提取层、特征融合层和推荐值预测层;

对于每个评估指标,该评估指标对应的第二网络模型通过执行以下操作得到一个待推荐信息对应于该评估指标的预测推荐值:

通过第一特征提取层对该待推荐信息的拼接后的特征进行特征提取,得到第一特征,通过至少两个第二特征提取层对该待推荐信息的拼接后的特征进行特征提取,得到对应于每个第二特征提取层的第二特征;

通过特征融合层,分别确定每个第二特征与第一特征的匹配度,基于匹配度对对应的第二特征进行加权,并对加权后的各第二特征进行融合,得到融合后的特征;

基于融合后的特征,通过推荐值预测层得到该待推荐信息对应于该评估指标的第一推荐值。

为了更好的综合利用用户信息(即对象信息)和待推荐信息中所包含的各个方面的信息,提取得到用户信息和待推荐信息中所包含的多重语义信息,在基于上述拼接后的特征得到对应于各个评估指标的第一推荐值时,可以采用基于注意力机制的神经网络结构以提取得到具有更好表达能力的信息特征。其中,上述第一特征提取层和各第二特征提取层的模型参数是不同的,采用多个特征提取层来提取得到包含多层语义信息的特征,并可以通过计算第一特征和第二特征的匹配度(如相似度,可以基于第一特征和第二特征之间的距离确定)来确定每个第二特征对应的权重,可选的,可以直接将匹配度作为权重,对各个第二特征进行加权融合,得到包含了多个层面、多重语义信息的融合后的特征,进一步基于该特征得到待推荐信息对应的第一推荐值。

可选的,不同评估指标对应的第二网络模型可以共用上述多个第二特征提取层。

作为一个可选示例,图2中示出了获取待推荐信息对应于一个评估指标的第一推荐值(图2中所示的分值)的原理示意图。该示例中,第二神经网络模型包括两个第二特征提取层,将拼接后的特征分别输入至第一特征提取层和各个第二特征提取层中,得到三个特征提取层分别对应的特征F1、F2和F3,特征融合层基于特征F1、F2和F3,计算F1和F2的相似度S

为了得到满足应用条件的多目标预测模型,需要获取大量的训练样本,本申请实施例中,每个训练样本包括一个样本对象的样本数据,其中,该样本数据包括模型输入数据(与训练模型的目的相对应的模型输入),该模型输入数据包括样本对象的样本对象信息和样本推荐信息,样本数据还包括模型输入数据对应于每个评估指标的标注标签,也就是样本推荐信息对应于各个评估指标的标注标签,一个评估指标对应的标注标签表征了该样本推荐信息对应于该指标的真实推荐值。

在对多任务学习模型进行训练时,则可以将各个训练样本的模型输入数据输入到模型中,通过模型该样本对应于各评估指标的预测推荐值,基于各训练样本对应于各个评估指标的标注标签(即真实推荐值)和预测推荐值,则可以计算得到模型的训练损失值,该损失值则表征了各个训练样本对应于多个训练指标的真实推荐值和预测推荐值之间的差异。

本申请的实施例中,一个样本对象的样本数据还包括该样本对象的目标信息,一个样本对象对应的目标信息包括该目标对象对应于第二应用的使用行为信息。其中,目标信息也可以称为对象的活跃度或用户活跃度,表征的是用户对于第二应用的使用情况,也就是说,与用户使用第二应用有关的信息都可以算是该用户的目标信息。可选的,第二应用可以是第一应用或者是与第一应用属于同一类型的应用,也就是与第一应用的相似度很高的应用。采用第一应用或者是与第一应用属于相同应用类型的应用的样本对象的样本数据,可以有效保障训练得到的多目标预测模型在应用于第一应用待推荐信息时的预测性能。当然,如果考虑模型的泛化能力,也可以采用多个应用对应的样本数据。

可选的,一个样本对象对应于第二应用的使用行为信息包括以下至少一项:

该样本对象访问第二应用的访问频率;通过第二应用向该样本对象推荐的推荐信息量;该样本对象在第二应用中的推荐信息阅读量;该样本对象对第二应用的使用时长;该样本对象针对第二应用中的推荐信息的交互行为信息。

其中,对应一个样本对象而言,访问频率可以是指该对象设定时长内使用第二应用的次数,比如,该对象每天登录第二应用的次数。推荐信息量也可以称为信息曝光量,指的是一定时长内向该对象曝光/展示的信息的数量。推荐信息阅读量则是指一定时长内该对象在第二应用内阅读/观看/点击的信息的数量。交互行为信息是指该对象在使用第二应用时与第二应用中的推荐信息产生的交互信息,比如,可以包括但不限于点赞、转发、发表评论等行为信息。

在实际应用中,由于不同的人群具有不同的属性,不同的人使用应用程序的目标通常也就不同。比如,有些人在使用应用程序时,使用时间比较充裕,花费在该应用程序上的时间比较弹性、可伸缩,使用应用程序(即消费应用程序)的目标中满足兴趣的比例较大,那么对应推荐给他的信息的篇幅可以不受限。而有些人群在应用程序上的可消费时间比较有限,花费在该应用程序上的时间具有一定行,所以使用应用程序的目的中获取信息的比例更大,需要花费较长阅读时间的信息被其阅读的可能性较小,所以该用户会希望有更多篇幅简短的信息被推荐。

考虑于此,本申请实施例提供的信息推荐方法,在训练多任务学习模型时,还考虑各个样本对象对应于第二应用的使用行为信息,基于该使用行为信息对该训练样本对应于各个推荐评估指标的损失值(即损失函数的值)进行相应的修正,从而使得计算出的一个训练样本对应于各个指标的训练损失值可以与该样本的样本对象对于第二应用的使用行为更加符合,从而在基于模型的总训练损失情况(即目标损失函数的值,也就是训练总损失值)来约束模型的学习时,可以让模型基于各个样本对应的使用行为学习到更加符合样本对应真实的应用程序使用情况、更加准确的模型参数。

相应的,在基于训练好的多目标预测模型来预测待推荐信息对应于各个评估指标的第一推荐值时,可以使得预测结果更加准确,从而为后续基于第一推荐值从各待推荐信息中确定出更加准确的目标推荐信息提供了基础。

其中,训练总损失值是基于各个评估指标对应的损失函数的值确定的,比如,将各个评估指标对应的损失函数的值相加得到,或者是每个评估指标可以配置有相应的权重,可以基于各个评估指标对应的权重,对各个评估指标对应的损失函数的值进行加权求和,得到训练总损失值。在对模型进行训练时,可以基于训练总损失值是否满足训练结束条件来判断是否结束训练,训练结束条件可以根据需求配置,可以包括但不限于目标损失函数收敛或者是训练次数达到设定次数。

步骤S130:对于每个待推荐信息,通过融合该信息对应的各第一推荐值,得到该信息的第二推荐值。

步骤S140:根据各待推荐信息的第二推荐值,从至少一个待推荐信息中确定目标对象的目标推荐信息。

多个评估指标对应的第一推荐值反映了待推荐信息在多个不同的评价维度上可能被选中的可能性,为了综合评估该信息,可以通过该将各维度对应的第一推荐值进行融合得到该信息的综合推荐值即上述第二推荐值,从可以基于各个待推荐信息的综合推荐值,从待推荐信息中确定出目标推荐信息。其中,上述融合多个第一推荐值的方式可以根据实际应用需求配置,可选的,可以是将各第一推荐值相加得到的第二推荐值,或者是各第一推荐值的平均值作为第二推荐值,还可以为每个不同的评估指标预设值对应的权重,基于每个评估指标对应的权重,对各个第一推荐值进行加权求和第二推荐值。

在得到每个待推荐信息的第二推荐值之后,可以按照推荐值由高至低的顺序,将排序靠前的设定数量的待推荐信息确定为目标推荐信息,或者是将第二推荐值大于或等于设定阈值的待推荐信息确定为目标推荐信息。

本申请实施例提供的信息推荐方法,在确定目标待推荐信息时,可以通过训练好的多目标预测模型,预测每个待推荐信息对应于多个不同推荐评估指标的推荐之,即综合考虑了每个待推荐信息对应于多个推荐评估指标的推荐值,实现了从多个不同的维度综合衡量是否将一个待推荐信息作为目标推荐信息。进一步的,在训练得到多目标预测模型时,本申请实施例提供的方法中,每个训练样本中除了包含模型输入数据之外,还考虑每个样本对象对于应用的使用行为信息,并采用该信息实现对相应的训练样本的训练损失值的修正,从而可以使得模型的训练损失情况更加符合样本对象的实际行为数据,使得模型能够基于不同的使用行为信息学习到更加准确的模型参数,提高模型的性能,提升了通过该模型预测待推荐信息对应的第一推荐值的准确性,为筛选更加符合目标对象的目标推荐信息提供了基础,更好的满足了应用需求,提升用户对于应用的使用感知。

本申请的可选实施例中,上述神经网络模型包括多任务学习模型和第一网络模型;上述多目标预测模型是通过以下方式训练得到的:

基于各训练样本对神经网络模型重复执行以下操作,直至训练总损失值满足训练结束条件,将训练结束时的多任务学习模型确定为多目标预测模型:

对于每个训练样本,将每个训练样本的模型输入数据输入至多任务学习模型中,得到该样本对应于各评估指标的预测推荐值,将该样本的目标信息输入至第一网络模型中,得到该样本对应于各评估指标的损失修正系数;

对于每个训练样本,基于该样本对应于每个评估指标的预测推荐值和标注标签,确定该样本对应于每个评估指标的损失函数的训练损失值,基于该样本对应于各评估指标的训练损失值和损失修正系数,确定该样本的训练损失值;

基于各训练样本的训练损失值,确定训练总损失值,若训练总损失值不满足训练结束条件,则调整神经网络模型的模型参数。

该方案中,通过多任务学习模型预测训练样本对应的各个预测推荐值(也就是样本数据中的样本推荐信息对应的第一推荐值),通过第一网络模型预测各个推荐评估指标对应的损失修正系数。多任务学习模型的输入为每个训练样本中的模型输入数据(样本对象信息和样本推荐信息)或者是将该数据进行向量化处理后的数据(可以称为向量化数据),输出为各个评估指标对应的预测推荐值。第一网络模型的输入为每个训练样本中的样本对象的目标信息或该信息的向量化数据,输出为各个评估指标对应的损失修正系数。

对于每次训练,可以通过计算每个训练样本对应于各评估指标的预测推荐值和标准标签的差异,得到该训练样本对应于各个评估指标的训练损失值(也就是每个评估指标对应的损失函数的值),采用每个评估指标对应的损失修正系数对相应指标的训练损失值进行修正,将修正后的各个评估指标对应的训练损失值相加得到该样本的训练损失值,将各训练样本的训练损失值进行求和得到模型的训练总损失值。如果某次训练对应的训练总损失值满足训练结束条件,则可以将此时的多任务学习模型作为多目标预测模型,或者是再采用多个测试样本对此时的多任务学习模型进行测试,将满足预设的测试结束条件的多任务学习模型作为多目标预测模型,如果不满足可以继续基于训练样本对模型进行训练,直至满足训练结束条件和测试结束条件。如果训练总损失值不满足训练结束条件,则可以采用梯度下降算法对模型的模型参数进行调整,对调整后的模型继续进行训练。

本申请的可选实施例中,一个训练样本对应于一个评估指标的损失修正系数表征了该样本与该评估指标的关联性;

对于每个训练样本,基于该样本对应于各评估指标的训练损失值和损失修正系数,确定该样本的训练损失值,包括:

将该样本对应于各评估指标的损失修正系数,分别作为各个评估指标的训练损失值的第一权重,对该样本对应于各评估指标的训练损失值进行加权求和,得到该样本的训练损失值。

也就是说,可以基于训练样本的目标信息(即样本对象的对应于第二应用的使用行为信息),预测该样本对应于各个评估指标的训练损失值的权重,一个训练样本对应于一个评估指标的该权重,可以理解为在训练过程中,该训练样本在该评估指标的维度上对于模型训练所起作用的重要程度,也就是该训练样本对于该评估指标的置信度/样本数据的可靠性。通过该方案,在对模型进行训练时,可以使模型更加关注于训练样本对应的置信度比较高的评估指标的训练损失,达到提升模型性能的目的。

以两个推荐评估指标为例,一个训练样本的训练损失值Loss可以表示如下:

Loss=loss1*s

其中,loss1和loss2分别表示该训练样本对应于两个评估指标的训练损失值,s

本申请的可选实施例中,一个训练样本对应于一个评估指标的损失修正系数表征了该样本是该评估指标的噪声样本的可能性;

对于每个训练样本,基于该样本对应于各评估指标的训练损失值和损失修正系数,确定该样本的训练损失值,可以包括:

对于每个评估指标,基于该样本对应于该评估指标的训练修正系数,确定该样本对应于该评估指标的训练损失值的第二权重,其中,第二权重与训练修正系数成负相关;

基于该样本对应于各评估指标的第二权重,对该样本对应于各评估指标的训练损失值进行加权;

基于该样本对应于各评估指标的加权后的训练损失值,确定该样本的训练损失值。

该可选方案中,可以基于训练样本的样本对象的对应于第二应用的使用行为信息,预测该样本对应于各个评估指标的训练损失值的噪声参数(即上述训练修正系数),一个训练样本对应于一个评估指标的噪声参数的值,可以理解为该训练样本是该评估指标上的噪声样本的可能性。相应的,在通过第一网络模型预测得到训练样本对应于各个评估指标的训练修正系数之后,可以基于该系数确定对应的权重,比如,可以将一个训练样本对应于一个评估指标的训练修正系数的倒数或者将训练修正系数的平方的倒数,作为该样本对应于该评估指标的权重。同样的,采用该方案对模型进行训练时,对于每个训练样本,可以使模型更少的关注于评估指标的噪声样本,也就是更加关注于评估指标的置信度比较高的训练样本,达到提升模型性能的目的。

本申请的可选实施例中,目标损失函数还包括正则修正项,对于每个训练样本,该方法还可以包括:

基于该样本对应于各评估指标的训练修正系数,确定该样本的正则修正项的值;

基于该样本对应于各评估指标的加权后的训练损失值,确定该样本的训练损失值,包括:

基于该样本对应于各评估指标的加权后的训练损失值、以及正则修正项,确定该样本的训练损失值。

可选的,在实际应用中,为了避免了训练样本对应于各个评估指标的训练修正系数之间相差过大而导致模型的训练严重失衡的问题(比如,某个评估指标的训练修正系数为0或者是趋近于0,会导致模型目标损失函数收敛困难、不同评估指标对应的损失函数对应的损失梯度过大等问题),在训练过程中,还可以通过设置正则修正项,对由于各个评估指标的训练修正系数相差很大而可能导致的上述问题进行约束,也就是可以通过正则修正项对训练总损失的值起到惩罚的目的,提升模型训练的速度。

可选的,上述正则修正项的表达式可以为logS,其中,S表示各评估指标对应的训练修正系数的乘积。

同样以两个推荐评估指标为例,一个训练样本的训练损失值Loss可以表示如下:

Loss=loss1*(1/2s

其中,loss1和loss2分别表示该训练样本对应于两个评估指标的训练损失值,s

本申请提供的各可选实施方案,可以适用于任何信息推荐系统中,基于该本申请提供的方案,可以进一步提升用户真实个性化反馈的准确性,能够更好满足用户需求。为了更好的说明本申请所提供的方案的实用性,下面结合一个具体的应用场景对本申请的一种可选实施方式进行说明。

本实施例的应用场景为新闻推荐场景,第一应用是新闻类app,待推荐信息为新闻,目标对象是该应用的用户。该场景中的多个推荐评估指标以两个为例进行说明,包括新闻的阅读时长和点击率。基于本申请实施例提供的方案,可以从多个候选推荐新闻(即待推荐信息)中筛选出更加符合用户需求的目标新闻(即目标推荐信息)。

在新闻推荐场景中,应用的数据提升指标通常包括人均阅读篇数和人均阅读时长双目标,既要提升用户的阅读篇数,同时又要提升用户的阅读时长。在该场景中,多目标预测模型是用来解决多目标收益的排序模型,多目标预测模型的优劣直接决定了数据指标收益的高低。虽然现有技术中也有多种多样的信息推荐方式,但是大多现有的推荐方式,采用的是全人群统一对待,难以做到双目标同时增长,比如全人群统一融合的过程中偏时长倾向,那结果往往是人均阅读时长指标增长的同时,人均阅读篇数指标降低或持平,原因是时长倾向融合偏向于推荐时长偏长的文章,在评估的过程中会对长时长文章加权,这样对于一些时间有限的人群,单篇文章阅读时间变长后必然会导致阅读数量的降低。

再者,现有方案中也没有很好的考虑到人群特点,不能做到因人群而异。但不同的人群具有不同的属性,来新闻消费的目的也不同。有些人群的可消费时间比较充裕,花费在新闻阅读上的时间具有弹性质,可伸缩,所以消费目的中满足兴趣比例更大,更容易沉浸阅读;有些人群的阅读可消费时间比较有限,花费在新闻阅读上的时间具有一定性,所以消费目的中信息获取比例更大,按照兴趣来沉浸阅读的可能性更小,会希望有更多简短的信息获取。但现有方案中并未考虑人群的差异性,推荐效果有待改善。

而本申请实施例提供的信息推荐方法,则充分考虑了不同人群间的差异特征,在训练得到多目标预测模型的过程中,可以基于训练样本的目标信息对样本的训练损失进行修正,实现了基于用户活跃度的自适应训练模型。从而在采用训练好的多目标预测模型预测待推荐信息对应于多指标的第一推荐值时,模型可以实现因人群而异,比如,对于时间充裕弹性大的人群,这种人群时间充裕,单篇文章阅读时间变长后,阅读数量基本维持不变,这样时长指标增涨的同时,阅读数量也不会降低,模型预测时可以偏向于优化阅读时长;而对于时间有限的人群,这种人群时间有限,模型预测时可以偏向于优化多点击即点击率,可以推荐片段的文章,这样在这群人的阅读时间一定时,文章的阅读数量就会增加,保证总阅读时长不变的情况下,增加阅读数量。基于该方式,在提升用户真实个性化兴趣反馈的准确性的同时,可以做到应用的多目标数据收益的同时增长,提升应用的用户粘性。

下面对该应用场景下的新闻(该场景下的信息,或者也可以称为文章)推荐方法的可选实施方式进行具体说明。

图3中示出了该应用场景下的一种可选的新闻推荐系统的结构示意图,如图3中所示,该系统包括用户的终端设备10、第一应用的服务器端即图3中所示的应用服务器20和模型训练装置30,终端设备10和应用服务器通过网络进行通信。其中,终端设备10中可以安装有新闻类APP,通过打开该APP的客户端(图中所示的新闻类客户端)可以进行新闻的阅读。

其中,模型训练装置30可以用于基于训练样本对神经网络模型进行训练,得到训练好的多目标预测模型。训练好的多目标预测模型可以部署于的应用服务器20中,的应用服务器20可以用于执行本申请实施例所提供的信息推荐方法,基于训练好的多目标预测模型预测每个候选推荐新闻的第一推荐值,从而基于各个候选推荐新闻的第一推荐值,从多个候选推荐新闻中确定出目标新闻,并可以推送给目标用户(可以是应用的任一用户),即推送到该用户的终端设备,通过新闻类客户端展示给用户。

下面结合图3所示的新闻推荐系统,对该应用场景下的新闻推荐方法的流程进行说明,如图4中所示,该方法可以包括如下步骤41至步骤44。

步骤41和步骤42:样本收集和样本处理,即获取训练数据集(大量的训练样本)。

步骤43:模型训练,即基于训练数据集训练得到多目标预测模型(即图4中所示的可用模型)。

步骤S44:模型的线上预测,即基于可用模型从待推荐信息中选择目标推荐信息。

其中,步骤41至步骤43可以由模型训练装置30执行,步骤S44由应用服务器20执行。对于训练样本的获取方式本实施例不做限定,可选的,可以在用户的授权的情况下,收集新闻类APP用户的用户信息、用户使用APP的频率、使用时长、历史推荐给用户的新闻中用户对新闻的阅读情况、点击情况、曝光日志等相关数据,通过对收集到的这些样本数据进行数据清洗、采用等处理,得到符合预设的数据格式要求的训练样本,并可以基于这些训练样本对神经网络模型进行训练,得到可用的生成模型。

训练时所采用的神经网络模型包括多任务学习模型和第一网络模型,本实施例中的多任务学习模型包括对应于点击率的第二网络模型(简称为点击率预估模型)和对应于阅读时长的第二网络模型(简称为时长预估模型),点击率预估模型用于预测训练样本对应于点击率的第一推荐值,时长预估模型用于预测训练样本对应于阅读时长的第一推荐值。模型训练装置30采用训练数据集对神经网络模型进行训练,训练好的多任务学习模型即为本应用场景中的多目标预测模型。

作为一个示例,图5为本申请实施例提供的一种神经网络模型的结构及训练原理示意图,如图5中所示,该示例中的点击率预估模型包括第一特征提取层A、3个第二特征提取层(即特征提取层1-3)、注意力网络A(该示例中的特征融合层)和推荐值预测层A,时长预估模型包括第一特征提取层B、3个第二特征提取层(即特征提取层1-3)、注意力网络B和推荐值预测层B,其中,点击率预估模型和时长预估模型共用3个第二特征提取层。该示例中的第一网络结构包括依次级联的特征提取网络和门控网络(即Gate网络)。其中,对于各个网络层的具体结构可以根据实际需要选择,本实施例不做限定,比如,推荐值预测层A和推荐值预测层B可以采用塔式网络(即Tower网络)。

本实施例中,每个训练样本包括一个样本对象的样本对象信息和样本推荐信息(即样本新闻)、该样本推荐信息对应于点击率这个指标的标注标签(点击率标签)、对应于阅读时长这个指标的标注标签(时长标签)、以及样本对象的目标信息,其中,样本对象包括样本对象的用户画像数据,包括上述目标信息以及目标信息之外的其他相关信息。

在基于训练数据集对图5中所示的神经网络模型进行训练时,可以将每个训练样本的样本对象信息、样本推荐信息以及目标信息分别进行向量化处理,得到向量化的特征,对于每个训练样本,将其样本对象信息的第一信息特征和样本推荐信息的第二信息特征进行拼接,将拼接特征分别输入至特征提取层A、3个第二特征提取层和特征提取层B,对于点击率预估模型而言,将特征提取层A提取得到的第一特征作为注意力网络A的查询向量,将3个第二特征提取层提取得到的第二特征分别作为注意力网络A键向量,计算查询向量与各个键向量的相似度,将三个键向量对应的相似度作为权重,对三个键向量进行加权求和,得到融合后的特征,将该特征输入到推荐值预测层A,预测得到训练样本对应于点击率指标的第一推荐值(即推荐预测值),即图5中所示的点击率分值。同样的,可以得到通过注意力网络B和推荐值预测层B预测得到阅读时长指标的第一推荐值(图5中所示的时长分值),基于训练样本对应于点击率指标的第一推荐值和标注标签,可以计算点击率指标对应的第一损失值loss_ctr,也就是前文表达式(1)或(2)中的loss1,基于训练样本对应于阅读时长指标的第一推荐值和标注标签,可以计算阅读时长指标对应的第二损失值loss_time,也就是前文表达式(1)或(2)中的loss2。

对于每个训练样本,可以将该样本的目标信息或者是将目标信息向量化处理后的特征(图5中所示的用户活跃度特征),输入至独立的第一网络模型的特征提取网络中进行学习,将学习得到的特征经过一层门控网络学习得到对应于点击率指标的损失修正系数s

对于每个训练样本,可以通过前文中的表达式(1)或表达式(2)计算得到每个样本的训练损失值。本实施例中一个训练一个训练样本的训练损失值可以表示为:

Loss=loss_ctr*s

或者,

Loss=loss_ctr*(1/2s

可选的,点击率指标对应标注标签可以是二分类即点击或非点击标签,点击对应的标签可以是1,非点击对应的标签可以是0,如果一个训练样本的标签是1,则表示样本对象会点击样本推荐信息,该指标对应的损失函数可以采用交叉熵损失函数。阅读时长指标可以是一个具体时长,该标签对应的算是函数可以是MSE(mean-square error,均方误差)损失函数。

在计算得到每个训练样本的训练损失值之后,可以将所有训练样本的训练损失值相加得到神经网络模型的训练总损失。如果训练总损失不满足训练结束条件,则对模型参数进行调整,并重复上述训练过程直至满足训练结束条件,将训练结束时的多任务学习模型作为多目标预测模型。本申请提供的模型训练方式,通过用户活跃度门控和多任务学习模型的相互作用,实现了针对人群的因人而异的多目标倾向优化模型,实现了基于用户活跃度(即上述目标信息)的自适应训练。

在得到训练好的多目标预测模型之后,则可以投入到线上使用,具体的,应用服务器20可以通过调用训练好的该模型,基于目标用户的用户画像和各个待推荐新闻,从多个待推荐新闻中确定出可以向该目标用户推荐的至少一个目标新闻,并将各目标新闻推荐给该用户。

图6中示出了本实施例中提供的一种可选的确定目标新闻的流程示意图,如图6中所示,用户画像即为目标对象的对象信息,内容池为新闻数据库,其中存储有大量的新闻。本实施例的新闻推荐系统可以包括用户画像模型、召回模块、多指标预估模型和重排模型,其中,用户画像模型用户获取目标用户的用户画像,召回模块从内容池中筛选好粗排的文章即新闻后输出给多指标预估模块,多指标预估模块通过预测各个粗排后的各个文章的第二推荐值对这些召回的文章进行精排序,再经过重排模块按照其他排序策略进行排序后,最终推荐给用户。下面结合这几个模型对确定最终推荐给用户的文章的流程进行说明:

步骤S61,通过召回模块进行待推荐新闻的召回。

可选的,可以基于用户的喜好,或者按照内容池中新闻的热度,从中筛选出热度较高的预设数量的新闻,作为待推荐新闻。

步骤S62:多指标预估,即多指标预估模块通过调用训练好的多目标预测模型,基于用户画像,预测每个待推荐新闻的对应于点击率指标的第一推荐值、以及对应于阅读时长指标的第一推荐值,通过将两个指标的推荐值进行融合,得到每个待推荐新闻的第二推荐值,并根据第二推荐值由大到小的顺序,对各个待推荐新闻进行排序,根据排序结果从中筛选出指定数量的目标信息新闻,即根据第二推荐值进行新闻的精选。

可选的,待推荐新闻可以包含多个类型的新闻,可以是按照第二推荐值由大到小对各个待推荐新闻进行排序后,可以按照排序的先后,对于每个新闻类型,都筛选出一定数量的目标信息。

步骤63:对筛选出的多个目标信息按照预设策略进行重排,比如,可以对每个目标新闻的内容样式进行混排,将重排后的目标信息推荐给目标用户,即发送到目标用户的用户终端,以通过该新闻类APP的客户端展示该目标用户。

在整个推荐过程当中,多指标预估模块起到了举足轻重的作用。该预估模块依赖于多目标预测模块(也可以称为排序模块),多目标预测模块的优劣决定了推荐结果的准确性。本申请实施例采用的多目标预测模型,可以因人群而异,可以使得一部分人群力求的是保阅读数量的同时,增加总阅读时长,另一部分人群力求的是保总阅读时长的同时,增加阅读数量。从而实现了针对不同确认的全人群优化效果,对于上述应用场景实施例而言,就是新闻类APP的阅读时长指标和阅读数量(点击率)指标的双增长,也实现了更好的用户个性化推荐。

可以理解的是,本申请实施例的方案,可以应用于包括但不限于上述新闻推荐场景中,也适用于其他的推荐场景中的目标推荐信息的筛选。

基于与本申请实施例提供的方法相同的原理,本申请实施例还提供了一种信息推荐装置,如图7中所示,该信息推荐装置100可以包括信息获取模块110、推荐值确定模块120和目标信息确定模块130。其中:

信息获取模块110,用于获取第一应用的目标对象的对象信息以及至少一个待推荐信息;

推荐值确定模块120,用于对于每个待推荐信息,基于目标对象的对象信息和该待推荐信息,通过多目标预测模型,预测得到该待推荐信息对应于至少两个推荐评估指标中每个评估指标的第一推荐值,以及通过融合该待推荐信息对应的各第一推荐值,得到该待推荐信息的第二推荐值;

目标信息确定模块130,用于根据各待推荐信息的第二推荐值,从至少一个待推荐信息中确定目标对象的目标推荐信息;

其中,多目标预测模型是基于多个训练样本和模型的目标损失函数对神经网络模型进行训练得到的,目标损失函数包括对应于各评估指标的损失函数,每个评估指标的损失函数的值是根据多个训练样本对应于该评估指标的训练损失值和损失修正系数确定的;

一个训练样本包括一个样本对象的样本数据,该样本对应的各评估指标的损失修正系数是基于该样本的样本数据中包含的目标信息确定的,目标信息包括样本对象对应于第二应用的使用行为信息。

可选的,上述一个样本对象的样本数据包括该样本对象的模型输入数据、该模型输入数据对应于各评估指标的标注标签、以及该对象的目标信息,模型输入数据包括样本对象信息和样本推荐信息;神经网络模型包括多任务学习模型和第一网络模型;上述多目标预测模型是由模型训练装置通过以下方式训练得到的:

基于各训练样本对神经网络模型重复执行以下操作,直至训练总损失值满足训练结束条件,将训练结束时的多任务学习模型确定为多目标预测模型:

对于每个训练样本,将每个训练样本的模型输入数据输入至多任务学习模型中,得到该样本对应于各评估指标的预测推荐值,将该样本的目标信息输入至第一网络模型中,得到该样本对应于各评估指标的损失修正系数;

对于每个训练样本,基于该样本对应于每个评估指标的预测推荐值和标注标签,确定该样本对应于每个评估指标的损失函数的训练损失值,基于该样本对应于各评估指标的训练损失值和损失修正系数,确定该样本的训练损失值;

基于各训练样本的训练损失值,确定训练总损失值,若训练总损失值不满足训练结束条件,则调整神经网络模型的模型参数。

可选的,一个训练样本对应于一个评估指标的损失修正系数表征了该样本与该评估指标的关联性;对于每个训练样本,模型训练装置在确定该样本的训练损失值时用于:

将该样本对应于各评估指标的损失修正系数,分别作为各个评估指标的训练损失值的第一权重,对该样本对应于各评估指标的训练损失值进行加权求和,得到该样本的训练损失值。

可选的,一个训练样本对应于一个评估指标的损失修正系数表征了该样本是该评估指标的噪声样本的可能性;对于每个训练样本,模型训练装置在确定该样本的训练损失值时用于:

对于每个评估指标,基于该样本对应于该评估指标的训练修正系数,确定该样本对应于该评估指标的训练损失值的第二权重,其中,第二权重与训练修正系数成负相关;

基于该样本对应于各评估指标的第二权重,对该样本对应于各评估指标的训练损失值进行加权;

基于该样本对应于各评估指标的加权后的训练损失值,确定该样本的训练损失值。

可选的,目标损失函数还包括正则修正项,对于每个训练样本,对于每个训练样本,模型训练装置在确定该样本的训练损失值时用于:

基于该样本对应于各评估指标的训练修正系数,确定该样本的正则修正项的值;

基于该样本对应于各评估指标的加权后的训练损失值、以及正则修正项,确定该样本的训练损失值。

可选的,正则修正项的表达式为:logS,其中,S表示各评估指标对应的训练修正系数的乘积。

可选的,多目标预测型包括对应于每个评估指标的第二网络模型;对于每个待推荐信息,推荐值确定模块可以用于:

获取目标对象的对象信息的第一信息特征、以及该待推荐信息的第二信息特征;将第一信息特征和第二信息特征拼接,将拼接后的信息特征分别输入至各评估指标的第二网络模型中,通过每个评估指标的第二网络模型预测得到该待推荐信息对应于该评估指标的第一推荐值。

可选的,每个第二网络模型包括第一特征提取层、至少两个第二特征提取层、特征融合层和推荐值预测层;对于每个评估指标,该评估指标对应的第二网络模型通过执行以下操作得到一个待推荐信息对应于该评估指标的预测推荐值:

通过第一特征提取层对该待推荐信息的拼接后的特征进行特征提取,得到第一特征,通过至少一个第二特征提取层对该待推荐信息的拼接后的特征进行特征提取,得到对应于每个第二特征提取层的第二特征;

通过特征融合层,分别确定每个第二特征与第一特征的匹配度,基于匹配度对对应的第二特征进行加权,并对加权后的各第二特征进行融合,得到融合后的特征;

基于融合后的特征,通过推荐值预测层得到该待推荐信息对应于该评估指标的第一推荐值。

可选的,待推荐信息包括多媒体信息,至少两个评估指标包括信息阅读时长和信息点击率。

可选的,一个样本对象对应于第二应用的使用行为信息包括以下至少一项:

该样本对象访问第二应用的访问频率;

通过第二应用向该样本对象推荐的推荐信息量;

该样本对象在第二应用中的推荐信息阅读量;

该样本对象对第二应用的使用时长;

该样本对象针对第二应用中的推荐信息的交互行为信息。

本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。

基于与本申请实施例提供的信息推荐方法及装置相同的原理,本申请实施例中还提供了一种电子设备(如服务器),该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

可选的,图8示出了本申请实施例所适用的一种电子设备的结构示意图,如图8所示,图8所示的电子设备4000包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

相关技术
  • 用户推荐方法、装置、电子设备和计算机可读存储介质
  • 信息处理方法和装置、电子设备、计算机可读存储介质
  • 信息处理方法、装置、电子设备及计算机可读存储介质
  • 信息推送方法、装置、电子设备及计算机可读存储介质
  • 信息处理方法、装置、电子设备及计算机可读存储介质
  • 信息推荐方法、装置、电子设备及计算机可读存储介质
  • 信息推荐方法、装置、电子设备及计算机可读存储介质
技术分类

06120115802259