用于信息推荐的模型训练方法、装置、电子设备以及介质
文献发布时间:2023-06-19 11:22:42
技术领域
本公开涉及网络信息交互技术领域,特别是涉及一种用于信息推荐的模型训练方法、装置、电子设备以及介质。
背景技术
目前,很多网络应用都会向用户推荐一些多媒体作品。例如:视频应用网站会根据用户对视频的点击的操作历史信息,向用户推荐与其看过的视频同一类或相关类的多媒体作品。例如:用户经常观看汽车类相关视频,则电子设备可以向用户推荐汽车类的相关视频或广告信息等等。
目前,电子设备可以根据用户的操作信息,对推荐模型进行训练,然后根据用户的操作信息和训练后的推荐模型,向用户推荐多媒体作品,例如视频、广告或者商品等等。
可见,相关技术中训练出的网络模型,仅通过用户的操作信息判断是否推荐某类多媒体作品,在训练网络模型时,也仅通过用户以往点击该类多媒体作品的操作信息进行训练。电子设备获取的操作信息包括操作的地点、时间和页面类型,这些信息不足以体现用户的喜好,因此,利用这些信息训练后的推荐模型的推荐结果不够准确。
发明内容
本公开实施例的目的在于提供一种用于信息推荐的模型训练方法、装置、电子设备以及介质,以使得推荐模型可以更准确的向用户推荐多媒体作品。具体技术方案如下:
根据本公开实施例的第一方面,提供了一种用于信息推荐的模型训练方法,所述方法应用于电子设备,所述方法包括:
将预先确定的训练样本集输入第一推荐模型,获取所述第一推荐模型对作品信息的预估推荐结果,其中,所述训练样本集中至少包括多媒体样本作品的邻近信息,所述多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息;
基于所述预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集,以对第二推荐模型进行训练,得到在线推荐模型,其中,所述在线推荐模型用于在接收到用户的推荐请求后,响应所述推荐请求,生成对应所述用户的、对多媒体作品库中作品的推荐参数。
可选的,所述基于所述预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集步骤,包括:
根据所述预估推荐结果和预设推荐结果,计算基准推荐结果,根据所述基准推荐结果和所述第一推荐模型的训练样本集,生成第二推荐模型的训练样本集。
可选的,所述根据所述预估推荐结果和预设推荐结果,计算基准推荐结果步骤,包括:
采用如下公式计算基准推荐结果:
L=a*yl+(1-a)*yt,所述L为所述基准推荐结果,所述yl为所述预设推荐结果,所述yt为所述预估推荐结果,所述a为预设的调整常数,0 可选的, 所述第一推荐模型,包含:第一特征提取层和第一特征计算层; 所述第二推荐模型,包含:第二特征提取层和第二特征计算层; 所述预先确定的训练样本集,还包含:用户对所述当前多媒体样本作品的操作数据; 将预先确定的训练样本集输入第一推荐模型,获取所述第一推荐模型对作品信息的预估推荐结果步骤,包括: 将所述邻近信息输入所述第一推荐模型中的第一特征提取层,获得第一特征数据; 将所述多媒体样本作品的操作数据和所述多媒体样本作品的作品信息输入所述第二推荐模型中的第二特征提取层,获得第二特征数据; 将所述第一特征数据和所述第二特征数据输入所述第一推荐模型的第一特征计算层,获得所述第一特征计算层基于所述第一特征数据和所述第二特征数据,计算并输出的预估推荐结果。 可选的,所述基于所述预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集,以对第二推荐模型进行训练,得到在线推荐模型步骤,包括: 基于所述基准推荐结果和所述第二特征数据,根据预设的与第二推荐模型对应的第二损失函数,对所述第二推荐模型中的第二特征提取层和/或第二特征计算层的网络参数进行调整,将调整参数后的第二推荐模型作为在线推荐模型。 可选的,在所述将预先确定的训练样本集输入第一推荐模型,获取所述第一推荐模型对作品信息的预估推荐结果之后,所述方法还包括: 基于所述预估推荐结果和预设推荐结果,根据预设的与第一推荐模型对应的第一损失函数,对所述第一推荐模型的模型参数进行调整,将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。 可选的,所述基于所述预估推荐结果和预设推荐结果,根据预设的与第一推荐模型对应的第一损失函数,对所述第一推荐模型的模型参数进行调整,将调整参数后的第一推荐模型作为本次训练后的第一推荐模型步骤,包括: 基于所述预估推荐结果和预设推荐结果,根据预设的与第一推荐模型对应的第一损失函数,对所述第一推荐模型的中的第一特征提取层和/或第一特征计算层的网络参数进行调整,将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。 可选的,将预先确定的训练样本集输入第一推荐模型之前,所述方法还包括: 获取用户的操作日志,所述操作日志包括当前推荐多媒体样本作品在当前推荐页面中的位置信息,以及所述当前推荐多媒体样本作品在上述操作日志中,之前和之后的多媒体样本作品在当前推荐页面中的位置信息; 基于所述操作日志,生成所述预先确定的训练样本集。 根据本公开实施例的第二方面,提供了一种用于信息推荐的模型训练装置,所述装置应用于电子设备,所述装置包括: 输入单元,被配置为执行将预先确定的训练样本集输入第一推荐模型,获取所述第一推荐模型对作品信息的预估推荐结果,其中,所述训练样本集中至少包括多媒体样本作品的邻近信息,所述多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息; 训练单元,被配置为执行基于所述预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集,以对第二推荐模型进行训练,得到在线推荐模型,其中,所述在线推荐模型用于在接收到用户的推荐请求后,响应所述推荐请求,生成对应所述用户的、对多媒体作品库中作品的推荐参数。 可选的,所述训练单元,具体被配置为执行: 根据所述预估推荐结果和预设推荐结果,计算基准推荐结果,根据所述基准推荐结果和所述第一推荐模型的训练样本集,生成第二推荐模型的训练样本集。 可选的,所述训练单元,具体被配置为执行: 采用如下公式计算基准推荐结果: L=a*yl+(1-a)*yt,所述L为所述基准推荐结果,所述yl为所述预设推荐结果,所述yt为所述预估推荐结果,所述a为预设的调整常数,0 可选的, 所述第一推荐模型,包含:第一特征提取层和第一特征计算层; 所述第二推荐模型,包含:第二特征提取层和第二特征计算层; 所述预先确定的训练样本集,还包含:用户对所述当前多媒体样本作品的操作数据; 所述输入单元,具体被配置为执行: 将所述邻近信息输入所述第一推荐模型中的第一特征提取层,获得第一特征数据; 将所述多媒体样本作品的操作数据和所述多媒体样本作品的作品信息输入所述第二推荐模型中的第二特征提取层,获得第二特征数据; 将所述第一特征数据和所述第二特征数据输入所述第一推荐模型的第一特征计算层,获得所述第一特征计算层基于所述第一特征数据和所述第二特征数据,计算并输出的预估推荐结果。 可选的,所述训练单元,具体被配置为执行: 基于所述基准推荐结果和所述第二特征数据,根据预设的与第二推荐模型对应的第二损失函数,对所述第二推荐模型中的第二特征提取层和/或第二特征计算层的网络参数进行调整,将调整参数后的第二推荐模型作为在线推荐模型。 可选的,所述装置还包括:调整单元; 所述调整单元,被配置为执行基于所述预估推荐结果和预设推荐结果,根据预设的与第一推荐模型对应的第一损失函数,对所述第一推荐模型的模型参数进行调整,将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。 可选的,所述调整单元,具体被配置为执行: 基于所述预估推荐结果和预设推荐结果,根据预设的与第一推荐模型对应的第一损失函数,对所述第一推荐模型的中的第一特征提取层和/或第一特征计算层的网络参数进行调整,将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。 可选的,所述装置还包括:获取单元和生成单元; 所述获取单元,被配置为执行获取用户的操作日志,所述操作日志包括当前推荐多媒体样本作品在当前推荐页面中的位置信息,以及所述当前推荐多媒体样本作品在上述操作日志中,之前和之后的多媒体样本作品在当前推荐页面中的位置信息; 所述生成单元,被配置为执行基于所述操作日志,生成所述预先确定的训练样本集。 根据本公开实施例的第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信; 存储器,用于存放计算机程序; 处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。 根据本公开实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。 根据本公开实施例的第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。 本公开实施例提供的一种用于信息推荐的模型训练的方法及装置,电子设备可以将预先确定的训练样本集输入第一推荐模型,获取第一推荐模型对作品信息的预估推荐结果,并基于预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集,以对第二推荐模型进行训练,得到在线推荐模型。通过本公开实施例,电子设备可以在训练第二推荐模型时通过带有邻近信息的预估推荐结果影响第二推荐模型,以使得训练后的第二推荐模型可以更准确的向用户推荐多媒体作品。 当然,实施本公开的任一产品或方法并不一定需要同时达到以上所述的所有优点。 附图说明 为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1为本公开实施例提供的一种用于信息推荐的模型训练的方法流程图; 图2为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图; 图3为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图; 图4为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图; 图5为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图; 图6为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图; 图7为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图; 图8为本公开实施例提供的一种用于信息推荐的模型训练的方法流程示意图; 图9为本公开实施例提供的一种用于信息推荐的模型训练的装置的结构示意图; 图10为本公开实施例提供的一种电子设备的结构示意图。 具体实施方式 为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。 需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。 本公开实施例公开了一种用于信息推荐的模型训练方法,该方法应用于电子设备,其中,电子设备中可以包括移动终端、个人计算机(Personal Computer,PC)终端或者服务器等。电子设备可以根据用户输入的指令,打开该指令对应的应用程序。其中,应用程序中可以包含第一推荐模型和第二推荐模型。 第一推荐模型和第二推荐模型为算法模型,第二推荐模型用于在线预估是否推荐各多媒体作品,第一推荐模型用于在离线状态下基于训练集进行训练,第一推荐模型的输出结果可用于第二推荐模型的离线训练过程。当电子设备向第一推荐模型或者第二推荐模型输入用户行为相关的数据时,第一推荐模型或者第二推荐模型可以输出该用户行为相关的数据对应的推荐结果。 多媒体作品为电子设备中某一应用程序中的对象。例如,多媒体可以为视频软件中的视频、社交软件中的图片、阅读软件中的文章或者购物软件中的商品等。 下面将结合具体实施方式,对本公开实施例提供的一种用于信息推荐的模型训练方法进行详细的说明,如图1所示,具体步骤如下: 步骤101、将预先确定的训练样本集输入第一推荐模型,获取第一推荐模型对作品信息的预估推荐结果。 其中,训练样本集中至少包括多媒体样本作品的邻近信息,多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息。 预估推荐结果用于表示多媒体作品是否被推荐的概率,一般用0到1的数值表示,其中,1可以表示推荐概率最大,0可以表示推荐概率最小,例如,若多媒体作品的预估推荐概率为0.9,则电子设备可以向用户推荐该多媒体作品,若多媒体作品的预估推荐概率为0.1,则电子设备可以不向用户推荐该多媒体作品。 步骤102、基于预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集,以对第二推荐模型进行训练,得到在线推荐模型。 其中,在线推荐模型用于在接收到用户的推荐请求后,响应推荐请求,生成对应用户的、对多媒体作品库中作品的推荐参数。 本公开实施例提供一种用于信息推荐的模型训练方法,电子设备可以将预先确定的训练样本集输入第一推荐模型,获取第一推荐模型对作品信息的预估推荐结果,并基于预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集,以对第二推荐模型进行训练,得到在线推荐模型。通过本公开实施例,电子设备可以在训练第二推荐模型时通过带有邻近信息的预估推荐结果影响第二推荐模型,以使得训练后的第二推荐模型可以更准确的向用户推荐多媒体作品。 可选地,本申请实施例中,邻近信息可以是指,当前被推荐视频在页面上的序号,例如,推荐给用户20个视频,邻近信息指的是该推荐给用户的20个视频的序号;进一步地,临近信息还可以包括:当前被推荐视频的前三个视频id,后两个视频id。 可选的,如图2所示,针对上述步骤102中,基于预估推荐结果和预先确定的训练样本集,生成第二推荐模型的训练样本集步骤,电子设备具体可以执行为: 步骤1021、根据预估推荐结果和预设推荐结果,计算基准推荐结果,根据基准推荐结果和第一推荐模型的训练样本集,生成第二推荐模型的训练样本集。 其中,基准推荐结果可以作为第二推荐模型的训练样本集中的标注,由于基准推荐结果是根据预估推荐结果和预设推荐结果计算得到的,而预估推荐结果是第一推荐模型至少基于多媒体样本作品的邻近信息输出的推荐结果。 因此,电子设备在基于第二推荐模型的训练样本集对第二推荐模型进行训练时,可以使得第二推荐模型的网络参数被邻近信息所影响,进而使得训练后的第二推荐模型的推荐结果更准确。 可选的,针对上述步骤1021中,根据预估推荐结果和预设推荐结果,计算基准推荐结果步骤,电子设备具体可以执行为: 采用如下公式计算基准推荐结果: L=a*yl+(1-a)*yt
- 用于信息推荐的模型训练方法、装置、电子设备以及介质
- 信息推荐模型的训练方法、装置、电子设备及存储介质