掌桥专利:专业的专利平台
掌桥专利
首页

推荐模型的预训练方法、调整方法、推荐方法及相关产品

文献发布时间:2024-04-18 19:58:30


推荐模型的预训练方法、调整方法、推荐方法及相关产品

技术领域

本申请涉及多领域推荐技术领域,尤其涉及一种推荐模型的预训练方法、调整方法、推荐方法及相关产品。

背景技术

在多领域推荐(MDR,multi-domain recommendation)技术领域中,推荐模型的训练和构建方案取得了很大进展,完成构建后的推荐模型可以用于对对象进行预测,以便为对象推荐其感兴趣的内容。然而现有的推荐模型训练方案大多选择以文本信息作为跨领域的桥梁,而忽略了其他模态信息的重要价值,例如,图像信息是许多领域中内容的主要信息源。这导致相关技术中训练得到的一些推荐模型面临的训练数据集中的模态信息不充分,进而导致了存在模型稳健性不足的情况。

由此,如何提高推荐模型的稳健性,已经成为当前领域亟待解决的技术问题。

发明内容

本申请实施例提供了一种推荐模型的预训练方法、调整方法、推荐方法及相关产品,旨在提高推荐模型的稳健性。

本申请第一方面提供了一种推荐模型的预训练方法,包括:

获取对象的单源域行为序列;所述单源域行为序列包括同一源域的多个内容,且所述多个内容依照受所述对象触发的时间由先到后排序;

获取所述单源域行为序列中的内容对应的多模态信息;所述多模态信息包括至少两种不同模态的信息;

将内容对应的多模态信息作为待训练推荐模型的输入,通过所述待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;

根据所述单源域行为序列中内容的排序,以及所述单源域行为序列中各内容分别在所述多域通用内容表示空间中的多模态向量表示,获得所述对象在所述单源域行为序列所属源域的行为向量表示;

由所述待训练推荐模型基于所述行为向量表示,预测所述对象触发所述单源域行为序列的末尾内容之后触发的首个相同源域的内容;

根据预测触发的首个相同源域的内容和所述对象在所述单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整所述待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型。

本申请第二方面提供了一种模型调整方法,用于通过第一方面预训练得到的初步推荐模型进行调整,以实现所述初步推荐模型从源域向目标域的迁移,包括:

获取目标对象的多域混合流行为序列;所述多域混合流行为序列包括多个领域的多个内容,且所述多个领域的多个内容依照受所述目标对象触发的时间由先到后排序;所述多域混合流行为序列涉及的多个领域中包括所述目标域;

基于所述多域混合流行为序列中的各内容对应的多模态信息,通过所述初步推荐模型,分别获得所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

根据所述多域混合流行为序列中的各内容的排序,以及所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述目标对象在所述多域混合流行为序列对应的多域混合流行为向量表示;

由所述初步推荐模型基于所述多域混合流行为向量表示,预测所述目标对象触发所述多域混合流行为序列的末尾内容之后,触发的首个所述目标域的内容;

根据预测触发的所述目标域的内容和所述目标对象在所述多域混合流行为序列的末尾内容之后,实际触发的首个所述目标域的内容的差别,迭代调整所述初步推荐模型的参数,直至模型调整好满足预设微调截止条件,结束调整得到目标推荐模型。

本申请第三方面提供了一种推荐方法,用于通过第二方面获得的目标推荐模型进行推荐,包括:

获取待推荐对象的历史行为序列,所述历史行为序列中至少包含隶属于所述目标域的内容,且所述历史行为序列中的各内容依照受所述待推荐对象触发的时间由先到后排序;

基于所述历史行为序列中的各内容对应的多模态信息,通过所述目标推荐模型,分别获得所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

根据所述历史行为序列中的各内容的排序,以及所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述待推荐对象在所述历史行为序列对应的历史行为向量表示;

由所述目标推荐模型基于所述历史行为向量表示,预测所述待推荐对象触发所述历史行为序列的末尾内容之后,触发的首个所述目标域的内容;

向所述待推荐对象推荐所述目标推荐模型预测出的首个所述目标域的内容。

本申请第四方面提供了一种推荐模型的预训练装置,包括:

行为序列获取模块,用于获取对象的单源域行为序列;所述单源域行为序列包括同一源域的多个内容,且所述多个内容依照受所述对象触发的时间由先到后排序;

多模态信息获取模块,用于获取所述单源域行为序列中的内容对应的多模态信息;所述多模态信息包括至少两种不同模态的信息;

信息输入确定模块,用于将内容对应的多模态信息作为待训练推荐模型的输入,通过所述待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;

行为表示构造模块,用于根据所述单源域行为序列中内容的排序,以及所述单源域行为序列中各内容分别在所述多域通用内容表示空间中的多模态向量表示,获得所述对象在所述单源域行为序列所属源域的行为向量表示;

相同源域内容预测模块,用于由所述待训练推荐模型基于所述行为向量表示,预测所述对象触发所述单源域行为序列的末尾内容之后触发的首个相同源域的内容;

初步推荐模型获得模块,用于根据预测触发的首个相同源域的内容和所述对象在所述单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整所述待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型。

本申请第五方面提供了一种模型调整装置,包括:

混合流行为序列获取模块,用于获取目标对象的多域混合流行为序列;所述多域混合流行为序列包括多个领域的多个内容,且所述多个领域的多个内容依照受所述目标对象触发的时间由先到后排序;所述多域混合流行为序列涉及的多个领域中包括所述目标域;

多模态向量表示获得模块,用于基于所述多域混合流行为序列中的各内容对应的多模态信息,通过所述初步推荐模型,分别获得所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

混合流行为向量表示获得模块,用于根据所述多域混合流行为序列中的各内容的排序,以及所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述目标对象在所述多域混合流行为序列对应的多域混合流行为向量表示;

目标域内容预测模块,用于由所述初步推荐模型基于所述多域混合流行为向量表示,预测所述目标对象触发所述多域混合流行为序列的末尾内容之后,触发的首个所述目标域的内容;

目标推荐模型获得模块,用于根据预测触发的所述目标域的内容和所述目标对象在所述多域混合流行为序列的末尾内容之后,实际触发的首个所述目标域的内容的差别,迭代调整所述初步推荐模型的参数,直至模型调整好满足预设微调截止条件,结束调整得到目标推荐模型。

本申请第六方面提供了一种推荐装置,包括:

历史行为序列获取模块,用于获取待推荐对象的历史行为序列,所述历史行为序列中至少包含隶属于所述目标域的内容,且所述历史行为序列中的各内容依照受所述待推荐对象触发的时间由先到后排序;

历史多模态向量表示获得模块,用于基于所述历史行为序列中的各内容对应的多模态信息,通过所述目标推荐模型,分别获得所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

历史行为向量表示获得模块,用于根据所述历史行为序列中的各内容的排序,以及所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述待推荐对象在所述历史行为序列对应的历史行为向量表示;

历史目标域内容预测模块,用于由所述目标推荐模型基于所述历史行为向量表示,预测所述待推荐对象触发所述历史行为序列的末尾内容之后,触发的首个所述目标域的内容;

目标域内容推荐模块,用于向所述待推荐对象推荐所述目标推荐模型预测出的首个所述目标域的内容。

本申请第七方面提供了一种计算机设备,所述设备包括处理器以及存储器:

所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;

所述处理器用于根据所述计算机程序中的指令执行第一方面提供的推荐模型的预训练方法的步骤,或者执行第二方面提供的模型调整方法的步骤,或者执行第三方面提供的推荐方法的步骤。

本申请第八方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被计算机设备执行时实现第一方面提供的推荐模型的预训练方法的步骤,或者执行第二方面提供的模型调整方法的步骤,或者执行第三方面提供的推荐方法的步骤。

本申请第九方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被计算机设备执行时实现第一方面提供的推荐模型的预训练方法的步骤,或者执行第二方面提供的模型调整方法的步骤,或者执行第三方面提供的推荐方法的步骤。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请技术方案中首先获取对象的单源域行为序列,以及获取单源域行为序列中的内容对应的多模态信息,其中多模态信息包括至少两种不同模态的信息;在模型预训练之初,将内容对应的多模态信息作为待训练推荐模型的输入,以通过待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;在模型预训练期间,根据单源域行为序列中内容的排序,以及单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示,获得对象在单源域行为序列所属源域的行为向量表示;如此,以便由待训练推荐模型基于行为向量表示,预测对象触发单源域行为序列的末尾内容之后触发的首个相同源域的内容,最后根据预测触发的首个相同源域的内容和对象在单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型。结合上述模型预训练过程可知,在本申请中采用了至少两种不同模态的信息,使各种模态的信息可以相互补充,以构建充分的训练数据集,从而使得预训练后得到的模型可以更具备稳健性。并且利用预训练技术学习内容以及行为序列可以更具备通用性和鲁棒性,可以将初步推荐模型进行有效迁移,便于后续对初步推荐模型模型进行微调,进而实现模型预测并推荐的最佳性能。

附图说明

图1为本申请实施例提供的相关技术中多领域模态信息的示意图;

图2为本申请实施例中提供的一种推荐模型的预训练方法、调整方法、推荐方法的场景架构图;

图3为本申请实施例提供的一种实际应用场景中推荐模型的预训练方法的流程图;

图4为本申请实施例提供的一种推荐模型的预训练方法的流程图;

图5为本申请实施例提供的一种推荐模型的结构示意图;

图6为本申请实施例提供的一种推荐模型的多模态内容表示构造器的结构示意图;

图7为本申请实施例提供的一种推荐模型的多域映射器的结构示意图;

图8为本申请实施例提供的一种推荐模型的处理示意图;

图9为本申请实施例提供的一种模型调整方法的流程图;

图10为本申请实施例提供的一种调整模型的处理示意图;

图11为本申请实施例提供的一种调整模型的调整示意图;

图12为本申请实施例提供的一种推荐方法的流程图;

图13为本申请实施例提供的实际应用中本方案推荐模型和相关技术模型的增益效果对比图;

图14为本申请实施例提供的推荐模型的预训练装置的结构示意图;

图15为本申请实施例提供的模型调整装置的结构示意图;

图16为本申请实施例提供的推荐装置的结构示意图;

图17为本申请实施例中服务器的一个结构示意图;

图18为本申请实施例中终端设备的一个结构示意图。

具体实施方式

下面结合附图,对本申请的实施例进行描述。

首先对本申请下文的实施例中可能涉及的若干个名词术语进行解释。

多模态:在人工智能领域中,往往指感知信息,如图像、文本、语音等协同,帮人工智能更准确地理解外部世界。

在多领域推荐(MDR,multi-domain recommendation)技术领域中,推荐模型的训练和构建方案取得了很大进展,完成构建后的推荐模型可以用于对对象进行预测,以便为对象推荐其感兴趣的内容。然而现有的推荐模型训练方案大多选择以文本信息作为跨领域的桥梁,而忽略了其他模态信息的重要价值,例如,图像信息是许多领域中内容的主要信息源。

图1为本申请实施例提供的相关技术中多领域模态信息的示意图。如图1所示,很显然在“图书”领域,文本模态的信息比图像模态的信息更为重要,但随着微视频和通信技术的蓬勃发展,图像信息等属于视觉模态的信息逐渐成为许多领域中内容的主要信息源,如在“艺术品、手工品”领域,图像模态的信息是比文本模态的信息更重要的。在此种情况下,若单靠一种模态的信息(即文本模态的信息)进行模型预训练,这势必会导致相关技术中训练得到的一些推荐模型面临的训练数据集中的模态信息不充分,进而导致了存在模型稳健性不足的情况。由此,如何提高推荐模型的稳健性,已经成为当前领域亟待解决的技术问题。

鉴于以上问题,在本申请中提供了一种推荐模型的预训练方法、调整方法、推荐方法及相关产品,目的在于提高推荐模型的稳健性。在本申请提供的技术方案中,首先获取对象的单源域行为序列,以及获取单源域行为序列中的内容对应的多模态信息,其中多模态信息包括至少两种不同模态的信息;在模型预训练之初,将内容对应的多模态信息作为待训练推荐模型的输入,以通过待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;在模型预训练期间,根据单源域行为序列中内容的排序,以及单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示,获得对象在单源域行为序列所属源域的行为向量表示;如此,以便由待训练推荐模型基于行为向量表示,预测对象触发单源域行为序列的末尾内容之后触发的首个相同源域的内容,最后根据预测触发的首个相同源域的内容和对象在单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型。结合上述模型预训练过程可知,在本申请中采用了至少两种不同模态的信息,使各种模态的信息可以相互补充,以构建充分的训练数据集,从而使得预训练后得到的模型可以更具备稳健性。并且利用预训练技术学习内容以及行为序列可以更具备通用性和鲁棒性,可以将初步推荐模型进行有效迁移,便于后续对初步推荐模型模型进行微调,进而实现模型预测并推荐的最佳性能。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请提供的推荐模型的预训练方法、模型调整方法和推荐方法主要涉及机器学习。其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的推荐模型的预训练方法的执行主体可以为终端设备,例如在终端设备上获取对象的单源域行为序列。或者本申请实施例提供的模型调整方法的执行主体可以为终端设备,例如在终端设备上获取目标对象的多域混合流行为序列。或者本申请实施例提供的推荐方法的执行主体可以为终端设备,例如在终端设备上获取待推荐对象的历史行为序列。作为示例,终端设备具体可以包括但不限于手机、台式电脑、平板电脑、笔记本电能、掌上电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例提供的推荐模型的预训练方法的执行主体也可以是服务器,即可以在服务器上获取对象的单源域行为序列。或者本申请实施例提供的模型调整方法的执行主体可以是服务器,例如在终端设备上获取目标对象的多域混合流行为序列。或者本申请实施例提供的推荐方法的执行主体可以是服务器,例如在终端设备上获取待推荐对象的历史行为序列。本申请实施例提供的推荐模型的预训练方法或者模型调整方法或者推荐方法也可以由终端设备和服务器协同执行。故本申请实施例中对于执行本申请技术方案的实现主体不做限定。

图2示例性地展示了一种推荐模型的预训练方法、调整方法、推荐方法的场景架构图。图中包括服务器以及多种形式的终端设备。图1所示的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。另外,服务器还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

为了便于理解本申请实施例提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种推荐模型的预训练方法介绍。

参见图3,图3为本申请实施例提供的一种实际应用场景中推荐模型的预训练方法的示意图,在该实际应用场景中,处理设备为具有模型训练功能的服务器300。

首先,服务器300获取对象的单源域行为序列以及单源域行为序列中内容对应的多模态信息,其中多模态信息包括至少两种不同模态的信息(如A模态信息和B模态信息),单源域行为序列包括同一源域的多个内容(如a内容和b内容,其中a内容对应A模态信息,b内容对应B模态信息),且多个内容受对象触发的时间由先到后排序。为了使多模态信息对应的向量表示可以更具通用性,服务器300将多模态信息(即A模态信息和B模态信息)作为待训练推荐模型的输入,以通过待训练推荐模型处理得到内容在多域通用内容表示空间下的多模态向量表示。然后根据单源域行为序列中内容的排序以及各内容分别在多域通用内容表示空间中的多模态向量表示,获得对象的行为向量表示,以便服务器300可以使待训练推荐模型根据行为向量表示预测对象触发单源域行为序列的末尾内容之后触发的首个相同源域的内容。最后服务器300根据预测触发的首个相同源域的内容和对象在单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型。如此结合上述模型预训练过程可知,在本申请中采用了至少两种不同模态的信息,使各种模态的信息可以相互补充,以构建充分的训练数据集,从而使得预训练后得到的模型可以更具备稳健性。

图4为本申请实施例提供的一种推荐模型的预训练方法的流程图。如图4所示的推荐模型的预训练方法中,包括:

S401:获取对象的单源域行为序列。

该单源域行为序列包括同一源域的多个内容,且多个内容依照受对象触发的时间由先到后排序。比如:多个内容包括内容a、内容b和内容c,内容a的受对象触发时间比内容b的受对象触发时间靠前,内容b的受对象触发时间比内容c的受对象触发时间靠前,那么获取到的对象的单源域行为序列包括{内容a,内容b,内容c}。还需要说明的是,由于对象可以在不同的平台上触发内容,因此在本申请中并不限定于仅在同一个平台上获取受对象触发后产生的内容,其中平台可以包括电商平台,在此不做具体限定。比如:平台1给对象推送内容a的信息,当用户在平台1中点击该内容a的信息时,同时平台1会自动跳转到平台2上以触发内容a。

S402:获取单源域行为序列中的内容对应的多模态信息。

该多模态信息包括至少两种不同模态的信息。比如:模态信息可以为A模态的信息,模态信息也可以为B模态的信息。可以理解的是,多个内容包括内容a、内容b和内容c,内容a对应的多模态信息可以仅包括A模态的信息,内容a对应的多模态信息也可以仅包括B模态的信息,内容a对应的多模态信息还可以包括A模态的信息和B模态的信息,内容b和内容c亦然。需要说明的是,在实际应用中,内容对应的实际多模态信息还需要根据获取的信息而定。如此在本申请中使各种模态信息相互补充,可以更全面地表示内容。

S403:将内容对应的多模态信息作为待训练推荐模型的输入,通过待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示。

该多域通用内容表示空间包括支持对多种源域的内容进行处理得到通用模态向量表示的空间,可以理解的,该多域通用内容空间并不仅限定于对同一种源域的内容进行处理,其中该多域通用内容空间还包括对目标域的内容进行处理,以便在后续模型微调过程中可以通过该多域通用内容空间对目标域中的各内容进行处理获得通用的多模态向量表示,如此使得多模态信息对应的向量表示可以更具通用性,也即通过该多域通过内容空间输出的向量表示可以均被统一识别到。在该阶段中,将内容对应的多模态信息作为待训练推荐模型的输入,以获得内容在多域通用内容表示空间的多模态向量表示。

S404:根据单源域行为序列中内容的排序,以及单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示,获得对象在单源域行为序列所属源域的行为向量表示。

在本步骤中,该行为向量表示包括对多模态向量表示排序后获得的向量表示,具体的,将处理得到的内容在多域通用内容表示空间的多模态向量表示,结合在单源域行为序列中该内容的排序,获得对象在单源域行为序列中所属源域的行为向量表示。

S405:由待训练推荐模型基于行为向量表示,预测对象触发单源域行为序列的末尾内容之后触发的首个相同源域的内容。

在本步骤中,该首个相同源域的内容包括同一源域下除单源域行为序列中内容之外的内容。比如:单源域行为序列中的内容包括内容a、内容b和内容c,内容d为待训练推荐模型预测的内容,其中内容d与内容a、内容b、内容c属于相同源域。如此,利用单源域行为序列下内容处理获得的行为向量表示,来预测不存在单源域行为序列中,但与单源域行为序列中内容属于同一源域的内容,也即,使得该待训练推荐模型通过内容a、内容b和内容c来预测对象将要点击的下一内容是否为内容d。

S406:根据预测触发的首个相同源域的内容和对象在单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型。

可以理解的,在本步骤中,使待推荐训练模型学习预测触发的首个相同源域的内容,和对象在单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,并根据该差别迭代调整待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,最终预训练结束得到初步推荐模型。如此,在本申请中采用了至少两种不同模态的信息,使各种模态的信息可以相互补充,以构建充分的训练数据集,从而使得预训练后得到的模型可以更具备稳健性。

需要说明的是,预训练截止条件包括第一条件和第二条件,其中第一条件为关于预测损失的条件,第二条件为关于对比学习综合损失的条件。第一条件包括预测损失小于第一损失阈值;其中,预测损失为基于预测触发的首个源域的内容和实际触发的首个相同源域的内容的差距得到本申请通过预训练截止。

第二条件包括对比学习综合损失小于第二损失阈值;其中,对比学习综合损失为有关于跨域序列与内容对比学习任务以及有关于跨域序列与序列对比学习任务的损失。在跨域序列与内容对比学习任务中,单源域行为序列的末尾内容之后实际触发的首个相同源域的内容作为正例,与单源域行为序列同一批次输入到模型中的其他单源域行为序列中涉及其他源域的内容作为负例,其用于增强不同域的通用表示的融合与适配。跨域序列与序列对比学习任务中,单源域行为序列对应的数据缺失序列作为正例,与单源域行为序列同一批次输入到模型中的其他源域的单源域行为序列作为负例。数据缺失序列为通过随机丢弃单源域行为序列中的内容得到的,或者数据缺失序列为随机丢弃单源域行为序列中的内容对应的一种或多种模态信息得到的。可以理解的,可以丢弃单源域行为序列中的内容对应的文本模态信息,或者可以丢弃单源域行为序列中的内容对应的图像模态信息。

在一种可实现的实施方式中,对比学习综合损失可以使用损失函数

其中,

具体的,第一损失函数

其中,第一损失函数

接下来介绍待训练推荐模型的具体构造。图5为本申请实施例提供的一种推荐模型的结构示意图,如图5所示。

待训练推荐模型包括内容表示构造模块、行为表示构造模块和预测模块,行为表示构造模块的输入端和输出端分别连接内容表示构造模块的输出端和预测模块的输入端。其中,内容表示构造模块负责完成多模态向量表示处理任务,其具体用于在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;行为表示构造模块负责行为向量表示的获得任务,其具体用于根据单源域行为序列中内容的排序,以及单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示,获得对象在单源域行为序列所属源域的行为向量表示;预测模块负责内容的预测任务,其具体用于基于行为向量表示,预测对象触发单源域行为序列的末尾内容之后触发的首个相同源域的内容,并在预训练截止条件不满足时,反向传播调整行为表示构造模块和/或内容表示构造模块的参数。

进一步的,内容表示构造模块包括多模态内容表示构造器和多域映射器。步骤S403(将内容对应的多模态信息作为待训练推荐模型的输入,通过待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示)包括以下步骤SA1-SA2(需要说明的是,步骤SA1-SA2未在附图中示出):

SA1:将内容对应的多模态信息输入至多模态内容表示构造器中,通过多模态内容表示构造器对多模态信息进行联合表征学习,得到内容在所属源域的多模态表示。

接下来结合图6来说明步骤SA1。图6为本申请实施例提供的一种推荐模型的多模态内容表示构造器的结构示意图,如图6所示。多模态内容表示构造器包括视觉与语言联合表征模型以及适应层,适应层包括图像模态自注意力模块、文本模态自注意力模块以及图像文本跨模态自注意力模块,其中至少两种不同模态的信息包括图像模态信息和文本模态信息。在图6中,将图像模态信息用A1表示,将文本模态信息用A2表示。

可以理解的,将内容对应的图像模态信息A1和文本模态信息A2共同输入到视觉与语言联合表征模型中,以通过视觉与语言联合表征模型对图像模态信息A1和文本模态信息A2进行联合表征学习,得到内容在所属源域的第一图像模态向量表示B1和第一文本模态向量表示B2,其中视觉与语言联合表征模型可以包括VilBERT模型,在此不做具体限定,在实际应用中可以采用其他可以实现将视觉与语言联合表征的模型。

在获得第一图像模态向量表示B1和第一文本模态向量表示B2之后,通过适应层中的图像模态自注意力模块学习第一图像模态向量表示B1,得到图像模态自注意力模块输出的内容在所属源域的第二图像模态向量表示C1;通过适应层中的图像文本跨模态自注意力模块联合学习第一图像模态向量表示B1和第一文本模态向量表示B2,得到图像文本跨模态自注意力模块输出的内容在所属源域的第一跨模态向量表示C1C2,以及通过适应层中的文本模态自注意力模块学习第一文本模态向量表示B2,得到文本模态自注意力模块输出的内容在所属源域的第二文本模态向量表示C2。如此,在多模态内容表示构造器包括视觉与语言联合表征模型以及适应层时,内容在所属源域的多模态表示包括第二图像模态向量表示、第二文本模态向量表示和第一跨模态向量表示。

在一种可实现的实施方式中,多模态内容表示构造器包括视觉与语言联合表征模型,具体实现方式与上述过程无异,区别仅在于在此种实现方式中不需要适应层的协作,也可得到多模态向量表示。如此,在多模态内容表示构造器包括视觉与语言联合表征模型时,内容在所属源域的多模态表示包括第一图像模态向量表示和第一文本模态向量表示。具体的,将内容对应的图像模态信息和文本模态信息共同输入到视觉与语言联合表征模型中,以通过视觉与语言联合表征模型对图像模态信息和文本模态信息进行联合表征学习,得到内容在所属源域的第一图像模态向量表示和第一文本模态向量表示。需要说明的是,在得到第一图像模态向量表示和第一文本模态向量表示之后可直接输入到内容表示构造模块的多域映射器中,其获得的多模态向量表示与将第二图像模态向量表示、第二文本模态向量表示和第一跨模态向量表示输入到内容表示构造模块的多域映射器中获得的多模态向量表示相同。

在另一种可实现的实施方式中,可以通过以下公式来获得通过视觉与语言联合表征模型对图像模态信息和文本模态信息进行联合表征学习后,获得的第一图像模态向量表示和第一文本模态向量表示。公式表示如下(在该公式中,所使用的视觉与语言联合表征模型为VilBERT模型):

x

其中,x

SA2:通过多域映射器将多模态表示映射到多域通用内容表示空间,得到内容在多域通用内容表示空间的多模态向量表示。

接下来结合图7来说明步骤SA2。图7为本申请实施例提供的一种推荐模型的多域映射器的结构示意图,如图7所示。多域映射器包括映射层、拼接层和多层感知机。首先通过多域映射器,将内容在所属源域的第二图像模态向量表示C1映射到多域通用内容表示空间,得到第一映射结果E1;将内容在所属源域的第一跨模态向量表示C1C2映射到多域通用内容表示空间,得到第三映射结果E1E2;以及将内容在所属源域的第二文本模态向量表示C2映射到多域通用内容表示空间,得到第二映射结果E2。具体的,映射层包括白化层和混合专家网络层,白化层包括分别对应于图像模态、文本模态和图像文本跨模态的第一白化模块、第二白化模块和第三白化模块;混合专家网络层包括分别对应于图像模态、文本模态和图像文本跨模态的第一混合专家网络、第二混合专家网络和第三混合专家网络;第一混合专家网络、第二混合专家网络和第三混合专家网络均采用面向于多域通用内容表示空间涉及到的多个领域的门控机制;多个领域包括内容所属源域。

进一步的,为了降低参数之间的冗余性以及排除干扰参数信息,通过第一白化模块对第二图像模态向量表示C1进行白化处理,得到第一白化结果D1;通过第三白化模块对第一跨模态向量表示C1C2进行白化处理,得到第三白化结果D1D2;以及通过第二白化模块对第二文本模态向量表示C2进行白化处理,得到第二白化结果D2。

在一种可实现的实施方式中,可以通过以下公式来获得通过白化层处理后得到的白化结果。公式表示如下:

其中,

为了进一步对参数之间差异性较大的参数进行适应性的调整,可以再通过第一混合专家网络通过门控机制对第一白化结果D1进行处理,得到第一映射结果E1;通过第三混合专家网络通过门控机制对第三白化结果D1D1进行处理,得到第三映射结果E1E2;以及通过第二混合专家网络通过门控机制对第二白化结果D2进行处理,得到第二映射结果E2。最后通过拼接层对第一映射结果E1、第三映射结果E1E2和第二映射结果E2依次拼接,得到拼接结果,并通过多层感知机对拼接结果进行降维处理,得到内容在多域通用内容表示空间的多模态向量表示。

在另一种可实现的实施方式中,可以通过以下公式来获得通过混合专家网络层处理后得到的映射结果。公式表示如下:

FFN(x)=(GeLU(xW

其中,v

进一步的,行为表示构造模块包括对象行为编码器。步骤S404(根据单源域行为序列中内容的排序,以及单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示,获得对象在单源域行为序列所属源域的行为向量表示)包括以下步骤SB1-SB3(需要说明的是,步骤SB1-SB3未在附图中示出):

SB1:根据单源域行为序列中内容的排序,得到内容在单源域行为序列中的位置信息。

SB2:根据单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示,以及内容在单源域行为序列中的位置信息,得到单源域行为序列对应的内容表示序列。

具体的,首先将内容在单源域行为序列中的位置信息编码为位置向量表示,在此阶段后将同一内容在多域通用内容表示空间中的多模态向量表示以及在单源域行为序列中的位置向量表示相加,得到该内容对应的向量叠加结果,最后根据单源域行为序列中的各内容分别对应的向量叠加结果,完成构建单源域行为序列对应的内容表示序列。

SB3:将内容表示序列作为对象行为编码器的输入,通过对象行为编码器对内容表示序列进行编码处理,得到对象在单源域行为序列所属源域的行为向量表示。

接下来结合图8来说明步骤SB1-SB2。图8为本申请实施例提供的一种推荐模型的处理示意图,如图8所示。在图8中示出的是单源域序列中各内容对应的内容表示(也即上述文中的向量叠加结果),并示出单源域序列中的各内容包括内容a、内容b和内容c。由图8可知,内容a的向量叠加结果在单源域序列中的位置信息为位置3,内容b的向量叠加结果在单源域序列中的位置信息为位置1,内容c的向量叠加结果在单源域序列中的位置信息为位置2。在此阶段,将内容a、内容b和内容c的向量叠加结果构建成内容表示序列{1,2,3},并输入到对象行为编码器中。如此通过对象行为编码器对内容表示序列进行编码处理,得到对象在单源域行为序列所属源域的行为向量表示。

需要说明的是,本申请中的对象行为编码器可以包括transformer架构,transformer架构包括:多头自注意力层(用MHAttn(·)表示)和点前馈网络(用FFN(·)表示)。其中点前馈网络包括由ReLu激活的多层感知机。综上,本申请在根据对象的单源域序列获得多模态信息之后,将内容对应的多模态信息输入到待训练推荐模型中,以通过内容表示构造模块处理获得内容在多域通用内容表示空间的多模态向量表示,在此阶段,再根据行为表示构造模块对多模态向量表示进行处理,获得行为向量表示,最后再根据预测模块在预训练截止条件不满足时,反向调整内容表示构造模块和或行为表示构造模块的参数,以获得初步推荐模型。如此经过对对象的单源域序列进行预训练学习可以得到初步推荐模型。为了能使初步推荐模型更具通用性,可以将该初步推荐模型从源域向目标域的迁移,以使初步推荐模型在目标域上来调整模型参数,以获得更精确的推荐模型。接下来介绍对初步推荐模型调整的模型调整方法。

图9为本申请实施例提供的一种模型调整方法的流程图。如图9所示的一种模型调整方法中,包括:

S901:获取目标对象的多域混合流行为序列。

该多域混合流行为序列包括多个领域的多个内容,且多个领域的多个内容依照受目标对象触发的时间由先到后排序。需要说明的是,多域混合流行为序列涉及的多个领域中包括目标域,该模型调整方法用于对经过上述过程预训练得到的初步推荐模型进行调整,以实现初步推荐模型从源域向目标域的迁移。

S902:基于多域混合流行为序列中的各内容对应的多模态信息,通过初步推荐模型,分别获得多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示。

可以理解的,在本步骤中获得多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示,与上述过程中获得单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示无异。

S903:根据多域混合流行为序列中的各内容的排序,以及多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得目标对象在多域混合流行为序列对应的多域混合流行为向量表示。

进一步可以理解的,在本步骤中获得目标对象在多域混合流行为序列对应的多域混合流行为向量表示,与上述过程中对象在单源域行为序列所属源域的行为向量表示无异。

S904:由初步推荐模型基于多域混合流行为向量表示,预测目标对象触发多域混合流行为序列的末尾内容之后,触发的首个目标域的内容。

接下来结合图10来说明步骤S904。图10为本申请实施例提供的一种调整模型的处理示意图,如图10所示。在图10中示出的是多域混合流序列中各内容对应的内容表示(也即上述文中的向量叠加结果),并示出多域包括域A、域B和域C,其中域A中的各内容包括内容a和内容b,并且示出内容a的向量叠加结果在该域A序列中的位置信息为位置1,以及内容b的向量叠加结果在该域A序列中的位置信息为位置3;域B中的各内容包括内容c,并且示出内容c的向量叠加结果在该域B序列中的位置信息为位置2;域C中的各内容包括内容d,并且示出内容d的向量叠加结果在该域C序列中的位置信息为位置4。如此,构建获得的多域混合流行为向量表示为{(内容a)1,(内容c)2,(内容b)3,(内容d)4}。在此阶段,将多域混合流行为向量表示输入到对象行为编码器中,通过初步推荐模型预测目标对象触发多域混合流行为序列的末尾内容之后,触发的首个目标域的内容为内容n。

S905:根据预测触发的目标域的内容和目标对象在多域混合流行为序列的末尾内容之后,实际触发的首个目标域的内容的差别,迭代调整初步推荐模型的参数,直至模型调整好满足预设微调截止条件,结束调整得到目标推荐模型。

接下来结合图11来说明步骤S905。图11为本申请实施例提供的一种调整模型的调整示意图,如图11所示。为了更好地捕捉各内容的行为向量表示之间的关系,对各内容的行为向量表示添加上内容id,各内容id均是不相同。在图11中示出的是将多域混合流行为向量表示结合多域混合流行为向量表示对应的各内容的id,来预测触发的目标域的内容。在图11中示出(内容a)1对应的id为id1,(内容c)2对应的id为id2,(内容b)3对应的id为id3,(内容d)4对应的id为id4,目标域为域D。如此,通过初步推荐模型预测目标对象触发多域混合流行为序列的末尾内容之后,触发的首个目标域的内容为内容n,然后根据实际触发的首个目标域的内容e和内容n之间的差别,迭代调整初步推荐模型的参数,直至模型调整好满足预设微调截止条件,结束调整得到目标推荐模型。还需要说明的是,在本申请中着重调整初步推荐模型中多域映射器部分的参数。

在一种可实现的实施方式中,可以通过以下公式来获得多域混合流行为向量表示以及预测的内容。公式表示如下:

其中,p

还需要说明的是,在本申请还可以通过以下公式来获得预测的内容的概率。公式表示如下:

其中,

综上,通过多域混合流序列对初步推荐模型进行调整后,获得更精确的目标推荐模型。该目标推荐模型可以用于对待推荐对象推荐其最感兴趣的内容。接下来介绍利用该目标推荐模型对待推荐对象推荐内容的推荐方法。

图12为本申请实施例提供的一种推荐方法的流程图。如图12所示的一种推荐方法中,该推荐方法采用经过上述模型调整过程获得的目标推荐模型进行推荐,包括:

S1201:获取待推荐对象的历史行为序列。

该历史行为序列中至少包含隶属于目标域的内容,且历史行为序列中的各内容依照受待推荐对象触发的时间由先到后排序。

S1202:基于历史行为序列中的各内容对应的多模态信息,通过目标推荐模型,分别获得历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示。

可以理解的,在本步骤中获得历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示,与上述过程中获得单源域行为序列中各内容分别在多域通用内容表示空间中的多模态向量表示无异。

S1203:根据历史行为序列中的各内容的排序,以及历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得待推荐对象在历史行为序列对应的历史行为向量表示。

进一步可以理解的,在本步骤中获得待推荐对象在历史行为序列对应的历史行为向量表示,与上述过程中对象在单源域行为序列所属源域的行为向量表示无异。

S1204:由目标推荐模型基于历史行为向量表示,预测待推荐对象触发历史行为序列的末尾内容之后,触发的首个目标域的内容。

S1205:向待推荐对象推荐目标推荐模型预测出的首个目标域的内容。

表1为本申请实施例提供的一种推荐模型的预训练方法、调整方法、推荐方法的数据集示意表,如表1所示。Avg.n表示行为序列的平均长度,Sparsity表示数据稀疏度,家庭类、衣物类和办公类的数据集包括同一源域数据集,食物类、仪器类、电子产品类、艺术类和运动类包括目标域数据集。需要说明的是,在本申请中,为了对对象的各内容按时间顺序形成序列,可以采用留一法进行数据集的划分。

表1

表2为本申请实施例提供的一种推荐模型的预训练方法、调整方法、推荐方法的结果对比示意表,如表2所示。与现有方案相比,本方案所提出的方法在输入数据上,综合考虑了内容文本、内容图像和内容ID,以及所提出的方法在所使用的迁移学习技术上,综合考虑了预训练模型、域自适应、混合流和跨域技术。如此,通过本方案构建的模型可以更加具备稳健性、通用性和鲁棒性。

表2

表3为本申请实施例提供的另一种推荐模型的预训练方法、调整方法、推荐方法的结果对比示意表,如表3所示。在本申请中采用召回率(Recall)和/或归一化折损累计增益(NDGG)来评价方案性能,其中召回率和增益的取值除了5之外,还可以取值10、15、20等,具体取值还可根据实际需求设定。相较于现有方案,本方案在召回率和增益方面平均提升了+2.90至+14.49%(+14.49%是将召回率取值20后获得的结果),其使得通过跨模态的映射器学习到的多模态向量表示是更加具备鲁棒性和更多信息量的。

表3

参见图13,图13为本申请实施例提供的实际应用中本方案推荐模型和相关技术模型的增益效果对比图。如图13所示,该折线对比图以增益(NDGG@10)作为基准,其中各折线图的纵坐标表示增益结果,横坐标表示数据丢失率。具体的,图13中1301折线图表示艺术类数据集,其中1301折线图中线段1表示假定本方案中图像数据丢失、线段2表示假定本方案中文本数据丢失和线段3表示现有方案中文本数据丢失;图13中1302折线图表示电子产品类数据集,其中1302折线图中线段4表示假定本方案中图像数据丢失、线段5表示假定本方案中文本数据丢失和线段6表示现有方案中文本数据丢失;图13中1303折线图表示食物类数据集,其中1303折线图中线段7表示假定本方案中图像数据丢失、线段8表示假定本方案中文本数据丢失和线段9表示现有方案中文本数据丢失。如此可见,本方案中提出的方法在图像数据或文本数据丢失的情况下均显著于现有方案中的方法,本方案中提出的方法在实际应用方面更加具备鲁棒性和具有更多信息量。

基于前文实施例提供的推荐模型的预训练方法,本申请中还相应提供了一种推荐模型的预训练装置。以下结合图14进行说明。图14为本申请实施例提供的推荐模型的预训练装置的结构示意图。如图14所示的推荐模型的预训练装置包括:

行为序列获取模块1401,用于获取对象的单源域行为序列;所述单源域行为序列包括同一源域的多个内容,且所述多个内容依照受所述对象触发的时间由先到后排序;

多模态信息获取模块1402,用于获取所述单源域行为序列中的内容对应的多模态信息;所述多模态信息包括至少两种不同模态的信息;

信息输入确定模块1403,用于将内容对应的多模态信息作为待训练推荐模型的输入,通过所述待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;

行为表示构造模块1404,用于根据所述单源域行为序列中内容的排序,以及所述单源域行为序列中各内容分别在所述多域通用内容表示空间中的多模态向量表示,获得所述对象在所述单源域行为序列所属源域的行为向量表示;

相同源域内容预测模块1405,用于由所述待训练推荐模型基于所述行为向量表示,预测所述对象触发所述单源域行为序列的末尾内容之后触发的首个相同源域的内容;

初步推荐模型获得模块1406,用于根据预测触发的首个相同源域的内容和所述对象在所述单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整所述待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型。

可选的,所述待训练推荐模型包括内容表示构造模块、行为表示构造模块和预测模块;

所述内容表示构造模块,用于在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;

所述行为表示构造模块1404,用于根据所述单源域行为序列中内容的排序,以及所述单源域行为序列中各内容分别在所述多域通用内容表示空间中的多模态向量表示,获得所述对象在所述单源域行为序列所属源域的行为向量表示;

所述预测模块,用于基于所述行为向量表示,预测所述对象触发所述单源域行为序列的末尾内容之后触发的首个相同源域的内容,并在所述预训练截止条件不满足时,反向传播调整所述行为表示构造模块和/或所述内容表示构造模块的参数。

可选的,所述内容表示构造模块包括:多模态内容表示构造器和多域映射器,所述信息输入确定模块1403,包括:

多模态信息学习单元,用于将内容对应的多模态信息输入至所述多模态内容表示构造器中,通过所述多模态内容表示构造器对所述多模态信息进行联合表征学习,得到内容在所属源域的多模态表示;

多模态信息映射单元,用于通过所述多域映射器将所述多模态表示映射到所述多域通用内容表示空间,得到内容在所述多域通用内容表示空间的多模态向量表示。

可选的,所述多模态内容表示构造器包括:视觉与语言联合表征模型以及适应层,所述适应层包括图像模态自注意力模块、文本模态自注意力模块以及图像文本跨模态自注意力模块,所述多模态信息学习单元,包括:

模态信息联合学习单元,用于将内容对应的图像模态信息和文本模态信息共同输入到所述视觉与语言联合表征模型中,通过所述视觉与语言联合表征模型对所述图像模态信息和所述文本模态信息进行联合表征学习,得到内容在所属源域的第一图像模态向量表示和第一文本模态向量表示;

模态向量表示学习单元,用于通过所述图像模态自注意力模块学习所述第一图像模态向量表示,通过所述文本模态自注意力模块学习所述第一文本模态向量表示,以及通过所述图像文本跨模态自注意力模块联合学习所述第一图像模态向量表示和所述第一文本模态向量表示,得到所述图像模态自注意力模块、所述文本模态自注意力模块以及所述图像文本跨模态自注意力模块分别输出的内容在所属源域的第二图像模态向量表示、第二文本模态向量表示以及第一跨模态向量表示。

可选的,所述多域映射器包括映射层、拼接层和多层感知机,所述多模态信息映射单元,包括:

向量映射结果获得单元,用于通过所述多域映射器,将内容在所属源域的第二图像模态向量表示、第二文本模态向量表示以及第一跨模态向量表示分别映射到所述多域通用内容表示空间,得到所述第二图像模态向量表示对应的第一映射结果、所述第二文本模态向量表示对应的第二映射结果和所述第一跨模态向量表示对应的第三映射结果;

映射结果拼接单元,用于通过所述拼接层对所述第一映射结果、所述第三映射结果和所述第二映射结果依次拼接,得到拼接结果;

拼接结果降维处理单元,用于通过所述多层感知机对所述拼接结果进行降维处理,得到内容在所述多域通用内容表示空间的多模态向量表示。

可选的,所述映射层包括白化层和混合专家网络层,所述白化层包括分别对应于图像模态、文本模态和图像文本跨模态的第一白化模块、第二白化模块和第三白化模块,所述混合专家网络层包括分别对应于图像模态、文本模态和图像文本跨模态的第一混合专家网络、第二混合专家网络和第三混合专家网络,所述向量映射结果获得单元,包括:

向量表示白化处理单元,用于通过所述第一白化模块、所述第二白化模块和所述第三白化模块分别对所述第二图像模态向量表示、所述第二文本模态向量表示以及所述第一跨模态向量表示进行白化处理,得到所述第二图像模态向量表示、所述第二文本模态向量表示以及所述第一跨模态向量表示分别对应的第一白化结果、第二白化结果和第三白化结果;

白化结果门控处理单元,用于通过所述第一混合专家网络、所述第二混合专家网络和所述第三混合专家网络分别通过所述门控机制对所述第一白化结果、所述第二白化结果和所述第三白化结果进行处理,得到所述第一映射结果、所述第二映射结果和所述第三映射结果。

可选的,所述行为表示构造模块,包括:

位置信息获得单元,用于根据所述单源域行为序列中内容的排序,得到内容在所述单源域行为序列中的位置信息;

内容表示序列获得单元,用于根据所述单源域行为序列中各内容分别在所述多域通用内容表示空间中的多模态向量表示,以及内容在所述单源域行为序列中的位置信息,得到所述单源域行为序列对应的内容表示序列;

序列编码处理单元,用于将所述内容表示序列作为所述对象行为编码器的输入,通过所述对象行为编码器对所述内容表示序列进行编码处理,得到所述对象在所述单源域行为序列所属源域的行为向量表示。

可选的,所述内容表示序列获得单元,包括:

位置向量表示编码单元,用于将内容在所述单源域行为序列中的位置信息编码为位置向量表示;

向量叠加结果获得单元,用于将同一内容在所述多域通用内容表示空间中的多模态向量表示以及在所述单源域行为序列中的位置向量表示相加,得到该内容对应的向量叠加结果;

内容表示序列构建单元,用于根据所述单源域行为序列中的各内容分别对应的向量叠加结果,构建所述单源域行为序列对应的内容表示序列。

可选的,所述装置还包括预测损失调整模块:

所述预测损失调整模块,用于所述预训练截止条件包括第一条件和第二条件,其中第一条件为关于预测损失的条件,第二条件为关于对比学习综合损失的条件;所述第一条件包括:预测损失小于第一损失阈值;其中,预测损失为基于预测触发的首个源域的内容和实际触发的首个相同源域的内容的差距得到;

所述第二条件包括:对比学习综合损失小于第二损失阈值;其中,对比学习综合损失为有关于跨域序列与内容对比学习任务以及有关于跨域序列与序列对比学习任务的损失;

所述跨域序列与内容对比学习任务中,所述单源域行为序列的末尾内容之后实际触发的首个相同源域的内容作为正例,与所述单源域行为序列同一批次输入到模型中的其他单源域行为序列中涉及其他源域的内容作为负例;

所述跨域序列与序列对比学习任务中,所述单源域行为序列对应的数据缺失序列作为正例,与所述单源域行为序列同一批次输入到模型中的其他源域的单源域行为序列作为负例;所述数据缺失序列为通过随机丢弃所述单源域行为序列中的内容得到的,或者所述数据缺失序列为随机丢弃所述单源域行为序列中的内容对应的一种或多种模态信息得到的。

基于前文实施例提供的模型调整方法,本申请中还相应提供了一种模型调整装置。以下结合图15进行说明。图15为本申请实施例提供的模型调整装置的结构示意图。如图15所示的模型调整装置包括:

混合流行为序列获取模块1501,用于获取目标对象的多域混合流行为序列;所述多域混合流行为序列包括多个领域的多个内容,且所述多个领域的多个内容依照受所述目标对象触发的时间由先到后排序;所述多域混合流行为序列涉及的多个领域中包括所述目标域;

多模态向量表示获得模块1502,用于基于所述多域混合流行为序列中的各内容对应的多模态信息,通过所述初步推荐模型,分别获得所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

混合流行为向量表示获得模块1503,用于根据所述多域混合流行为序列中的各内容的排序,以及所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述目标对象在所述多域混合流行为序列对应的多域混合流行为向量表示;

目标域内容预测模块1504,用于由所述初步推荐模型基于所述多域混合流行为向量表示,预测所述目标对象触发所述多域混合流行为序列的末尾内容之后,触发的首个所述目标域的内容;

目标推荐模型获得模块1505,用于根据预测触发的所述目标域的内容和所述目标对象在所述多域混合流行为序列的末尾内容之后,实际触发的首个所述目标域的内容的差别,迭代调整所述初步推荐模型的参数,直至模型调整好满足预设微调截止条件,结束调整得到目标推荐模型。

基于前文实施例提供的推荐方法,本申请中还相应提供了一种推荐装置。以下结合图16进行说明。图16为本申请实施例提供的推荐装置的结构示意图。如图16所示的推荐装置包括:

历史行为序列获取模块1601,用于获取待推荐对象的历史行为序列,所述历史行为序列中至少包含隶属于所述目标域的内容,且所述历史行为序列中的各内容依照受所述待推荐对象触发的时间由先到后排序;

历史多模态向量表示获得模块1602,用于基于所述历史行为序列中的各内容对应的多模态信息,通过所述目标推荐模型,分别获得所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

历史行为向量表示获得模块1603,用于根据所述历史行为序列中的各内容的排序,以及所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述待推荐对象在所述历史行为序列对应的历史行为向量表示;

历史目标域内容预测模块1604,用于由所述目标推荐模型基于所述历史行为向量表示,预测所述待推荐对象触发所述历史行为序列的末尾内容之后,触发的首个所述目标域的内容;

目标域内容推荐模块1605,用于向所述待推荐对象推荐所述目标推荐模型预测出的首个所述目标域的内容。

本申请实施例提供了一种计算机设备,该计算机设备可以为服务器。图17是本申请实施例提供的一种服务器结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941。

其中,CPU 922用于执行如下步骤:

获取对象的单源域行为序列;所述单源域行为序列包括同一源域的多个内容,且所述多个内容依照受所述对象触发的时间由先到后排序;

获取所述单源域行为序列中的内容对应的多模态信息;所述多模态信息包括至少两种不同模态的信息;

将内容对应的多模态信息作为待训练推荐模型的输入,通过所述待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;

根据所述单源域行为序列中内容的排序,以及所述单源域行为序列中各内容分别在所述多域通用内容表示空间中的多模态向量表示,获得所述对象在所述单源域行为序列所属源域的行为向量表示;

由所述待训练推荐模型基于所述行为向量表示,预测所述对象触发所述单源域行为序列的末尾内容之后触发的首个相同源域的内容;

根据预测触发的首个相同源域的内容和所述对象在所述单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整所述待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型;

或者;

获取目标对象的多域混合流行为序列;所述多域混合流行为序列包括多个领域的多个内容,且所述多个领域的多个内容依照受所述目标对象触发的时间由先到后排序;所述多域混合流行为序列涉及的多个领域中包括所述目标域;

基于所述多域混合流行为序列中的各内容对应的多模态信息,通过所述初步推荐模型,分别获得所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

根据所述多域混合流行为序列中的各内容的排序,以及所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述目标对象在所述多域混合流行为序列对应的多域混合流行为向量表示;

由所述初步推荐模型基于所述多域混合流行为向量表示,预测所述目标对象触发所述多域混合流行为序列的末尾内容之后,触发的首个所述目标域的内容;

根据预测触发的所述目标域的内容和所述目标对象在所述多域混合流行为序列的末尾内容之后,实际触发的首个所述目标域的内容的差别,迭代调整所述初步推荐模型的参数,直至模型调整好满足预设微调截止条件,结束调整得到目标推荐模型;

或者;

获取待推荐对象的历史行为序列,所述历史行为序列中至少包含隶属于所述目标域的内容,且所述历史行为序列中的各内容依照受所述待推荐对象触发的时间由先到后排序;

基于所述历史行为序列中的各内容对应的多模态信息,通过所述目标推荐模型,分别获得所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

根据所述历史行为序列中的各内容的排序,以及所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述待推荐对象在所述历史行为序列对应的历史行为向量表示;

由所述目标推荐模型基于所述历史行为向量表示,预测所述待推荐对象触发所述历史行为序列的末尾内容之后,触发的首个所述目标域的内容;

向所述待推荐对象推荐所述目标推荐模型预测出的首个所述目标域的内容。

本申请实施例还提供了另一种计算机设备,该计算机设备可以为终端设备。如图18所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。以该终端设备为手机为例:

图18示出的是与本申请实施例提供的手机的部分结构的框图。参考图18,手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图18中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图18对手机的各个构成部件进行具体的介绍:

RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:LowNoise Amplifier,英文缩写:LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文缩写:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,GPRS)、码分多址(英文全称:CodeDivision Multiple Access,英文缩写:CDMA)、宽带码分多址(英文全称:Wideband CodeDivision Multiple Access,英文缩写:WCDMA)、长期演进(英文全称:Long TermEvolution,英文缩写:LTE)、电子邮件、短消息服务(英文全称:Short Messaging Service,SMS)等。

存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(英文全称:Liquid Crystal Display,英文缩写:LCD)、有机发光二极管(英文全称:Organic Light-Emitting Diode,英文缩写:OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图18中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图18示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体数据及信息收集。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本申请实施例中,该手机所包括的处理器1080还具有以下功能:

获取对象的单源域行为序列;所述单源域行为序列包括同一源域的多个内容,且所述多个内容依照受所述对象触发的时间由先到后排序;

获取所述单源域行为序列中的内容对应的多模态信息;所述多模态信息包括至少两种不同模态的信息;

将内容对应的多模态信息作为待训练推荐模型的输入,通过所述待训练推荐模型在所输入的多模态信息的基础上处理得到内容在多域通用内容表示空间的多模态向量表示;

根据所述单源域行为序列中内容的排序,以及所述单源域行为序列中各内容分别在所述多域通用内容表示空间中的多模态向量表示,获得所述对象在所述单源域行为序列所属源域的行为向量表示;

由所述待训练推荐模型基于所述行为向量表示,预测所述对象触发所述单源域行为序列的末尾内容之后触发的首个相同源域的内容;

根据预测触发的首个相同源域的内容和所述对象在所述单源域行为序列的末尾内容之后实际触发的首个相同源域的内容的差别,迭代调整所述待训练推荐模型的参数,直至调整后的模型满足预训练截止条件,预训练结束得到初步推荐模型;

或者;

获取目标对象的多域混合流行为序列;所述多域混合流行为序列包括多个领域的多个内容,且所述多个领域的多个内容依照受所述目标对象触发的时间由先到后排序;所述多域混合流行为序列涉及的多个领域中包括所述目标域;

基于所述多域混合流行为序列中的各内容对应的多模态信息,通过所述初步推荐模型,分别获得所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

根据所述多域混合流行为序列中的各内容的排序,以及所述多域混合流行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述目标对象在所述多域混合流行为序列对应的多域混合流行为向量表示;

由所述初步推荐模型基于所述多域混合流行为向量表示,预测所述目标对象触发所述多域混合流行为序列的末尾内容之后,触发的首个所述目标域的内容;

根据预测触发的所述目标域的内容和所述目标对象在所述多域混合流行为序列的末尾内容之后,实际触发的首个所述目标域的内容的差别,迭代调整所述初步推荐模型的参数,直至模型调整好满足预设微调截止条件,结束调整得到目标推荐模型;

或者;

获取待推荐对象的历史行为序列,所述历史行为序列中至少包含隶属于所述目标域的内容,且所述历史行为序列中的各内容依照受所述待推荐对象触发的时间由先到后排序;

基于所述历史行为序列中的各内容对应的多模态信息,通过所述目标推荐模型,分别获得所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示;

根据所述历史行为序列中的各内容的排序,以及所述历史行为序列中的各内容在多域通用内容表示空间的多模态向量表示,获得所述待推荐对象在所述历史行为序列对应的历史行为向量表示;

由所述目标推荐模型基于所述历史行为向量表示,预测所述待推荐对象触发所述历史行为序列的末尾内容之后,触发的首个所述目标域的内容;

向所述待推荐对象推荐所述目标推荐模型预测出的首个所述目标域的内容。

本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序在计算机设备上运行时,使得该计算机设备用于执行前述各个实施例所述的推荐模型的预训练方法中的任意一种实施方式,或者执行前述各个实施例所述的模型调整方法中的任意一种实施方式,或者执行前述各个实施例所述的推荐方法中的任意一种实施方式。

本申请实施例还提供一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得计算机设备执行前述各个实施例所述的推荐模型的预训练方法中的任意一种实施方式,或者执行前述各个实施例所述的模型调整方法中的任意一种实施方式,或者执行前述各个实施例所述的推荐方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述系统的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个系统可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的系统可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 模型训练方法、广告推荐方法、相关装置、设备及介质
  • 基于云平台和模型推荐的神经网络自动训练方法和装置
  • 一种商品推荐模型训练方法、装置、设备及存储介质
  • 智能推荐方法及相关产品
  • 产品推荐模型训练方法、产品推荐方法、装置及存储介质
  • 产品推荐方法、产品推荐模型的训练方法、装置和设备
技术分类

06120116501118