导航：首页> 流体压力执行机构；一般液压技术和气动技术>物品推荐方法、设备和存储介质

物品推荐方法、设备和存储介质

文献发布时间：2024-04-18 19:58:30

技术领域

本发明涉及人工智能技术领域，尤其涉及一种物品推荐方法、设备和存储介质。

背景技术

在诸如电商等应用产品中，一般会预设用户交互行为的一般执行顺序，比如“点击→加购→购买”，其中，点击是指点击某商品进入商品介绍页面，加购是指将商品加入购物车，购买是指支付购买。基于此，便产生面向目标交互行为进行物品推荐的需求，比如预测某用户可能购买的商品，以向该用户推荐可能被其购买的商品。

传统的推荐算法往往只利用目标交互行为(如购买)的历史交互数据来进行推荐处理，该历史交互数据包括执行过该目标交互行为的用户的数据以及这些用户在该目标交互行为下交互的物品(如执行过购买行为的用户以及这些用户购买的商品)。仅基于目标交互行为的历史交互数据来进行推荐处理，往往会导致针对目标交互行为的物品推荐结果的准确度较低。

发明内容

本发明实施例提供一种物品推荐方法、设备和存储介质，用以提高针对目标交互行为的物品推荐结果的准确度。

第一方面，本发明实施例提供一种物品推荐方法，所述方法包括：

获取对应于预设交互行为链的历史交互数据以及所述预设交互行为链对应的多个交互行为路径，所述预设交互行为链中包括顺序排列的多个交互行为，所述多个交互行为路径是所述预设交互行为链的子链，所述历史交互数据用于描述用户集中各用户在所述多个交互行为下分别对应的包含于物品集中的物品；

根据所述多个交互行为路径和所述历史交互数据生成有向无环行为图，其中，所述有向无环行为图中包括对应于所述多个交互行为的多个行为节点，不同行为节点之间的有向边用于反映所述多个交互行为路径，每个行为节点关联有所述用户集中各用户在相应交互行为下对应的物品以及所述物品集中各物品在相应交互行为下对应的用户；

训练与所述有向无环行为图对应的有向边编码器，以通过所述有向边编码器提取行为节点对之间的各用户行为转换特征和各物品行为转换特征，以及根据提取的各用户行为转换特征和各物品行为转换特征，依次确定所述多个行为节点各自对应的各用户表征和各物品表征；

若根据所述多个行为节点各自对应的各用户表征和各物品表征确定满足训练截止条件，则根据训练截止时目标行为节点所对应的各用户表征和各物品表征进行物品推荐。

第二方面，本发明实施例提供一种物品推荐装置，所述装置包括：

获取模块，用于获取对应于预设交互行为链的历史交互数据以及所述预设交互行为链对应的多个交互行为路径，所述预设交互行为链中包括顺序排列的多个交互行为，所述多个交互行为路径是所述预设交互行为链的子链，所述历史交互数据用于描述用户集中各用户在所述多个交互行为下分别对应的包含于物品集中的物品；

生成模块，用于根据所述多个交互行为路径和所述历史交互数据生成有向无环行为图，其中，所述有向无环行为图中包括对应于所述多个交互行为的多个行为节点，不同行为节点之间的有向边用于反映所述多个交互行为路径，每个行为节点关联有所述用户集中各用户在相应交互行为下对应的物品以及所述物品集中各物品在相应交互行为下对应的用户；

训练模块，用于训练与所述有向无环行为图对应的有向边编码器，以通过所述有向边编码器提取行为节点对之间的各用户行为转换特征和各物品行为转换特征，以及根据提取的各用户行为转换特征和各物品行为转换特征，依次确定所述多个行为节点各自对应的各用户表征和各物品表征；

推荐模块，用于在根据所述多个行为节点各自对应的各用户表征和各物品表征确定满足训练截止条件时，根据训练截止时目标行为节点所对应的各用户表征和各物品表征进行物品推荐。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，执行如第一方面所述的物品推荐方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备中的处理器执行时，至少可以实现如第一方面所述的物品推荐方法。

本发明实施例提供的方案中，以由顺序排列的多个交互行为构成的预设交互行为链为基准，确定预设交互行为链下可能存在的各个子链作为潜在的多个交互行为路径，将多个行为交互路径转换成有向无环行为图，从而能够将多个交互行为路径归纳到统一的拓扑结构中，其中，多个行为节点对应于多个交互行为，不同行为节点之间的有向边用于反映多个交互行为路径，每个行为节点关联有用户集中各用户在相应交互行为下对应的物品以及物品集中各物品在相应交互行为下对应的用户。在构建出上述有向无环行为图后，使用有向边编码器对该有向无环行为图中每个有向边进行学习训练，其中，每个有向边对应有一个有向边编码器。在训练过程中，沿着预设交互行为链上多个交互行为的顺序，依次通过各有向边编码器来提取相应行为节点对之间的各用户行为转换特征和各物品行为转换特征，并根据提取到的各用户行为转换特征和各物品行为转换特征依次确定每个行为节点对应的各用户表征和各物品表征。也就是通过有向边编码器对一条有向边的起始行为节点的各用户表征、各物品表征进行语义信息提取，以用于更新该有向边指向的终止行为节点的各用户表征、各物品表征。亦即一个行为节点的各用户表征、各物品表征融合了从指向它的所有其他行为节点的各用户表征和各物品表征中提取的行为转换语义信息。这样逐步更新每个行为节点对应的各用户表征和各物品表征。在根据多个行为节点各自对应的各用户表征和各物品表征确定满足训练截止条件时，根据训练截止时目标行为节点所对应的各用户表征和各物品表征进行物品推荐。其中，该目标行为节点可以是预设交互行为链中的最后一个交互行为。

在上述方案中，当需要面向目标交互行为进行物品推荐时，将多种交互行为路径转换为有向无环行为图，可以更加真实地反映实际交互场景。在该有向无环行为图中，位于目标交互行为之前的通过不同交互行为路径到达目标交互行为的各交互行为都作为辅助交互行为，基于该有向无环行为图来学习不同交互行为之间的个性化依赖关系，依次更新低层次的辅助交互行为到高层次的目标交互行为的用户和物品表征，使得目标交互行为对应的用户和物品表征中融合了来自前序各辅助交互行为的语义信息，最终实现对目标交互行为的物品推荐准确率的提高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种物品推荐方法的流程图；

图2为本发明实施例提供的一种有向无环行为图的示意图；

图3为本发明实施例提供的一用户对应的有向无环行为图的示意图；

图4为本发明实施例提供的一物品对应的有向无环行为图的示意图；

图5为本发明实施例提供的一种模型训练架构图；

图6为本发明实施例提供的一种有向边编码器训练方法的流程图；

图7为本发明实施例提供的一种有向边编码器训练过程的细节放大图；

图8为本发明实施例提供的一种初始化目标有向边对应的各用户行为转换权重的流程图；

图9为本发明实施例提供的一用户对应的转换权重初始化结果的示意图；

图10为本发明实施例提供的一种初始化目标有向边对应的各物品行为转换权重的流程图；

图11为本发明实施例提供的一物品对应的转换权重初始化结果的示意图；

图12为本发明实施例提供的一种确定行为节点对应的预测损失函数值的流程图；

图13为本发明实施例提供的一种物品推荐装置的结构示意图；

图14为本实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

需要说明的是，本发明实施例中所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

下面对本文中涉及到的一些概念进行介绍说明。

多行为推荐：指引入辅助交互行为的交互数据来提升目标交互行为下物品推荐结果准确率的方法。

预设交互行为链：比如电商平台等应用中会预先设定的用户交互行为的一般交互顺序，比如“点击→加购→购买”。

交互行为路径：对应于用户对于某物品的可能的实际交互顺序。由于预设交互行为链中一些交互行为可以跳过，因此交互行为路径可以是预设交互行为链本身或者其子链(可以将交互行为路径是预设交互行为链本身的情形视为一种特殊的子链情形)。针对上述举例的电商场景下的预设交互行为链，对应的交互行为路径比如包括“点击→购买”、“点击→加购”等。

有向无环图(Directed Acyclic Graph，简称DAG)：在图论中，如果一个有向图从任意节点出发无法经过若干条边回到该节点，则这个图是一个有向无环图。

图神经网络(Graph Neural Network，简称GNN)：指使用神经网络来学习图结构数据，提取和发掘图结构数据中的特征和模式的一类算法。

以上述电商场景下的预设交互行为链“点击→加购→购买”中，需要进行物品推荐的目标交互行为是“购买”为例，针对“购买”行为进行物品推荐(此时即为商品推荐)，可以理解为是在给定的用户集和物品集(此时即为商品集)中，针对某目标用户，预测其可能会对物品集中哪些物品触发“购买”行为，为该目标用户推荐这些被偏好购买的物品。

传统的推荐方法仅聚焦于“购买”行为所对应的历史交互数据，即历史上哪些用户执行过“购买”行为以及对应的物品是什么，通过挖掘其中包含的语义信息以得到“购买”行为下各用户表征、各物品表征，以便完成“购买”行为下的物品推荐任务。其中，该用户表征是指下“购买”行为下每个用户对应的特征向量，同理，该物品表征是指下“购买”行为下每个物品对应的特征向量，针对目标用户对应的用户表征来说，通过与各物品表征进行内积计算，便可以得到目标用户对各个物品的购买偏好程度(即购买概率)，据此推荐购买概率高的物品即可。

以上推荐方法会有局限性：一是只使用目标交互行为的历史交互数据会面临数据稀疏问题，或者面对新注册用户时会存在数据冷启动问题，本质上，都是在可获得的该历史交互数据比较少时，将无法进行准确可靠的推荐；二是用户或物品对应的交互行为序列可以分别反映出用户的个性化行为模式(如深思熟虑型、果断决策型等)和物品的固有属性特征(如易耗品、奢侈品等)，而已有推荐算法都没有考虑这种不同交互行为间依赖关系背后包含的独特语义，具有一定的局限性。

其中，用户的交互行为序列可以反映出用户的个性化行为模式，举例来说，如果某用户的交互行为序列总是：“点击→购买”，或者“购买”，反映出该用户的行为模式属于果断决策型，反之，如果某用户的交互行为序列总是较长，反映出该用户的行为模式属于深思熟虑型。类似地，物品的交互行为序列可以反映出物品的属性特征，举例来说，如果某物品对应的交互行为序列多是：“点击→购买”，或者“购买”，反映出该物品的属性特征为易耗品，反之，如果某物品的交互行为序列总是较长，反映出该物品的属性特征属于奢侈品。

显而易见，如果能够充分挖掘出上述用户的行为模式特征、物品的固有属性特征，对于目标交互行为下的准确物品推荐是很有价值的。

鉴于此，本发明实施例中，结合图神经网络技术，提供了一种多行为推荐方法，一方面，可以进一步利用多种交互行为的上下文语义信息，有效缓解数据稀疏和冷启动问题，另一方面，将预设交互行为链对应的各种潜在的交互行为路径转换为有向无环行为图，可以有效利用点击、加购等辅助交互行为的数据，为购买等目标交互行为的预测提供支持，并挖掘多种交互行为的交互数据中蕴含的用户行为模式和物品自身属性，学习行为之间的个性化依赖关系，最终实现对目标交互行为下物品推荐结果准确率的提升。

图1为本发明实施例提供的一种物品推荐方法的流程图，如图1所示，该方法可以包括如下步骤：

101、获取对应于预设交互行为链的历史交互数据以及预设交互行为链对应的多个交互行为路径，历史交互数据用于描述用户集中各用户在多个交互行为下分别对应的包含于物品集中的物品。

102、根据多个交互行为路径和历史交互数据生成有向无环行为图，有向无环行为图中包括对应于所述多个交互行为的多个行为节点，不同行为节点之间的有向边用于反映多个交互行为路径，每个行为节点关联有用户集中各用户在相应交互行为下对应的物品以及物品集中各物品在相应交互行为下对应的用户。

103、训练与有向无环行为图对应的有向边编码器，以通过有向边编码器提取行为节点对之间的各用户行为转换特征和各物品行为转换特征，以及根据提取的各用户行为转换特征和各物品行为转换特征，依次确定所述多个行为节点各自对应的各用户表征和各物品表征。

104、若根据多个行为节点各自对应的各用户表征和各物品表征确定满足训练截止条件，则根据训练截止时目标行为节点所对应的各用户表征和各物品表征进行物品推荐。

针对某应用软件，会预先设定用户使用过程中涉及到的交互行为链，比如上述举例的电商应用软件中预先设定的交互行为链：“点击→加购→购买”。由此可知，本发明实施例中，预设交互行为链由多个顺序排列的交互行为构成。需要进行物品推荐的目标交互行为可以是该预设交互行为链中最后一个交互行为，如果将目标交互行为作为高层次交互行为，那么前序的交互行为为低层次的交互行为。

针对给定的一个预设交互行为链，可以直接确定出其中可以存在的多个交互行为路径，每个交互行为路径属于预设交互行为链的子链。如果将预设交互行为链视为一个理论上的完整的交互行为路径，那么作为子链的各个交互行为路径则对应于实际应用过程中用户可能触发的交互行为路径。

比如预设交互行为链“点击→加购→购买”对应的多个交互行为路径可以包括但不限于：点击→加购，点击→购买，加购→购买，点击→加购→购买。

另外，针对给定的预设交互行为链，还需要获取对应的历史交互数据，该历史交互数据中描述了用户集中每个用户在每个交互行为下交互过的物品等交互信息，因此该历史交互数据会涉及到用户集和物品集，其中，用户集中各用户对物品集中的至少一个物品触发过预设交互行为链中包含的多个交互行为中的至少一个交互行为。

之后，可以根据多个交互行为路径和历史交互数据生成有向无环行为图。有向无环行为图中包括对应于多个交互行为的多个行为节点，不同行为节点之间的有向边用于反映多个交互行为路径。其中，每个行为节点关联有用户集中各用户在相应交互行为下对应的物品以及物品集中各物品在相应交互行为下对应的用户。

本发明实施例中，有向无环行为图实际上是一个有向无环图，其中的节点表示交互行为，因此称为有向无环行为图，每个行为节点关联有对应的用户和物品集合，有向边表示的是交互行为之间的转换。

为便于理解，结合图2示意出预设交互行为链“点击→加购→购买”对应的多个交互行为路径组成的有向无环行为图。如图2中所示，该有向无环行为图中包括四个行为节点：b0＝起始节点(start节点)，b1＝点击行为节点，b2＝加购行为节点，b3＝购买行为节点。其中包含的交互行为路径比如包括：b0→b3，b0→b1→b2→b3，b0→b1→b3，b0→b2→b3。其中，起始节点b0实际上是一个额外添加的行为节点，表示每个交互行为路径的开始。

概括来说，假设将预设交互行为链表示为B＝{b1,b2,...,bK}，其中bi表示第i个交互行为，一共K个交互行为，那么对应的有向无环行为图中的行为节点集可以表示为：V＝{b0，b1,b2,...,bK}，有向边集可以表示为：E＝{(bk’,bk)|0≤k’

图2所示的有向无环行为图中仅示意了行为节点以及行为节点之间的有向边。实际上，有向无环行为图中的每个行为节点下还关联有用户集中各用户在相应交互行为下对应的物品以及物品集中各物品在相应交互行为下对应的用户，也就是说，每个行为节点还关联有与其对应的交互数据。

换个角度来说，可以认为是以用户角度和物品角度，分别创建了有向无环行为图，然后合并在一起。能合并在一起是因为以用户角度创建的有向无环行为图与以物品角度创建的有向无环行为图中都具有相同的行为节点以及有向边。为便于理解，结合图3和图4来分别示例说明。

图3中示意的是根据某个用户x在各交互行为下对应的交互数据构建的有向无环行为图，如图3中所示，该用户x在点击行为节点b1下对应的物品包括：耳机、书、手表、衣服，在加购行为节点b2下对应的物品包括：鞋、衣服，在购买行为节点b3下对应的物品包括：牙膏、书、衣服。此时，起始节点b0为该用户x。通过图3中的示例可知其中每个物品所经历的交互行为路径，比如耳机的交互行为路径是：起始节点b0→点击行为节点b1，衣服的交互行为路径是：起始节点b0→点击行为节点b1→加购行为节点b2→购买行为节点b3，书的交互行为路径是：起始节点b0→点击行为节点b1→购买行为节点b3。

图4中示意的是根据某个物品(图中示意的是牙膏)在各交互行为下对应的交互数据构建的有向无环行为图，如图4中所示，该牙膏在点击行为节点b1下对应的用户包括：用户1、用户2、用户3和用户4，在加购行为节点b2下对应的用户包括：用户1、用户4，在购买行为节点b3下对应的用户包括：用户1、用户5、用户2、用户3。此时，起始节点b0为该物品——牙膏。其中，该物品在某个行为节点下对应的用户，表示这些用户都对该物品执行过相应的交互行为。

结合上述图3和图4的示例，如果将用户集中各个用户对应的有向无环行为图以及物品集中各物品对应的有向无环行为图融合在一起，便可以得到最终的有向无环行为图，该最终的有向无环行为图中的起始节点b0所关联的是给定的用户集和物品集，其他各行为节点关联有各自对应的交互数据—用于描述用户集中各用户在相应交互行为下对应的物品以及物品集中各物品在相应交互行为下对应的用户。

假设物品推荐所针对的目标交互行为是上述举例中的购买行为，即目标行为节点为购买行为节点b3，在根据多个交互行为路径和收集的历史交互数据生成的有向无环行为图中，由于到达购买行为节点b3的交互行为路径有多条，每条交互路径中包括一条或多条有向边，可以通过训练有向边编码器来学习每条交互行为路径所蕴含的语义特征信息，以结合学习到的语义特征信息依次确定多个行为节点各自对应的各用户表征和各物品表征。有向边编码器包括但不限于各种图神经网络，比如图卷积神经网络，图卷积神经网络中可以包括多个卷积网络层。

实际上，有向无环行为图可以对应有多个需要训练的有向边编码器，每个有向边对应有一个。对应于某个有向边的有向边编码器用于提取所连接的起始行为节点与所连接的终止行为节点之间的转换依赖关系，即提取这对行为之间的语义特征，这种语义特征实际蕴含了用户行为模式、物品属性特征等语义，这对于准确预测目标交互行为下某用户可能偏好的物品具有很大价值。

在有向边编码器的训练过程中，是沿着预设交互行为链上多个交互行为的顺序，依次通过各有向边编码器来提取相应行为节点对之间的各用户行为转换特征和各物品行为转换特征，并根据提取的各用户行为转换特征和各物品行为转换特征来确定相应行为节点对中终止行为节点对应的各用户表征(或者称为用户特征向量)和各物品表征(或者称为物品特征向量)的，若在某次训练结束后，根据此时多个行为节点各自对应的各用户表征和各物品表征确定满足训练截止条件，则根据训练截止时目标行为节点所对应的各用户表征和各物品表征完成物品推荐处理。

需要说明的是，同一个用户，在各个行为节点下都具有一个用户表征，这些用户表征是不同的；同理，同一个物品，在各行为节点下都具有一个不同的物品表征。

可选地，根据训练截止时目标行为节点所对应的各用户表征和各物品表征进行物品推荐，可以是：根据训练截止时目标行为节点所对应的目标用户表征(对应于目标用户)分别与训练截止时目标行为节点所对应的各物品表征的内积结果，确定目标用户分别对各物品触发目标交互行为(对应于目标行为节点)的概率，根据目标用户分别对各物品触发目标交互行为的概率确定目标用户对应的物品推荐结果。

假设目标用户为用户x，物品集中一共N个物品，以用户x在目标交互行为(比如购买行为)下对应的用户表征分别与N个物品在目标交互行为(比如购买行为)下对应的物品表征进行向量内积计算，可以得到N个概率值，可以从中选择概率值较大的前T个作为推荐结果。

实际上，假设用户集中共M个用户，物品集中共N个物品，针对目标交互行为的物品推荐任务实际上就是要确定各个用户对各个物品在目标交互行为下对应的偏好程度，以构成一个偏好评分矩阵。训练有向边编码器的目的亦即得到该偏好评分矩阵，而基于矩阵分解的概念，该偏好评分矩阵可以分解为两个矩阵，由这两个矩阵相乘(内积计算)便得到该偏好评分矩阵，本发明实施例中，这两个矩阵即为由目标行为节点下各用户表征构成的用户表征矩阵，以及由目标行为节点下各物品表征构成的物品表征矩阵。

另外，在每个有向边对应的有向边编码器的训练过程中，需要通过有向边编码器对一条有向边的起始行为节点的各用户表征、各物品表征进行语义信息提取，以用于更新该有向边指向的终止行为节点的各用户表征、各物品表征。这意味着，当一个行为节点存在多条指向它的有向边时，该行为节点的各用户表征、各物品表征融合了从指向它的所有其他行为节点的各用户表征和各物品表征中提取的语义信息。实际上，一个有向边对应的有向边编码器本质上起到一个编码器的作用，用于对其连接的起始行为节点下的各用户表征、各物品表征分别进行编码，以提取出用于反映其连接的行为节点之间的转换依赖关系的语义特征。

具体地，在训练与有向无环行为图对应的多个有向边编码器的过程中，依次遍历各有向边，将当前遍历到的目标有向边连接的起始行为节点所对应的各用户表征和各物品表征输入目标有向边对应的有向边编码器，以提取目标有向边对应的各用户行为转换特征和各物品行为转换特征。之后，针对该终止行为节点，以同一用户维度聚合至少一条有向边对应的各用户行为转换特征以及以同一物品维度聚合所述至少一条有向边对应的各物品行为转换特征，以根据聚合结果更新该终止行为节点对应的各用户表征和各物品表征，所述至少一条有向边均指向该终止行为节点。以上便是每个行为节点下各用户表征和各物品表征的更新过程。

其中，目标有向边对应的一个用户行为转换特征是指用户集中相应一个用户在目标有向边所连接的行为节点对之间对应的行为转换语义特征，该用户行为转换特征可以使得有向边编码器学习到用户的行为模式特征，同理，目标有向边对应的一个物品行为转换特征是指物品集中相应一个物品在目标有向边所连接的行为节点对之间对应的行为转换语义特征，该物品行为转换特征可以使得有向边编码器学习到物品的固有属性特征。

为便于理解上述有向边编码器的训练过程，结合图5示例说明。

在图5中，假设有向无环行为图中包括的行为节点为b0、b1、b2和b3，节点之间的有向边如图中所示，每个有向边上设置一个有向边编码器。每个行为节点下关联的方块列和圆圈列分别表示用户集和物品集。

在训练开始时，初始化起始节点b0下用户集中各用户对应的用户表征以及物品集中各物品对应的物品表征，每个用户表征、物品表征可以表示为设定维度的向量。在图5中，用户表征e

以(b0,b1)这条有向边为例，起始节点b0对应的各用户表征和各物品表征输入到与这条有向边对应的有向边编码器中，该有向边编码器进行语义特征的提取，针对上述用户u和物品i来说，会输出用户u对应的用户行为转换特征m

以行为节点b2来说，由于图5中以行为节点b2作为终止行为节点的有向边由两条：(b0,b2)和(b1,b2)，在通过(b0,b2)对应的有向边编码器得到用户u和物品i在该有向边下对应的用户行为转换特征m

由此可见，针对一个交互行为，通过有向无环行为图全面考虑所有可能的行为转换情形，使所有观察到的交互行为路径都能被自然、恰当地纳入到该交互行为的用户和物品表征的预测过程中，展示了现实世界场景的复杂性和多样性，可以提高模型的表现力。

另外，需要说明的是，在针对任一有向边连接的终止行为节点，通过聚合连接的各有向边下提取的用户行为转换特征、物品行为转换特征进行聚合以得到该终止行为节点对应的用户表征、物品表征的过程中，每个用户行为转换特征、物品行为转换特征都会以对应的转换权重进行加权求和以实现聚合，其中，转换权重包括用户行为转换权重和物品行为转换权重，分别对应于用户和物品。比如图5中示意的用户u在不同行为之间的用户行为转换权重：w

在训练过程中，按照如下行为节点{b0，b1,b2,b3}的顺序，逐次更新每个行为节点对应的各用户表征、各物品表征。在一次训练过程结束后，可以计算总预测损失函数值Loss，根据该总预测损失函数值Loss进行反向传播，以调整被训练的参数，包括各有向边编码器的参数以及上述转换权重。当经过多次训练后，如果总预测损失函数值符合设定条件，或达到设定的训练迭代次数，则截止训练。此时得到每个行为节点对应的各物品表征和各用户表征。

在一可选实施例中，上述总预测损失函数值可以根据多个行为节点各自对应的预测损失函数值确定，如图5中所示，行为节点b1、b2、b3各自对应的预测损失函数值分别表示为L1、L2、L3。可选地，总预测损失函数值Loss可以是L1、L2和L3的累加和，具体加和形式不作具体限定。

以行为节点b1为例，其对应的预测损失函数值L1的计算过程可以是：

举例来说，以用户u为例，假设物品集中共N个物品，其中用户u在行为节点b1对应有N1个物品，即用户u实际对N1个物品触发过交互行为b1，可以从中采样出N2个物品作为用户u在行为节点b1下对应的正样本，另外，针对N2个正样本中的每个正样本，可以从剩余的(N-N1)个物品中采样出至少一个物品作为与该正样本对应的负样本，从而形成与该正样本对应的至少一个样本对。为便于描述，假设一个正样本对应采样出一个负样本，则最终会形成N2个样本对。针对每个样本对，以用户u在行为节点b1下对应的用户表征分别与这个样本对中的正负样本所对应的物品表征进行内积计算，得到正样本对应的交互概率预测值p1以及负样本对应的交互概率预测值p2，计算p1-p2的差值的对数值。针对用户u对应的N2个样本对都进行上述计算处理，会得到N2个差值的对数值。累计这N2个差值的对数值，得到用户u在行为节点b1下对应的预测损失函数值。针对用户集中多个用户，分别得到各自在行为节点b1下对应的预测损失函数值之后，进行累计以得到行为节点b1对应的预测损失函数值。

在上述方案中，当需要面向目标交互行为进行物品推荐时，以预设交互行为链为基准，将用户可能的多种交互行为路径转换为有向无环行为图，纳入统一的拓扑中，可以更加真实地反映实际交互场景。在该有向无环行为图中，位于目标交互行为之前的通过不同交互行为路径到达目标交互行为的各交互行为都作为辅助交互行为，基于该有向无环行为图来学习不同交互行为之间的个性化依赖关系，依次更新低层次的辅助交互行为到高层次的目标交互行为的用户和物品表征，使得目标交互行为对应的用户和物品表征中融合了来自前序各辅助交互行为的语义信息，最终实现对目标交互行为的物品推荐准确率的提高。

图6为本发明实施例提供的一种有向边编码器训练方法的流程图，如图6所示，该方法可以包括如下步骤：

601、对于当前遍历到的目标有向边连接的起始行为节点所对应的任一用户表征，在该起始行为节点所对应的各物品表征中确定目标物品表征，目标物品表征与该任一用户表征所对应的任一用户在目标有向边连接的终止行为节点下对应的物品相对应。

602、基于目标有向边对应的有向边编码器对上述任一用户表征和目标物品表征进行语义特征提取处理，以得到上述任一用户在目标有向边下对应的用户行为转换特征。

603、针对目标有向边连接的起始行为节点所对应的任一物品表征，在该起始行为节点所对应的各用户表征中确定目标用户表征，目标用户表征与该任一物品表征所对应的任一物品在所述终止行为节点下对应的用户相对应。

604、基于目标有向边对应的有向边编码器对所述任一物品表征和目标用户表征进行语义特征提取处理，以得到所述任一物品在目标有向边下对应的物品行为转换特征。

605、针对所述终止行为节点，以同一用户维度聚合至少一条有向边对应的各用户行为转换特征以及以同一物品维度聚合所述至少一条有向边对应的各物品行为转换特征，以根据聚合结果更新终止行为节点对应的各用户表征和各物品表征，所述至少一条有向边均指向该终止行为节点。

上述步骤601-604中所介绍的有向边编码器的工作过程，可以表示为如下公式形式：

其中，在有向边(bk’,bk)下，针对任一用户u，相应有向边编码器输出的用户行为转换特征为m

有向边编码器内部的工作原理可以参考现有相关技术实现，在此不赘述。

通过上述过程，可以得到任一目标有向边下每个用户对应的用户行为转换特征以及每个物品对应的物品行为转换特征，基于这些用户行为转换特征和物品行为转换特征可以更新目标有向边所连接的终止行为节点的各用户表征和各物品表征。

比如针对终止行为节点bk来说，假设指向它的有向边有R条，以用户u为例，可以聚合R条有向边下用户u分别对应的用户行为转换特征，聚合结果作为用户u在终止行为节点bk下对应的用户表征。物品i在终止行为节点bk下对应的物品表征同理。

在一可选实施例中，上述步骤605可以实现为：

确定当前所述至少一条有向边中每条有向边对应的各用户行为转换权重和各物品行为转换权重，作为被训练参数的各用户行为转换权重和各物品行为转换权重分别对应于不同用户和不同物品；

根据同一用户在所述至少一条有向边中分别对应的用户行为转换权重，对同一用户在所述至少一条有向边中分别对应的用户行为转换特征进行加权求和处理，以得到该同一用户在上述终止行为节点下对应的第一聚合用户行为转换特征；

根据同一物品在所述至少一条有向边中分别对应的物品行为转换权重，对该同一物品在所述至少一条有向边中分别对应的物品行为转换特征进行加权求和处理，以得到该同一物品在终止行为节点下对应的第一聚合物品行为转换特征；

根据第一聚合用户行为转换特征更新上述同一用户在终止行为节点下对应的用户表征，以及根据第一聚合物品行为转换特征更新上述同一物品在终止行为节点下对应的物品表征。

上述用户行为转换权重、物品行为转换权重，即为图5中示意的各转换权重，任一有向边(bk’,bk)下，用户u和物品i对应的用户行为转换权重、物品行为转换权重可以表示为：w

由上述公式以及转换权重可知：有向边编码器对用户u在行为节点k’下对应的用户表征以及用户u在行为节点k下交互过的物品在行为节点k’下对应的物品表征进行编码，可以学习到用户u的一些行为模式特征：用户u是否会对一些物品先后执行行为节点k’和行为节点k对应的交互行为。那么沿着不同有向边逐步向目标行为节点bK来基于用户行为转换权重进行传递，最终可以学习到用户u所表现出的行为模式特征：果断决策型—对很多物品都通过很短的交互路径到达目标行为节点bK、深思熟虑型—对很多物品都通过很长的交互路径到达目标行为节点bK。

类似地，有向边编码器对物品i在行为节点k’下对应的物品表征以及物品i在行为节点k下被交互过的用户在行为节点k’下对应的用户表征进行编码，可以学习到物品i的一些属性特征：物品i是否会被一些用户先后执行行为节点k’和行为节点k对应的交互行为。那么沿着不同有向边逐步向目标行为节点bK来基于物品行为转换权重进行传递，最终可以学习到物品i所表现出的固有属性特征：易耗品—被很多用户通过很短的交互路径到达目标行为节点bK、奢侈品—被很多用户通过很长的交互路径到达目标行为节点bK。

在另一可选实施例中，针对上述终止行为节点bk，还可以通过残差网络保留来自上一行为节点bk-1的必要特征信息，从而融合多角度的语义信息，能够得到当前行为节点bk的全面表征。需要说明的是，对于有向边(bk’,bk)，行为节点bk的上一行为节点未必是bk’，该上一行为节点是根据各行为节点在预设交互行为链中的排序确定的。

基于此，上述根据第一聚合用户行为转换特征更新同一用户在所述终止行为节点下对应的用户表征，以及根据述第一聚合物品行为转换特征更新述同一物品在所述终止行为节点下对应的物品表征，可以实现为：

确定终止行为节点的上一行为节点，上一行为节点与预设交互行为链中位于终止行为节点对应的交互行为的前一交互行为相对应；

获取同一用户在该上一行为节点下对应的用户表征，以及同一物品在该上一行为节点下对应的物品表征；

根据第一聚合用户行为转换特征和同一用户在所述上一行为节点下对应的用户表征的加和结果，更新同一用户在终止行为节点下对应的用户表征；以及根据第一聚合物品行为转换特征和同一物品在所述上一行为节点下对应的物品表征的加和结果，更新同一物品在终止行为节点下对应的物品表征。

为便于理解上述训练过程，结合图7示例说明。

在图7中，假设行为节点包括顺序排列的{b0,b1,…,bk-1,bk}，并假设行为节点bk之前的这些行为节点都具有指向行为节点bk的有向边，则如图7中示意的，行为节点b0,b1,…,bk-1下各自对应的用户表征、物品表征输入相应有向边编码器后，输出对应的用户行为转换特征、物品行为转换特征，基于相应有向边上的用户行为转换权重、物品行为转换权重分别进行加权求和处理之后，与行为节点bk-1下对应的用户表征、物品表征对应地进行叠加，以得到行为节点bk下对应的用户表征、物品表征。

以上实施例中，针对目标交互行为进行物品推荐时，不仅考虑目标交互行为对应的交互数据，还全面考虑前序其他各种交互行为的交互数据，利用多交互行为的数据，缓解了数据稀疏问题、冷启动问题。利用前序各种交互行为的数据的辅助，可以对用户、物品的特征的理解更加全面，为目标交互行为下物品推荐的预测提供支持，可以提高推荐结果准确性。将预设交互行为链拓展到有向无环行为图，符合对现实交互场景的直观认知，并能够感知用户的消费习惯、物品的自身属性。

前述实施例中介绍到在进行用户行为转换特征、物品行为转换特征聚合的时候，会使用到用户行为转换权重、物品行为转换权重，下面结合以下实施例对这两种转换权重的一种初始化方法进行说明。

图8为本发明实施例提供的一种初始化目标有向边对应的各用户行为转换权重的流程图，如图8所示，该方法可以包括如下步骤：

801、确定用户u在目标有向边的终止行为节点下对应的第一物品集合以及在目标有向边的起始行为节点下对应的第二物品集合。

用户u是用户集中任一个用户。

802、确定用户u在中间行为节点下对应的第三物品集合的并集，中间行为节点对应的交互行为在预设交互行为链中位于目标有向边的起始行为节点和终止行为节点对应的交互行为之间。

803、去除第一物品集合中包含于所述并集中的物品以得到第四物品集合，对第四物品集合与第二物品集合进行取交集处理，得到第五物品集合。

804、以第五物品集合中物品数量和第一物品集合中物品数量的比值，初始化用户u在目标有向边下对应的用户行为转换权重。

假设目标有向边为(bk’,bk)，则其起始行为节点为bk’，终止行为节点为bk，针对用户u来说，其在该目标有向边下对应的用户行为转换权重

其中，

上述步骤中的中间行为节点对应于bj，j的取值范围如公式中所示。用户u在某中间行为节点bj下对应的第三物品集合为

去除第一物品集合中包含于所述并集中的物品以得到第四物品集合的过程即为

结合图9中来示例性说明用户u在不同有向边下对应的用户行为转换权重的初始化结果。

以图9中的有向边(b2,b3)为例，第一物品集合

需要说明的是，针对预设交互行为链B＝(b1,b2,…,bK)来说，

图10为本发明实施例提供的一种初始化目标有向边对应的各物品行为转换权重的流程图，如图10所示，该方法可以包括如下步骤：

1001、确定物品i在目标有向边的终止行为节点下对应的第一用户集合以及在目标有向边的起始行为节点下对应的第二用户集合。

物品i是物品集中任一个物品。

1002、确定物品i在中间行为节点下对应的第三用户集合的并集，中间行为节点对应的交互行为在预设交互行为链中位于目标有向边的起始行为节点和终止行为节点对应的交互行为之间。

1003、去除第一用户集合中包含于所述并集中的用户以得到第四用户集合，对第四用户集合与第二用户集合进行取交集处理，得到第五用户集合。

1004、以第五用户集合中用户数量和第一用户集合中用户数量的比值，初始化物品i在目标有向边下对应的物品行为转换权重。

假设目标有向边为(bk’,bk)，则其起始行为节点为bk’，终止行为节点为bk，针对物品i来说，其在该目标有向边下对应的物品行为转换权重

其中，

上述步骤中的中间行为节点对应于bj，j的取值范围如公式中所示。物品i在某中间行为节点bj下对应的第三用户集合为

去除第一用户集合中包含于所述并集中的用户以得到第四用户集合的过程即为

结合图11中来示例性说明物品i在不同有向边下对应的物品行为转换权重的初始化结果。

以图11中的有向边(b2,b3)为例，第一用户集合

通过如上图9-图11所示的实施例进行用户行为转换权重、物品行为转换权重的初始化处理，由于考虑了各用户、各物品真实经历的交互行为，使得初始化结果能够反映该真实的交互行为，有助于加快模型训练的收敛速度，获得更加准确的转换权重更新结果。

图12为本发明实施例提供的一种确定行为节点对应的预测损失函数值的流程图，如图12所示，该方法可以包括如下步骤：

1201、对于用户u，确定用户u在行为节点bk下对应的第六物品集合以及在目标行为节点bK下对应的第七物品集合。

1202、确定第六物品集合和第七物品集合的相似度作为行为节点bk下用户u对应的贡献权重。

1203、根据行为节点bk下用户u对应的贡献权重和用户u在行为节点bk下分别与各物品对应的交互概率预测值，确定用户u在行为节点bk下对应的预测损失函数值。

1204、根据各用户分别在行为节点bk下对应的预测损失函数值，确定行为节点bk对应的预测损失函数值。

本实施例中，介绍任一行为节点bk(0

行为节点bk下用户u对应的贡献权重

其中，

在根据前述其他实施例中介绍的步骤确定出用户u在行为节点bk下分别与各物品对应的交互概率预测值之后，基于

汇总用户集中所有用户在行为节点bk下对应的预测损失函数值，以得到行为节点bk对应的预测损失函数值Lk。

上述方案中，通过贡献权重计算每一个辅助交互行为bk和目标交互行为bK的关联分数，从而更灵活地协调辅助交互行为和目标交互行为之间的关系。

以下将详细描述本发明的一个或多个实施例的物品推荐装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图13为本发明实施例提供的一种物品推荐装置的结构示意图，该装置应用于上述移动终端中，如图13所示，该装置包括：获取模块11、生成模块12、训练模块13、推荐模块14。

获取模块11，用于获取对应于预设交互行为链的历史交互数据以及所述预设交互行为链对应的多个交互行为路径，所述预设交互行为链中包括顺序排列的多个交互行为，所述多个交互行为路径是所述预设交互行为链的子链，所述历史交互数据用于描述用户集中各用户在所述多个交互行为下分别对应的包含于物品集中的物品。

生成模块12，用于根据所述多个交互行为路径和所述历史交互数据生成有向无环行为图，其中，所述有向无环行为图中包括对应于所述多个交互行为的多个行为节点，不同行为节点之间的有向边用于反映所述多个交互行为路径，每个行为节点关联有所述用户集中各用户在相应交互行为下对应的物品以及所述物品集中各物品在相应交互行为下对应的用户。

训练模块13，用于训练与所述有向无环行为图对应的有向边编码器，以通过所述有向边编码器提取行为节点对之间的各用户行为转换特征和各物品行为转换特征，以及根据提取的各用户行为转换特征和各物品行为转换特征，依次确定所述多个行为节点各自对应的各用户表征和各物品表征。

推荐模块14，用于在根据所述多个行为节点各自对应的各用户表征和各物品表征确定满足训练截止条件时，根据训练截止时目标行为节点所对应的各用户表征和各物品表征进行物品推荐。

可选地，所述训练模块13具体用于：在训练与所述有向无环行为图对应的有向边编码器的过程中，依次遍历各有向边，将当前遍历到的目标有向边连接的起始行为节点所对应的各用户表征和各物品表征输入所述目标有向边对应的有向边编码器，以提取所述目标有向边对应的各用户行为转换特征和各物品行为转换特征；针对所述目标有向边指向的终止行为节点，以同一用户维度聚合至少一条有向边对应的各用户行为转换特征以及以同一物品维度聚合所述至少一条有向边对应的各物品行为转换特征，以根据聚合结果更新所述终止行为节点对应的各用户表征和各物品表征，所述至少一条有向边均指向所述终止行为节点。

可选地，所述训练模块13具体用于：针对所述起始行为节点所对应的任一用户表征，在所述起始行为节点所对应的各物品表征中确定目标物品表征，所述目标物品表征与所述任一用户表征所对应的任一用户在所述终止行为节点下对应的物品相对应；基于所述目标有向边对应的有向边编码器对所述任一用户表征和所述目标物品表征进行语义特征提取处理，以得到所述任一用户在所述目标有向边下对应的用户行为转换特征；针对所述起始行为节点所对应的任一物品表征，在所述起始行为节点所对应的各用户表征中确定目标用户表征，所述目标用户表征与所述任一物品表征所对应的任一物品在所述终止行为节点下对应的用户相对应；基于所述目标有向边对应的有向边编码器对所述任一物品表征和所述目标用户表征进行语义特征提取处理，以得到所述任一物品在所述目标有向边下对应的物品行为转换特征。

可选地，所述训练模块13具体用于：确定当前所述至少一条有向边中每条有向边对应的各用户行为转换权重和各物品行为转换权重，作为被训练参数的所述各用户行为转换权重和各物品行为转换权重分别对应于不同用户和不同物品；根据同一用户在所述至少一条有向边中分别对应的用户行为转换权重，对所述同一用户在所述至少一条有向边中分别对应的用户行为转换特征进行加权求和处理，以得到所述同一用户在所述终止行为节点下对应的第一聚合用户行为转换特征；根据同一物品在所述至少一条有向边中分别对应的物品行为转换权重，对所述同一物品在所述至少一条有向边中分别对应的物品行为转换特征进行加权求和处理，以得到所述同一物品在所述终止行为节点下对应的第一聚合物品行为转换特征；根据所述第一聚合用户行为转换特征更新所述同一用户在所述终止行为节点下对应的用户表征，以及根据所述第一聚合物品行为转换特征更新所述同一物品在所述终止行为节点下对应的物品表征。

可选地，所述训练模块13具体用于：确定所述终止行为节点的上一行为节点，所述上一行为节点与所述预设交互行为链中位于所述终止行为节点对应的交互行为的前一交互行为相对应；获取所述同一用户在所述上一行为节点下对应的用户表征，以及所述同一物品在所述上一行为节点下对应的物品表征；根据所述第一聚合用户行为转换特征和所述同一用户在所述上一行为节点下对应的用户表征的加和结果，更新所述同一用户在所述终止行为节点下对应的用户表征；以及根据所述第一聚合物品行为转换特征和所述同一物品在所述上一行为节点下对应的物品表征的加和结果，更新所述同一物品在所述终止行为节点下对应的物品表征。

可选地，所述训练模块13还用于：根据如下步骤初始化目标有向边对应的各用户行为转换权重：确定用户集中任一用户在所述目标有向边的终止行为节点下对应的第一物品集合以及在所述目标有向边的起始行为节点下对应的第二物品集合；确定所述任一用户在中间行为节点下对应的第三物品集合的并集，所述中间行为节点对应的交互行为在所述预设交互行为链中位于所述起始行为节点和所述终止行为节点对应的交互行为之间；去除所述第一物品集合中包含于所述并集中的物品，以得到第四物品集合；对所述第四物品集合与所述第二物品集合进行取交集处理，得到第五物品集合；以所述第五物品集合中物品数量和所述第一物品集合中物品数量的比值，初始化所述任一用户在所述目标有向边下对应的用户行为转换权重。

可选地，所述训练模块13还用于：根据如下步骤初始化目标有向边对应的各物品行为转换权重：确定物品集中任一物品在所述目标有向边的终止行为节点下对应的第一用户集合以及在所述目标有向边的起始行为节点下对应的第二用户集合；确定所述任一物品在中间行为节点下对应的第三用户集合的并集，所述中间行为节点对应的交互行为在所述预设交互行为链中位于所述起始行为节点和所述终止行为节点对应的交互行为之间；去除所述第一用户集合中包含于所述并集中的用户，以得到第四用户集合；对所述第四用户集合与所述第二用户集合进行取交集处理，得到第五用户集合；以所述第五用户集合中用户数量和所述第一用户集合中用户数量的比值，初始化所述任一物品在所述目标有向边下对应的物品行为转换权重。

可选地，所述训练模块13还用于：对任一行为节点对应的各用户表征和各物品表征进行内积计算，以得到各用户在所述任一行为节点下分别与各物品对应的交互概率预测值；根据所述各用户在所述任一行为节点下分别与各物品对应的交互概率预测值，确定所述任一行为节点对应的预测损失函数值；根据所述多个行为节点各自对应的预测损失函数值，确定总预测损失函数值；根据所述总预测损失函数值确定是否满足所述训练截止条件。

可选地，所述训练模块13具体用于：对于任一用户，确定所述任一用户在所述任一行为节点下对应的第六物品集合以及在所述目标行为节点下对应的第七物品集合；确定所述第六物品集合和所述第七物品集合的相似度作为所述任一行为节点下所述任一用户对应的贡献权重；根据所述任一行为节点下所述任一用户对应的贡献权重和所述任一用户在所述任一行为节点下分别与各物品对应的交互概率预测值，确定所述任一用户在所述任一行为节点下对应的预测损失函数值；根据所述各用户分别在所述任一行为节点下对应的预测损失函数值，确定所述任一行为节点对应的预测损失函数值。

可选地，推荐模块14具体用于：根据训练截止时所述目标行为节点所对应的目标用户表征分别与训练截止时所述目标行为节点所对应的各物品表征的内积结果，确定目标用户分别对各物品触发目标交互行为的概率，所述目标用户对应于所述目标用户表征，所述目标交互行为对应于所述目标行为节点；根据所述目标用户分别对各物品触发目标交互行为的概率，确定所述目标用户对应的物品推荐结果。

图13所示装置可以执行前述实施例中提供的步骤，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

本发明实施例还提供一电子设备，如图14所示，其中可以包括：处理器21、存储器22、通信接口23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，实现如前述实施例中的物品推荐方法。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备中的处理器执行时，可以实现如前述实施例中提供的物品推荐方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载