导航：首页> 计算；推算；计数>一种用于冷启动的推荐方法、装置及计算机可读存储介质

一种用于冷启动的推荐方法、装置及计算机可读存储介质

文献发布时间：2023-06-19 11:39:06

技术领域

本发明涉及大数据技术领域，尤其涉及一种用于冷启动的推荐方法、装置及计算机可读存储介质。

背景技术

冷启动内容推荐是指在没有历史数据基础的情况下，对没有交互行为的新用户或新商品做相关推荐。例如：将平台中的商品推荐给新用户，或将新商品推荐给平台用户，等等。其中，在将平台中的商品推荐给新用户的过程中，由于历史数据较少，难以确定用户的真实兴趣，从而导致不能针对用户的需求做出准确的推荐，影响用户的体验，造成平台用户的流失。

发明内容

本发明实施例提供一种用于冷启动的推荐方法、装置及计算机可读存储介质，可以提高物品推荐的准确性和灵活性，增强用户体验。

第一方面，本发明实施例提供一种用于冷启动的推荐方法，包括：

获取客户端在访问第一领域平台过程中生成的用户数据，并根据所述用户数据确定用户向量，所述用户向量用于指示所述客户端的用户数据；

获取第二领域平台中物品数据的物品信息，并根据所述物品信息确定所述物品数据的物品词向量，所述第二领域平台包括至少一个物品，所述第二领域平台是尚未与所述客户端发生过交互的平台；

通过训练模型对所述用户向量及所述物品词向量进行匹配处理，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度；

根据各个所述物品与所述客户端之间的匹配度，得到推荐数据，所述推荐数据包括目标物品的标识，所述目标物品为第二领域平台中与所述客户端相匹配的至少一个物品；

发送所述推荐数据至所述客户端。

在该技术方案中，服务器在获取到客户端与第一领域平台在交互过程中产生的用户数据及第二领域平台的物品数据的情况下，基于用户数据的用户向量，及物品数据的物品词向量。通过已经训练的模型对用户向量及物品词向量进行匹配处理，可以得到第二领域平台中与客户端相关度较高的目标物品，则将目标物品的标识作为推荐数据推荐给客户端。通过本实施例的方法，可以提高物品推荐的准确性和灵活性，增强用户体验。

第二方面，本发明实施例提供一种用于冷启动的推荐装置，包括：

收发单元，用于获取客户端在访问第一领域平台过程中生成的用户数据；

处理单元，用于根据所述用户数据确定用户向量，所述用户向量用于指示所述客户端的用户数据；获取第二领域平台中物品数据的物品信息，并根据所述物品信息确定所述物品数据的物品词向量；通过训练模型对所述用户向量及所述物品词向量进行匹配处理，得到推荐数据；

所述收发单元，还用于发送所述推荐数据至所述客户端。

第三方面，本发明实施例提供一种用于冷启动的推荐装置，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面所描述的方法。该处理设备解决问题的实施方式以及有益效果可以参见上述第一方面所描述的方法以及有益效果，重复之处不再赘述。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有一条或多条第一指令，所述一条或多条第一指令适于由处理器加载并执行如第一方面所描述的方法。

在本申请实施例中，服务器获取客户端在访问第一领域平台过程中产生的包括文本数据及非文本数据的用户数据，以根据该用户数据了解客户端的操作用户的兴趣与潜在需求；并获取第二领域平台的物品数据，该第二领域平台客户端未访问过的平台，以使服务器根据用户数据从该第二领域平台中找到该用户可能感兴趣的物品；根据用户数据得到的包括非文本域向量及文本域词向量的用户向量，以及根据物品数据得到物品词向量，通过已经训练的模型对该用户向量及该物品词向量进行匹配处理，可以得到第二领域平台中与客户端相关度较高的目标物品，即客户端的操作用户在该第二领域平台中可能感兴趣的物品；则将目标物品的标识作为推荐数据推荐给客户端，以使客户端将该目标物品展示给客户端的操作用户。通过本实施例的方法，可以提高物品推荐的准确性和灵活性，增强用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用于冷启动的推荐系统的架构图；

图2是本发明实施例提供的一种用于冷启动的推荐系统的区块链结构示意图；

图3是本发明实施例提供的一种区块结构图；

图4是本发明实施例提供的一种用于冷启动的推荐方法的流程示意图；

图5是本发明实施例提供的一种用于冷启动的推荐算法的结构示意图；

图6是本发明实施例提供的另一种用于冷启动的推荐方法的流程示意图；

图7是本发明实施例提供的又一种用于冷启动的推荐方法的流程示意图；

图8是本发明实施例提供的一种用于冷启动的推荐装置的结构示意图；

图9是本发明实施例提供的另一种用于冷启动的推荐装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或装置没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选的还包括对于这些过程、方法、产品或装置固有的其它步骤或模块。

目前，冷启动在推荐系统中具有重要作用，主要指对于没有交互行为的新用户或新物品做推荐，常用于产品拉新、增加日活等场景中，但由于历史数据较少，难以准确捕捉用户真实兴趣，因此，如何基于用户在其他场景下已有的海量文本数据，挖掘出与当前场景下待推荐物品的相关性是亟待解决的问题，其中，文本数据是指用户在利用平台进行搜索、阅读等行为下产生的海量文本数据。

为解决上述问题，本发明实施例一种用于冷启动的推荐方法、装置及计算机可读存储介质，可以提高物品推荐的准确性和灵活性。具体的，在第二领域平台尚未与该用户发生交互生成用户数据的情况下，例如：用户第一次注册访问该平台，则该平台不存在与该用户在交互过程中产生的用户数据；或平台中新物品尚没有被平台用户访问到，则该平台与该平台用户之间不存在有关该新物品的用户数据。可以采集该用户在与其他平台交互过程中已产生的用户数据，通过已经训练的模型进行数据计算，基于已产生的用户数据与第二领域平台中的物品进行相似度匹配，得到与该已产生的用户数据相关度较高的目标物品，该目标物品即为用户可能会感兴趣的物品，例如：感兴趣的文章类别、感兴趣的歌曲或感兴趣的商品。其中，训练模型的过程主要基于用户在其他平台下交互过程中产生的用户数据及该用户在第二领域平台下搜素物品产生的物品数据进行模型训练，通过该训练出的模型对物品进行推荐。例如：用户A首次注册并使用购物App，则可以采集用户A在使用搜索浏览器、新闻App等平台时产生的用户数据，并采集该购物App中的商品数据，通过已训练的模型对用户数据及商品数据的匹配发现，用户A近期搜索很多关于空调的信息，则该购物App确定用户A可能需要购买空调，则向用户A推荐该购物App中空调类别的商品。实现冷启动情况下预测用户需求的过程，提高物品推荐的准确性和灵活性，增强用户体验。

上述所提及的用于冷启动的推荐方法可应用于如图1所示的用于冷启动的推荐系统中，该用于冷启动的系统可包括客户端101、服务器102、第一领域平台103及第二领域平台104。其中，客户端101可以是接收服务器102推荐的第二领域平台104中物品的推荐对象所对应的客户端，也可以为在模型训练过程中服务器102进行数据挖掘的挖掘对象所对应的客户端，该客户端101可以为一个或多个客户端，例如：一个客户端101可以包括两个客户端，本发明不做限制，其中，服务器102为处理该物品推荐过程或进行模型训练时所使用的服务器。第一领域平台103可以是为客户端101的操作用户105提供海量数据资源的平台，例如：搜索浏览器平台、新闻阅读App，等等。在本发明中该第一领域平台103可以为一个或多个，例如：第一领域平台103可以包括搜索浏览器平台及新闻阅读App。第二领域平台104是操作用户105尚没有通过客户端101访问并生成用户数据的平台，可选的，该第二领域平台104也可以为服务器102的内置平台，此处不做限制。其中，第一领域平台103及第二领域平台104可以包括但不限于客户端或服务器。客户端可以为以下任一种：终端、独立的应用程序、应用程序编程接口(Application Programming Interface，API)或者软件开发工具包(Software Development Kit，SDK)。终端可以是手机、个人计算机、便捷式计算机等。服务器可以包括但不限于集群服务器。

本发明实施方式中，在客户端101为接收服务器102推荐第二领域平台104中物品的推荐对象所对应的客户端的情况下，具体的，操作用户105通过操作客户端101在该第一领域平台103搜索后会产生海量的用户数据，该用户数据为服务器102利用训练模型预测物品提供数据基础，服务器102可以根据客户端101与第一领域平台103交互过程中产生的用户数据及第二领域平台104的物品数据之间的匹配度，向操作用户105推荐第二领域平台104中的物品。

本发明实施方式中，在客户端101为在模型训练过程中服务器101进行数据挖掘的挖掘对象所对应的客户端的情况下。服务器102可以基于客户端101前期与第一领域平台103及第二领域平台104交互过程中产生的样本数据，进行模型训练。通过该模型可以进一步预测操作用户105可能需要的目标物品。

作为一种实施方式，本发明的用于冷启动的推荐方法可应用于如图2所示的系统中，该系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图2，图2是本发明实施例提供的分布式系统201应用于区块链系统的一个可选的结构示意图，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer ToPeer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图2示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图3，图3是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

请参见图4，图4为本发明实施例提供的一种用于冷启动的推荐方法的流程示意图，在本实施方式中，客户端101为接收第二领域平台104中物品的推荐对象所对应的客户端。如图4所述，该用于冷启动的推荐方法可以包括401～406部分，其中：

401、服务器102获取客户端101在访问第一领域平台过程中生成的用户数据。

具体的，服务器102获取操作用户105通过客户端101在第一领域平台103进行搜索时产生的用户数据。其中，第一领域平台为与操作用户105的客户端101已产生交互并生成海量用户数据的平台，该第一领域平台可以为：搜索浏览器平台、新闻阅读App及音乐App，等等。可选的，该用户数据可以为服务器102从客户端101直接挖掘得到的，也可以为客户端101将用户数据发送给该服务器102的，本发明不做限制。通过执行本方式，可以获取用户在访问除第二领域平台104之外的其他已交互平台中生成的用户数据，以为预测该用户在第二领域平台104中可能感兴趣的物品提供数据基础。

进一步的，用户数据具体可以包括非本文数据与文本数据，其中，非文本数据为非文本性质的数据，例如：用户的性别、年龄、城市，当前时间、客户端的设备号，等等。文本数据为客户端101在与第一领域平台103进行交互时产生的文本类数据，例如：搜索引擎记录、文章阅读记录、音箱的对话记录，等等。通过执行本方式，可以获取到更全面的用户信息，例如：可以针对用户的性别、年龄等群体性质，推荐合适的内容；也可以针对用户的历史访问数据等个体性质，了解用户的潜在需求，提供有针对性的内容推荐。

402、服务器102根据用户数据确定用户向量。

具体的，服务器102在获取到客户端101的用户数据的情况下，根据该用户数据确定用户向量，该用户向量用于指示客户端的用户数据。其中，用户向量可以包括非文本域的向量及文本域的至少一个词向量。该用户向量的获取方式如下：

用户数据包括非文本数据及文本数据，对于非文本类数据可以处理为一个非文本域的向量的形式，对于文本类数据，可以基于预设语料数据库对文本数据进行切词处理，该切词处理的方法包括但不限于：正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法，等等。将切取得到的至少一个词与预设语料数据库建立映射关系，得到可以表示映射关系的文本域的至少一个词向量。其中，预设语料数据库可以理解为语料词典表。则本实施方式中的用户向量可以包括非文本域的向量及文本域的至少一个词向量。

403、服务器102获取第二领域平台104中物品数据的物品信息，并根据物品信息确定物品数据的物品词向量。

具体的，服务器102获取第二领域平台104中的物品数据，并对物品数据进行切词处理得到物品信息，其中，第二领域平台104包括至少一个物品，该第二领域平台是尚未与所述客户端101发生过交互的平台，也可以理解为，第二领域平台是操作用户105尚未通过客户端101访问过的平台，第一领域平台与第二领域平台是不同的平台。物品信息也可以理解为切取的物品词，该物品信息可以为切取的一个或多个词，切词方法可参见步骤402中的相关描述，此处不再赘述，根据切取的物品信息得到该物品数据的物品词向量。其中，物品数据可以理解为第二领域平台104中物品的文本信息，例如：若第二领域平台104为音乐推荐平台，则物品可以为音乐，物品数据可以为音乐的作词者、作曲者、音乐的创作介绍、音乐标签、歌词，等等。若第二领域平台104为电商系统平台，则物品可以为一个商品，物品数据可以为商品的名字、标签、类别、描述、用户评论，等等。可选的，切词及获取词向量过程所需要匹配的数据库可以与对文本数据进行切词时所用的数据库相同，也可以为该物品数据所属平台的特有的数据库。通过执行本方式，可以获取到第二领域平台104中的物品，以备与上述用户数据进行相关度匹配，筛选出符合操作用户105兴趣的物品。

404、服务器102通过训练模型对用户向量及物品词向量进行匹配处理，得到第二领域平台中的各个物品与客户端之间的匹配度。

具体的，服务器102通过预先训练的模型对已获取并处理得到的用户向量及物品词向量进行匹配处理，其中，训练模型为通过挖掘已存在的用户数据及物品数据对模型中的特征参数进行优化训练得到的模型，以使服务器102可以通过该训练模型对用户向量及物品词向量的处理，得到第二领域平台104中各个物品与客户端101之间的匹配度，以使服务器102根据第二领域平台104中各个物品与客户端101之间的匹配度，得到推荐数据，即步骤405。该匹配度可以根据在二分类模型处理后输出的概率得到。

作为一种可选的实施方式，在通过训练模型对用户向量及物品词向量进行匹配处理时，可以先获取目标词向量的权重，其中，目标词向量为文本域的任一词向量。并在获取到目标词向量的权重的情况下，根据文本域的各个词向量以及各个词向量所对应的词向量的权重、物品词向量和非文本域的向量，得到推荐数据。其中，物品词向量的获取方法可以参见步骤403中的相关描述，此处不赘述。具体的，该获取目标词向量的权重的过程如下：

确定目标词向量所属类别的权重，该目标词向量所属类别的权重可以通过参数学习得到，该目标词向量所属类别的权重可以理解为该目标词向量所对应的文本数据所属第一领域平台103的领域权重，不同领域所对应的领域权重不同，该领域权重可以表示该第一领域平台103的领域对于上述物品数据的重要性，例如：若物品数据所属的第二领域平台104为电商平台，则操作用户105在搜索浏览器平台上的搜索行为的参考价值要高于文章阅读平台的搜索行为，该参考价值的高低即为该目标词向量所属类别的权重。在得到该目标词向量所属类别的权重的情况下，可以根据目标词向量、目标词向量所属类别的权重以及物品平均词向量，得到目标词向量的权重，其中，该物品平均词向量为对所有物品的物品词向量取平均得到的。具体的，获取该目标词向量的权重的表达式为：

其中，i为对文本数据进行切词得到的任一目标词，h

具体的，根据文本域的各个词向量以及词向量的权重、物品词向量和非文本域的向量，得到推荐数据的过程可以参见图5所示，在获取到用户数据及物品数据的情况下，分别得到文本域的词向量、非文本域的向量及物品词向量，其中，用户数据包括文本数据及非文本数据，该文本域的词向量及非文本域的向量的获取方式可以参见步骤402中的相关描述，且根据物品数据得到物品词向量的相关描述，可参见步骤403，此处不再赘述。对文本词向量通过注意力模块的处理，得到词向量的权重，该词向量的权重的获取方式可参见上述相关描述，此处不赘述。注意力模块主要用于基于注意力机制去除噪声文本，获取与用户数据关联度较高物品数据。对经过注意力机制处理后的得到的词向量的权重进行归一化处理，并将文本域的词向量与归一化处理后的词向量的权重相乘后输入到全连接层模块，且物品词向量和非文本域的向量也输入到全连接层模块，该全连接层模块主要用于将已经获取的局部特征通过矩阵将有用的信息提取整合，方便结果的分类。在经过全连接层模块处理后，经过二分类模型对输出的结果进行分类，具体的，输出结果可以代表输入的用户数据是否会与输入的物品数据进行交互，选取存在交互的目标物品数据作为推荐数据。

405、服务器102根据第二领域平台104中各个物品与客户端之间的匹配度，得到推荐数据。

具体的，在通过训练模型对用户向量及物品词向量进行匹配处理的，得到第二领域平台中的各个物品与客户端之间的匹配度的情况下，根据该匹配度，确定可以推荐的目标物品及该目标物品的标识，并生成包含目标物品标识的推荐数据。

作为一种可选的实施方式，可以根据概率的排序先后，取概率较大的目标物品，将该目标物品的标识推荐给操作用户105。例如：将概率排序在前10的物品的标识推荐给操作用户105。通过执行本方式，可以只向用户推荐相关度比较高的物品，提高了满足用户需求的可能性，增强用户体验。

406、服务器102发送推荐数据至客户端101。

具体的，在通过训练模型对用户向量及物品词向量进行处理，得到推荐数据的情况下，将该推荐数据发送至客户端101，以使客户端101将该推荐数据展示给操作用户105。

可见，通过实施图4所描述的方法，服务器在获取到客户端在访问第一领域平台过程中产生的包括文本数据及非文本数据的用户数据，以了解该用户的兴趣与潜在需求；并获取用户从未访问过的第二领域平台的物品数据，以使服务器根据用户数据从该第二领域平台中找到该操作用户可能感兴趣的物品；根据用户数据得到包括非文本域向量及文本域词向量的用户向量及根据物品数据得到物品词向量，通过已经训练的模型对该用户向量及该物品词向量进行匹配处理，可以去除噪声文本，并根据客户端在与其他平台交互过程中生成的用户数据从第二领域平台中匹配到操作用户可能感兴趣的目标物品，则将目标物品的标识作为推荐数据推荐给客户端。通过本实施例的方法，可以提高物品推荐的准确性和灵活性，增强用户体验。

请参见图6，图6为本发明实施例提供的一种用于冷启动的推荐方法的流程示意图，在本实施方式中，客户端101为在模型训练过程中服务器101进行数据挖掘的挖掘对象所对应的客户端。如图6所述，该用于冷启动的方法可以包括601～606部分，其中：

601、服务器102接收用户样本数据及第二领域平台104的物品样本数据；

具体的，服务器102可以挖掘第一领域平台103及第二领域平台104的数据，得到用户样本数据及物品样本数据，该用户样本数据及物品样本数据均可以为一个或多个。其中，物品样本数据包括正样本及负样本，正样本为与用户样本数据有关联的物品样本数据，例如：服务器102挖掘到用户a在12月22日之前的一个月内通过浏览器搜索大量空调信息，且于12月25日在电商平台购买了空调，则此时用户样本数据为用户a通过浏览器搜索大量空调信息产生的用户数据，正样本为空调的物品数据。负样本为与用户样本数据没有关联的物品样本数据，可以通过随机采样得到，例如：用户a在12月22日之前的一个月内没有通过浏览器搜索过服饰类信息，则负样本的选取对象可以为衬衫、裤子、裙子，等等。

602、服务器102获取生成物品样本数据的第一时间，及生成用户样本数据的第二时间。

具体的，可以获取生成物品样本数据的第一时间，及生成用户样本数据的第二时间。其中，第二时间为第一时间之前的时间点。第一时间为物品样本数据的产生时间点，第二时间为用户样本数据的产生时间点，例如：12月22日20点29分，等等。

603、服务器102判断生成物品样本数据的第一时间是否在第一预设时间段内，且生成用户样本数据的第二时间是否在第二预设时间段内。

具体的，若生成物品样本数据的第一时间在第一预设时间段内，且生成用户样本数据的第二时间在第二预设时间段内，则执行获取物品样本数据的物品样本信息的步骤，即步骤604；若否，则继续获取第一时间在第一预设时间段内的物品样本数据，且第二时间在第二预设时间段内用户样本数据。例如：第一预设时间段为11月26日之后的1个月，即11月26日至12月26日。第二预设时间段为12月25日之前的两个月，即9月25日至11月25日。服务器102获取到物品样本数据的产生时间为12月10日，用户样本数据的产生时间为11月22日，则确定物品样本数据的第一时间在第一预设时间段内，且用户样本数据的第二时间在第二预设时间段内，可以执行获取物品样本数据的物品样本信息的步骤。可选的，还可以通过训练模型从客户端101与第二领域平台104交互生成的所有物品样本数据中筛选并提取出在第一预设时间段内的所有物品样本数据。及客户端101与第一领域平台103交互生成的所有用户样本数据中筛选并提取出在第而预设时间段内的所有用户样本数据。可选的，步骤602及步骤603可以在步骤601之前执行，或步骤602及步骤603在步骤601之后执行，本发明不做限制。

604、服务器102获取物品样本数据的物品样本信息，并根据物品样本信息确定物品样本数据的物品样本词向量。

具体的，物品样本信息可以通过对物品样本数据的切词得到，则物品样本信息为切取得到的样本词，该样本词可以为一个或多个，其中，切词方法可以参见步骤403中对物品数据的切词过程的相关描述，根据切词得到的物品样本信息，确定该物品样本数据的物品样本词向量，其中，物品样本词向量的获取方法可以参见步骤402中对物品词向量获取过程的相关描述，此处不赘述。

605、服务器102根据用户样本数据确定用户样本数据的用户样本向量。

具体的，服务器102根据用户样本数据得到用户样本向量，该用户样本数据可以包括文本域样本数据及非文本域样本数据，该文本样本数据及非文本样本数据的具体描述可以参见步骤401中文本数据及非文本数据的相关描述，则服务器102根据用户样本数据得到用户样本向量的过程，可以为服务器102对文本样本数据进行切词处理，并根据切取到的样本词得到该文本样本数据的文本域的样本词向量，同时，服务器102对非文本样本数据进行处理，得到非文本域样本向量，其中，该文本域的样本词向量及非文本域样本向量的获取方法可以参见步骤402中文本域的词向量及非文本域向量获取方法的相关描述，此处不赘述。

606、服务器102根据用户样本向量及物品样本词向量，构建训练模型。

具体的，服务器102在获取到用户样本向量及物品样本词向量的情况下，通过用户样本向量及物品样本词向量优化模型中的特征参数，构建训练模型。

作为一种可选的实施方式，物品样本词向量包括正样本词向量及负样本词向量，其中，正样本词向量是根据物品样本数据中的正样本得到的，负样本词向量是根据物品样本数据中的负样本得到的，该正样本及负样本的相关描述可参见步骤601中的相关描述，此处不赘述。则服务器102可以根据该正样本词向量、负样本词向量及用户样本向量，优化该模型的特征参数，从而构建该训练模型。通过执行本方式，可以通过正样本及负样本进行模型参数的优化，以提高该训练模型预测的准确度。

可见，通过实施图6所描述的方法，服务器可以根据至少一个用户在访问第一领域平台及第二领域平台的过程中已产生的数据作为样本进行模型参数的优化，以训练该模型，使服务器可以根据该训练模型准确预测用户从未访问过的第二领域平台中该用户可能需要的物品，提高物品推荐的准确性和灵活性。

请参见图7，图7为本发明实施例提供的一种用于冷启动的推荐方法的流程示意图，如图7所述，该用于冷启动的推荐方法可以包括701～710部分，其中：

701、服务器102获取客户端101在访问第一领域平台过程中生成的用户数据。

步骤701的具体实现方式可参见上述步骤401的描述，在此不赘述。

702、服务器102获取生成用户数据的第三时间。

具体的，服务器102可以获取客户端101与第一领域平台103在交互过程中产生的用户数据的第三时间，该第三时间为用户数据的产生时间。具体可以一个时间点，例如：2019年12月22日21点59分，等等。

703、服务器102判断生成用户数据的第三时间是否在第三预设时间段内。

具体的，服务器102在获取到用户数据的第三时间的情况下，判断该第三时间是否在第三预设时间段内，该第三预设时间段可以为一个时间范围，例如：2019年9月22日至2019年12月22日，也可以为距离当前时间之前的两个月内，等等。若用户数据的第三时间在第三预设时间段内，则执行获取客户端101的用户数据的步骤，即步骤704；若否，则继续获取第三时间在第三预设时间段内的用户数据。例如：服务器102获取用户b在浏览器中的搜索电器过程中产生的一条用户数据的时间为2019年12月10日，第三预设时间段为2019年9月22日至2019年12月22日，则确定该用户数据的第三时间在第三预设时间段内。可选的，还可以通过训练模型从客户端101中的所有用户数据中筛选并提取出在第三预设时间段内的所有用户数据。通过执行本方式，可以在基于用户数据做推荐时，只参考近期的数据，例如：一个月、两个月，等等，可以更为准确的获取用户的近期需求。

704、服务器102根据用户数据确定用户向量

步骤704的具体实现方式可参见上述步骤402的描述，在此不赘述。

705、服务器102获取物品数据的热度信息。

具体的，服务器102获取第二领域平台104中的物品数据的热度信息。该热度信息可以为热度值，可以包括但不限于分数评价法或等级评价法，等等。例如：热度为8分、热度为10分，或为中级热度、高级热度。该热度值的评价参数可以包括但不限于搜索量、平台新品、平台主打产品，等等。可选的，也可以直接获取平台新品作为物品数据进行处理并输入至训练模型，即执行步骤706，可以为平台新品做推荐，用户也可以及时获取到感兴趣的新品信息。

706、服务器102判断物品数据的热度信息是否满足热度条件。

具体的，服务器102可以根据物品数据的热度信息判断物品数据是否满足热度条件，若物品数据的热度信息满足热度条件，则执行获取物品数据的物品信息的步骤，即步骤707；若物品数据的热度信息不满足热度条件，则继续获取满足热度条件的物品数据。其中，热度条件可以包括但不限于热度值高于热度阈值，例如：获取热度值高于7的物品数据，等等；热度条件也可以为获取预设等级热度信息的物品数据，例如：获取中级以上等级的物品数据，等等。通过执行本方式，无需获取第二领域平台104的全部物品，而只需要获取部分物品，例如：热门物品，从而满足市场的需要。

707、服务器102获取第二领域平台中物品数据的物品信息，并根据物品信息确定物品数据的物品词向量。

708、服务器102通过训练模型对用户向量及物品词向量进行匹配处理，得到第二领域平台中的各个物品与客户端之间的匹配度。

709、服务器102根据第二领域平台104中各个物品与客户端之间的匹配度，得到推荐数据。

710、服务器102发送推荐数据至客户端101。

步骤707～710的具体实现方式可参见上述步骤403～406的描述，在此不赘述。

可见，通过实施图7所描述的方法，可以基于用户近期在搜索过程中产生的用户数据，推荐相关的物品，以满足用户的当下需求；也可以将第二领域平台中热门物品推荐给用户，以满足市场需要。通过本实施例的方法，可以跟接近用户需求，满足市场流行趋势的发展，提高物品推荐的灵活性，增强用户体验。

基于上述方法实施例的描述，本发明实施例还提出一种用于冷启动的推荐装置。该用于冷启动的推荐装置可以是运行于处理设备中的计算机程序(包括程序代码)；请参见图8所示，该用于冷启动的推荐装置可以运行如下单元：

收发单元801，用于获取客户端在访问第一领域平台过程中生成的用户数据；

处理单元802，用于根据所述用户数据确定用户向量，所述用户向量用于指示所述客户端的用户数据；获取第二领域平台中物品数据的物品信息，并根据所述物品信息确定所述物品数据的物品词向量，所述第二领域平台包括至少一个物品，所述第二领域平台是尚未与所述客户端发生过交互的平台；通过训练模型对所述用户向量及所述物品词向量进行匹配处理，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度；根据各个所述物品与所述客户端之间的匹配度，得到推荐数据，所述推荐数据包括目标物品的标识，所述目标物品为第二领域平台中与所述客户端相匹配的至少一个物品；

所述收发单元801，还用于发送所述推荐数据至所述客户端。

在一种实施方式中，所述通过训练模型对所述用户向量及所述物品词向量进行匹配处理之前，收发单元801，可用于接收用户样本数据及所述第二领域平台的物品样本数据；

处理单元802，可用于获取所述物品样本数据的物品样本信息，并根据所述物品样本信息确定所述物品样本数据的物品样本词向量；

根据所述用户样本数据确定所述用户样本数据的用户样本向量；

根据所述用户样本向量及所述物品样本词向量，构建所述训练模型。

再一种实施方式中，所述用户向量包括文本域的至少一个词向量及非文本域的向量；所述通过训练模型对所述用户向量及所述物品词向量进行匹配处理，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度，处理单元802，可用于获取目标词向量的权重，所述目标词向量为所述文本域的任一词向量；

根据所述文本域的各个词向量以及所述词向量的权重、所述物品词向量和所述非文本域的向量，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度。

再一种实施方式中，所述获取目标词向量的权重，处理单元802，可用于确定所述目标词向量所属类别的权重；

根据所述目标词向量、所述目标词向量所属类别的权重以及物品平均词向量，得到所述目标词向量的权重，所述物品平均词向量为对所有物品的所述物品词向量取平均得到的。

再一种实施方式中，所述用户数据包括非文本数据和文本数据；所述根据所述文本域的各个词向量以及所述词向量的权重、物品词向量和所述非文本域的向量，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度之前，处理单元802，可用于对所述非文本数据进行处理，得到所述非文本域的向量；

对所述文本数据进行处理，得到所述文本域的各个词向量。

再一种实施方式中，处理单元802，可用于获取生成所述物品样本数据的第一时间，及生成所述用户样本数据的第二时间，所述第二时间为所述第一时间之前的时间点；

若生成所述物品样本数据的第一时间在第一预设时间段内，且生成所述用户样本数据的第二时间在第二预设时间段内，则执行获取所述物品样本数据的物品样本信息的步骤。

再一种实施方式中，所述物品样本词向量包括正样本词向量及负样本词向量；所述根据所述用户样本向量及所述物品样本词向量，构建所述训练模型，处理单元802，可用于根据所述正样本词向量、所述负样本词向量及所述用户样本向量，构建所述训练模型。

再一种实施方式中，所述获取第二领域平台中物品数据的物品信息之前，处理单元802，可用于获取所述物品数据的热度信息；

若所述物品数据的热度信息满足热度条件，则执行获取第二领域平台中物品数据的物品信息的步骤。

根据本发明的一个实施例，图4、图6及图7所示的用于冷启动的推荐方法所涉及的部分步骤可由用于冷启动的推荐装置中的各个单元来执行。例如，图4中所示的步骤401及404可由收发单元801执行；又如，图4所示的步骤402及403可由处理单元802执行。根据本发明的另一个实施例，用于冷启动的推荐装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。

请参见图9，是本发明实施例提供的一种用于冷启动的推荐装置的结构示意图，该用于冷启动的推荐装置包括处理器901、存储器902及通信接口903，处理器901、存储器902及通信接口903通过至少一条通信总线连接，处理器901被配置为支持处理设备执行图4、图6及图7方法中处理设备相应的功能。

存储器902用于存放有适于被处理器加载并执行的至少一条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。

通信接口903用于接收数据和用于发送数据。例如，通信接口903用于发送推荐数据等。

在本发明实施例中，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

通过通信接口903获取客户端在访问第一领域平台过程中生成的用户数据，并根据所述用户数据确定用户向量，所述用户向量用于指示所述客户端的用户数据；

通过训练模型对所述用户向量及所述物品词向量进行匹配处理，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度；

通过通信接口903发送所述推荐数据至所述客户端。

作为一种可选的实施方式，所述通过训练模型对所述用户向量及所述物品词向量进行匹配处理之前，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

通过通信接口903接收用户样本数据及所述第二领域平台的物品样本数据；

获取所述物品样本数据的物品样本信息，并根据所述物品样本信息确定所述物品样本数据的物品样本词向量；

根据所述用户样本数据确定所述用户样本数据的用户样本向量；

根据所述用户样本向量及所述物品样本词向量，构建所述训练模型。

作为一种可选的实施方式，所述用户向量包括文本域的至少一个词向量及非文本域的向量；

所述通过训练模型对所述用户向量及所述物品词向量进行匹配处理，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

获取目标词向量的权重，所述目标词向量为所述文本域的任一词向量；

作为一种可选的实施方式，所述获取目标词向量的权重，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

确定所述目标词向量所属类别的权重；

作为一种可选的实施方式，所述用户数据包括非文本数据和文本数据；

所述根据所述文本域的各个词向量以及所述词向量的权重、物品词向量和所述非文本域的向量，得到所述第二领域平台中的各个所述物品与所述客户端之间的匹配度之前，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

对所述非文本数据进行处理，得到所述非文本域的向量；

对所述文本数据进行处理，得到所述文本域的各个词向量。

作为一种可选的实施方式，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

获取生成所述物品样本数据的第一时间，及生成所述用户样本数据的第二时间，所述第二时间为所述第一时间之前的时间点；

作为一种可选的实施方式，所述物品样本词向量包括正样本词向量及负样本词向量；

所述根据所述用户样本向量及所述物品样本词向量，构建所述训练模型，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

根据所述正样本词向量、所述负样本词向量及所述用户样本向量，构建所述训练模型。

作为一种可选的实施方式，所述获取第二领域平台中物品数据的物品信息之前，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

获取所述物品数据的热度信息；

若所述物品数据的热度信息满足热度条件，则执行获取第二领域平台中物品数据的物品信息的步骤。

本发明实施例还提供了一种计算机可读存储介质(Memory)，可以用于存储图4、图6及图7中所示实施例中处理设备所用的计算机软件指令，在该存储空间中还存放了适于被处理器加载并执行的至少一条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。

上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：缪畅宇;
专利申请人：腾讯科技(深圳)有限公司;