模型训练方法、内容推荐方法、装置、介质、设备、产品

文献发布时间：2024-04-18 19:52:40

技术领域

本申请涉及计算机技术领域，具体涉及一种模型训练方法、内容推荐方法、装置、介质、设备、产品。

背景技术

随着互联网技术的不断发展，催生了很多新兴职业，比如，直播行业。

目前，许多软件应用均开始涉足直播业务，比如，音乐类软件应用。在相关技术中，通常是通过用户画像以及用户的直播行为数据，利用深度学习模型来计算用户对于直播以及主播的偏好程度，并基于用户对于直播以及主播的偏好程度对用户进行直播推荐。然而，在很多软件平台上，绝大部分用户都没有体验过直播，导致直播行为数据较为稀疏，无法准确预测用户对直播的偏好程度，导致无法对用户进行直播推荐。

发明内容

本申请实施例提供一种模型训练方法、内容推荐方法、装置、介质、设备、产品，可以克服用户直播行为数据稀疏的问题，从而准确预测用户对直播的偏好程度，进而提高对用户进行直播推荐的准确度。

第一方面，提供一种偏好确定模型的训练方法，所述方法还包括：

获取训练样本集合，所述训练样本集合中的每一条训练样本数据包括至少一个训练样本对象、以及所述至少一个训练样本对象中每个训练样本对象的多个历史直播行为特征、第一直播偏好度真值标签和第二直播偏好度真值标签；

将目标训练样本数据输入偏好确定模型，所述目标训练样本数据为所述训练样本集合中任一条训练样本数据；

获取所述偏好确定模型根据所述目标训练样本数据确定的对应目标训练样本对象的第一预测直播偏好度和所述目标训练样本对象的第二预测直播偏好度；

根据所述目标训练样本对象的第一预测直播偏好度、所述目标训练样本对象的第二预测直播偏好度，以及所述目标训练样本对象的第一直播偏好度真值标签和所述目标训练样本对象的第二直播偏好度真值标签，训练所述偏好确定模型的模型参数，以得到训练好的偏好确定模型。

可选的，在所述获取训练样本集合之前，还包括：

获取目标用户的历史直播行为数据，所述历史直播行为数据为所述目标对象在预设历史时间段内的直播行为数据，所述历史直播行为数据包括多个维度的数据；

根据所述多个维度中预先设定的至少一个第一维度的数据，确定所述目标对象的第一直播偏好度真值标签，并根据所述第一直播偏好度真值标签以及所述多个维度中预先设定的至少一个第二维度的数据确定所述目标对象的第二直播偏好度真值标签，所述第一直播偏好度真值标签用于表征所述目标对象针对直播前曝光内容的偏好度，所述第二直播偏好度真值标签用于表征所述目标对象针对直播实际内容的偏好度；

分别根据所述多个维度中每个维度的数据确定所述目标对象的多个历史直播行为特征；

根据所述目标对象、所述目标对象的多个历史直播行为特征、所述目标对象的所述第一直播偏好度真值标签，以及所述目标对象的第二直播偏好度真值标签构建训练样本集合。

可选的，所述根据所述第一直播偏好度真值标签以及所述多个维度中预先设定的至少一个第二维度的数据确定所述目标对象的第二直播偏好度真值标签：

在所述第一直播偏好度真值标签为预设值时，根据所述多个维度中预先设定的至少一个第二维度的数据确定所述目标对象的第二直播偏好度真值标签。

可选的，所述根据所述需求方平台在第一预设时间段内对所述目标价值层级内所有对象对应流量的多个出价记录，确定所述目标对象对应流量的目标保底价，还包括：

根据所述需求方平台在所述第一预设时间段内对所述目标价值层级中所有对象的第三历史出价集合，确定所述目标价值层级中所有对象的整体价值均值，所述第三历史出价集合包括所述需求方平台在所述第一预设时间段内对所述目标价值层级中所有对象对应流量的多个出价记录；

根据所述整体价值均值确定所述目标对象对应流量的目标保底价。

可选的，所述根据所述目标对象、所述目标对象的多个历史直播行为特征、所述目标对象的所述第一直播偏好度真值标签，以及所述目标对象的第二直播偏好度真值标签构建训练样本集合，包括：

将所述目标对象的多个历史直播行为特征中的连续特征转换为离散特征；

将所述目标对象的多个历史直播行为特征中的离散特征，以及所述转换后的离散特征进行编码，得到所述目标对象的历史直播行为数据特征编码；

根据所述目标对象、所述目标对象的历史直播行为数据特征编码、所述目标对象的所述第一直播偏好度真值标签，以及所述目标对象的第二直播偏好度真值标签，确定所述训练样本集中的一条训练样本数据。

可选的，所述根据所述目标对象、所述目标对象的历史直播行为数据特征编码，所述目标对象的所述第一直播偏好度真值标签，所述目标对象的第二直播偏好度真值标签，确定所述训练样本集中的一条训练样本数据，包括：

根据预设业务目标，确定所述目标对象对应的训练样本数据的权重；

根据所述目标对象、所述目标对象的历史直播行为数据特征编码、所述目标对象的所述第一直播偏好度真值标签、所述目标对象的第二直播偏好度真值标签以及所述目标对象对应的训练样本数据的权重，确定所述训练样本集中的一条训练样本数据。

可选的，根据所述目标训练样本对象的第一预测直播偏好度、所述目标训练样本对象的第二预测直播偏好度，以及所述目标训练样本对象的第一直播偏好度真值标签和所述目标训练样本对象的第二直播偏好度真值标签，训练所述偏好确定模型的模型参数，以得到训练好的偏好确定模型，包括：

根据所述目标训练样本对象的第一预测直播偏好度、所述目标训练样本对象的第二预测直播偏好度，以及所述目标训练样本对象的第一直播偏好度真值标签和所述目标训练样本对象的第二直播偏好度真值标签确定目标损失函数；

根据所述目标损失函数对所述偏好确定模型进行训练，得到所述训练好的偏好确定模型。

可选的，所述根据所述目标训练样本对象的第一预测直播偏好度、所述目标训练样本对象的第二预测直播偏好度，以及所述目标训练样本对象的第一直播偏好度真值标签和所述目标训练样本对象的第二直播偏好度真值标签确定目标损失函数，包括：

根据所述目标训练样本对象的第一预测直播偏好度、所述目标训练样本对象的第二预测直播偏好度，以及所述目标训练样本对象的第一直播偏好度真值标签、所述目标训练样本对象的第二直播偏好度真值标签和所述目标训练样本对应训练样本数据的权重确定目标损失函数。

第二方面，提供一种直播内容推荐方法，所述方法包括：

获取目标对象的多个直播行为特征编码，所述多个直播行为特征编码用于表征所述目标对象针对直播前曝光内容的行为特征以及所述目标对象针对直播实际内容的行为特征；

基于预设偏好确定模型，以所述多个直播行为特征编码作为所述预设偏好确定模型的输入，确定所述目标对象的第一直播偏好度和第二直播偏好度，并根据所述第一直播偏好度和所述第二直播偏好度确定所述目标对象的综合直播偏好度，其中，所述第一直播偏好度用于表征所述目标对象针对直播前曝光内容的偏好度，所述第二直播偏好度用于表征所述目标对象针对直播实际内容的偏好度；

根据所述目标对象的综合直播偏好度对所述目标对象进行直播内容推荐。

可选的，所述预设偏好确定模型包括嵌入模块、第一偏好确定模块和第二偏好确定模块；

所述基于预设偏好确定模型，以所述多个直播行为特征编码作为所述预设偏好确定模型的输入，确定所述目标对象的第一直播偏好度和第二直播偏好度，包括：

控制所述嵌入模块将所述多个直播行为特征编码分别转换为预设维度的多个连续特征向量；

控制所述第一偏好确定模块根据所述多个连续特征向量确定所述目标对象的第一直播偏好度；

控制所述第二偏好确定模块根据所述多个连续特征向量确定所述目标对象的第二直播偏好度。

可选的，所述控制所述第一偏好确定模块根据所述多个连续特征向量确定所述目标对象的第一直播偏好度，包括：

控制所述第一偏好确定模块根据所述多个连续特征向量，以及所述预设偏好确定模型中确定的所述第一偏好确定模块中所述多个连续特征向量中每个连续特征向量对应的权重数，计算所述目标对象的第一直播偏好度。

可选的，第二确定模块，具体还可以用于：根据所述需求方平台在所述第一预设时间段内对所述目标价值层级中所有对象的第三历史出价集合，确定所述目标价值层级中所有对象的整体价值均值，所述第三历史出价集合包括所述需求方平台在所述第一预设时间段内对所述目标价值层级中所有对象对应流量的多个出价记录；根据所述整体价值均值确定所述目标对象对应流量的目标保底价。

可选的，所述控制所述第二偏好确定模块根据所述多个连续特征向量确定所述目标对象的第二直播偏好度，包括：

控制所述第二偏好确定模块根据所述多个连续特征向量，以及所述预设偏好确定模型中确定的所述第二偏好确定模块中所述多个连续特征向量中每个连续特征向量对应的权重数，计算所述目标对象的第二直播偏好度。

可选的，所述根据所述第一直播偏好度和所述第二直播偏好度确定所述目标对象的综合直播偏好度，包括：

计算所述第一直播偏好度和所述第二直播偏好度之间的乘积；

将所述乘积确定为所述目标对象的综合直播偏好度。

可选的，所述根据所述综合直播偏好度对所述目标对象进行直播内容推荐，包括：

基于所述预设偏好确定模型，确定目标软件内包含所述目标对象的所有对象的综合直播偏好度；

根据所述所有对象的综合直播偏好度，对所述所有对象进行排序；

根据所述目标对象在所述排序中的位置，对所述目标对象进行直播内容推荐。

第三方面，提供一种偏好确定模型的训练装置，所述装置包括：

第一获取模块，用于获取训练样本集合，所述训练样本集合中的每一条训练样本数据包括至少一个训练样本对象、以及所述至少一个训练样本对象中每个训练样本对象的多个历史直播行为特征、第一直播偏好度真值标签和第二直播偏好度真值标签；

输入模块，用于将目标训练样本数据输入偏好确定模型，所述目标训练样本数据为所述训练样本集合中任一条训练样本数据；

第二获取模块，用于获取所述偏好确定模型根据所述目标训练样本数据确定的对应目标训练样本对象的第一预测直播偏好度和所述目标训练样本对象的第二预测直播偏好度；

训练模块，用于根据所述目标训练样本对象的第一预测直播偏好度、所述目标训练样本对象的第二预测直播偏好度，以及所述目标训练样本对象的第一直播偏好度真值标签和所述目标训练样本对象的第二直播偏好度真值标签，训练所述偏好确定模型的模型参数，以得到训练好的偏好确定模型。

第四方面，提供一种直播内容推荐装置，其特征在于，所述装置包括：

获取模块，用于获取目标对象的多个直播行为特征编码，所述多个直播行为特征编码用于表征所述目标对象针对直播前曝光内容的行为特征以及所述目标对象针对直播实际内容的行为特征；

确定模块，用于基于预设偏好确定模型，以所述多个直播行为特征编码作为所述预设偏好确定模型的输入，确定所述目标对象的第一直播偏好度和第二直播偏好度，并根据所述第一直播偏好度和所述第二直播偏好度确定所述目标对象的综合直播偏好度，其中，所述第一直播偏好度用于表征所述目标对象针对直播前曝光内容的偏好度，所述第二直播偏好度用于表征所述目标对象针对直播实际内容的偏好度；

推荐模块，用于根据所述目标对象的综合直播偏好度对所述目标对象进行直播内容推荐。

第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上述第一方面所述的偏好确定模型的训练方法中的步骤。

第六方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上述第一方面所述的偏好确定模型的训练方法中的步骤。

第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上述第一方面所述的偏好确定模型的训练方法中的步骤。

本申请实施例通过获取目标对象的多个直播行为特征编码，多个直播行为特征编码用于表征目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征；基于预设偏好确定模型，以多个直播行为特征编码作为预设偏好确定模型的输入，确定目标对象的第一直播偏好度和第二直播偏好度，并根据第一直播偏好度和第二直播偏好度确定目标对象的综合直播偏好度，其中，第一直播偏好度用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度用于表征目标对象针对直播实际内容的偏好度；根据目标对象的综合直播偏好度对目标对象进行直播内容推荐。本申请实施例可以根据目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征，确定目标对象针对直播前曝光内容的第一直播偏好度、以及针对直播实际内容的第二直播偏好度，并联合第一直播偏好度和第二直播偏好度确定目标对象对直播的综合偏好度，从而提高了预测用户对直播的偏好程度的准确度，并克服了相关技术中，由于缺乏用户针对直播实际内容的行为数据导致的，无法预测用户对直播的偏好程度的问题，进而提高了根据目标对象对直播的偏好度进行直播内容推荐的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的偏好确定模型的训练方法的流程示意图。

图2为本申请实施例提供的直播内容推荐方法的流程示意图。

图3为本申请实施例提供的直播内容推荐方法的应用场景示意图。

图4为本申请实施例提供的直播内容推荐方法的另一应用场景示意图。

图5为本申请实施例提供的偏好确定模型的训练装置的结构示意图。

图6为本申请实施例提供的直播内容推荐装置的结构示意图。

图7为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种模型训练方法、内容推荐方法、装置、介质、设备、产品。具体地，本申请实施例的偏好确定模型的训练方法以及内容推荐方法可以由计算机设备执行。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语作如下解释：

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

深度学习(Deep Learning,DL)：是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次，这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

神经网络(Neural Network，NN)：在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

Embedding，是一种将离散变量转换为固定长度的连续向量表示的技术。

AvgPooling，是一种求多个同长度向量均值的技术。

在相关技术中，可以通过收集用户的直播行为数据，然后根据用户画像与直播间画像计算相似度的方式，得出用户对于某个主播的偏好度。然而，这种方法只能计算用户对某个直播间和某个主播的偏好程度，无法计算用户对于直播的偏好度。随着人工智能技术的发展，目前，可以通过用户的画像和用户的直播行为数据，基于深度学习模型计算用户对于直播间、主播的偏好度。然而，基于深度学习模型的方式，针对没有体验过直播，没有直播行为数据的非直播用户，无法预测其对直播间和主播的偏好程度，同时也无法计算用户对直播的偏好程度。

因此，本申请实施例提出一种偏好确定模型的训练方法和直播内容推荐方法，可以克服用户直播行为数据稀疏的问题，从而准确预测用户对直播的偏好程度，进而提高对用户进行直播推荐的准确度。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

请参阅图1、图3和图4，该偏好确定模型的训练方法主要包括步骤101至步骤104，说明如下：

步骤101，获取训练样本集合，训练样本集合中的每一条训练样本数据包括至少一个训练样本对象、以及至少一个训练样本对象中每个训练样本对象的多个历史直播行为特征、第一直播偏好度真值标签和第二直播偏好度真值标签。

在一些实施例中，在步骤“获取训练样本集合”之前，还包括：获取目标用户的历史直播行为数据，历史直播行为数据为目标对象在预设历史时间段内的直播行为数据，历史直播行为数据包括多个维度的数据；根据多个维度中预先设定的至少一个第一维度的数据，确定目标对象的第一直播偏好度真值标签，并根据第一直播偏好度真值标签以及多个维度中预先设定的至少一个第二维度的数据确定目标对象的第二直播偏好度真值标签，第一直播偏好度真值标签用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度真值标签用于表征目标对象针对直播实际内容的偏好度；分别根据多个维度中每个维度的数据确定目标对象的多个历史直播行为特征；根据目标对象、目标对象的多个历史直播行为特征、目标对象的第一直播偏好度真值标签，以及目标对象的第二直播偏好度真值标签构建训练样本集合。

其中，目标用户可以为使用目标软件、且授权目标软件访问其使用目标软件的历史使用数据的用户。

其中，预设历史时间段可以按需自定义，比如，可以自定义为过去15天、过去7天等。直播行为数据可以包括用户在主播维度的行为数据，比如，对每个主播的关注数据、点击数据、观看时长数据、消费数据等。具体地，可以获取目标用户对目标软件的使用日志，来获取其历史直播行为数据。譬如，针对每个目标用户，使用日志可以采用<用户id，主播id，关注数据，…，消费数据>的格式记录用户在主播维度的行为数据。

具体地，获取到目标用户在主播维度的历史直播行为数据后，可以对目标用户的历史直播行为数据进行聚合，计算出用户维度的历史直播行为数据。其中，用户维度的历史直播行为数据主要可以包括每个目标用户的曝光PV、曝光UV，点击PV、点击UV，点击率PV、点击率UV，总观看时长，关注UV，粉丝团PV、粉丝团UV，送礼次数，送礼UV，总送礼金额等等。具体地，PV指次数，UV指人次。比如，目标用户点击过三次主播主页，那么，目标用户的点击PV就是3，这三次点击数据对应有主播A和主播B，分别点击主播A一次，点击主播B两次，那么点击UV就是2。

接着，分别根据每个目标用户在用户维度的历史直播行为数据，确定每个目标用户的第一直播偏好度真值标签和第二直播偏好度真值标签。具体地，上述预先设定的至少一个第一维度的数据可以包括目标用户的点击PV，上述预先设定的至少一个第二维度的数据可以包括关注UV、粉丝团PC、观看时长、送礼物次数、送礼金额等数据。

之后，可以根据目标用户的历史直播行为数据、目标用户的用户画像数据、目标用户使用目标软件的直播无关行为数据以及用户无关的直播通用数据构建训练样本特征，譬如，目标用户的历史直播行为数据可以包括上述每个目标用户的曝光PV、曝光UV，点击PV、点击UV，点击率PV、点击率UV，总观看时长，关注UV，粉丝团PV、粉丝团UV，送礼次数，送礼UV，总送礼金额等等。譬如，目标用户的用户画像数据可以包括目标用户的年龄、性别、城市、城市等级、VIP类型、VIP等级，设备类型，操作系统等等。譬如，目标用户使用目标软件的直播无关行为数据主要可以包括目标用户最近一段时间的收听时长、最近一段时间收听的歌曲ID列表、最近一段时间收听的艺人ID列表等等。譬如，用户无关的直播通用数据主要可以包括平台主播的数量、主播的平均直播时长、用户直播消费时长，用户总消费时长，平均用户消费等等。

容易理解的是，训练样本特征中不仅包括目标用户的历史直播行为数据，还包括目标用户的用户画像数据、目标用户使用目标软件的直播无关行为数据，使得即使目标用户没有体验过直播相关业务，也能够预测其对直播的偏好程度。譬如，目标用户使用目标软件的直播无关行为数据包括目标用户最近一段时间收听的歌曲ID列表、最近一段时间收听的艺人ID列表，假设存在目标用户A和目标用户B，其中，目标用户A没有体验过直播相关业务，缺少历史直播行为数据，而目标用户B和目标用户A最近一段时间收听的歌曲ID列表和最近一段时间收听的艺人ID列表重合度较高，则可以认为目标用户B和目标用户A的喜好相同，则可以根据目标用户B对主播和直播的偏好程度推测目标用户A对主播和直播的偏好程度。

在本实施例中，步骤“根据第一直播偏好度真值标签以及多个维度中预先设定的至少一个第二维度的数据确定目标对象的第二直播偏好度真值标签”包括：在第一直播偏好度真值标签为预设值时，根据多个维度中预先设定的至少一个第二维度的数据确定目标对象的第二直播偏好度真值标签。

其中，预设值可以为1，多个维度中预先设定的至少一个第二维度的数据可以按需自定义，比如，可以为观看时间、关注UV、粉丝团PV、送礼次数以及总送礼金额。容易理解的是，用户的曝光、点击行为、直播消费行为有明显的先后关系，因此，可以根据目标用户的第一直播偏好度真值标签确定目标用户的第二直播偏好度真值标签。譬如，若目标用户的点击PV大于0，则确定其第一直播偏好度为1，否则为0。在第一直播偏好度为1的情况下，若目标用户满足观看时间大于30秒、关注UV大于0、粉丝团PV大于0、送礼次数大于0以及总送礼金额大于0其中之一，则可以确定其第二直播偏好度真值标签为1，否则为0。

在本实施例中，步骤“根据目标对象、目标对象的多个历史直播行为特征、目标对象的第一直播偏好度真值标签，以及目标对象的第二直播偏好度真值标签构建训练样本集合”包括：将目标对象的多个历史直播行为特征中的连续特征转换为离散特征；将目标对象的多个历史直播行为特征中的离散特征，以及转换后的离散特征进行编码，得到目标对象的历史直播行为数据特征编码；根据目标对象、目标对象的历史直播行为数据特征编码、目标对象的第一直播偏好度真值标签，以及目标对象的第二直播偏好度真值标签，确定训练样本集中的一条训练样本数据。

其中，离散特征就是取值是不连续的、可数的特征，比如，性别就只有男、女、未知这三个取值。连续特征就是取值范围是连续的特征，比如，送礼物数量的取值是0-N，点击率的取值是0-1的小数，取值范围是连续的。

具体地，步骤“将目标对象的多个历史直播行为特征中的连续特征转换为离散特征”主要可以包括：按照每个连续特征的取值对每个连续特征进行排序；将排序顺序按照预设边界进行分桶；按照每个连续特征所在的桶将每个连续特征转换为离散特征。

譬如，送礼物数量为连续特征，首先，对送礼物数量按照取值从小到大进行排序，之后，取10、20、…、90作为9个边界，将排序顺序划分为10个范围(即分桶)，然后，按照每个特征所在的范围，就可以把连续特征转换为离散特征。

具体地，步骤“将目标对象的多个历史直播行为特征中的离散特征，以及转换后的离散特征进行编码，得到目标对象的历史直播行为数据特征编码”具体可以包括：对将目标对象的多个历史直播行为特征中的离散特征，以及转换后的离散特征进行One-Hot编码，得到目标对象的历史直播行为数据特征编码。

具体地，多个历史直播行为特征还可以包括ID序列特征，针对ID序列特征，可以按照时间顺序对ID序列特征倒叙排列，同时，将ID序列特征截断长度为10位数，或者，将ID序列特征中不足10位数的用数字0补齐。

在本实施例中，步骤“根据目标对象、目标对象的历史直播行为数据特征编码，目标对象的第一直播偏好度真值标签，目标对象的第二直播偏好度真值标签，确定训练样本集中的一条训练样本数据”包括：根据预设业务目标，确定目标对象对应的训练样本数据的权重；根据目标对象、目标对象的历史直播行为数据特征编码、目标对象的第一直播偏好度真值标签、目标对象的第二直播偏好度真值标签以及目标对象对应的训练样本数据的权重，确定训练样本集中的一条训练样本数据。

具体地，若目标样本的第二直播偏好度真值标签为预设值，则可以根据预设业务目标和目标对象对应的训练样本特征，确定目标对象对应训练样本数据的权重。譬如，若目标样本的第二直播偏好度真值标签为1，则可以根据预设业务目标和目标对象对应的观看时长、关注UV、粉丝团PV以及送礼物金额进行加权求和，获得样本的权重。比如，若预设业务目标是提高直播观看时长，则适当提高目标对象对应的观看时长的权重，之后对目标对象对应的观看时长、关注UV、粉丝团PV以及送礼物金额进行加权求和，获得样本的权重。又比如，若预设业务目标是提高送礼物金额，则适当提高目标对象对应的送礼物金额，并对目标对象对应的观看时长、关注UV、粉丝团PV以及送礼物金额进行加权求和，获得样本的权重。

具体地，若目标样本的第二直播偏好度真值标签不为预设值，则将其权重确定为0。譬如，若目标样本的第二直播偏好度真值标签不为1，则将其权重确定为0。

步骤102，将目标训练样本数据输入偏好确定模型，目标训练样本数据为训练样本集合中任一条训练样本数据。

请参阅图3，偏好确定模型可以包括用户特征处理模块，用户特征处理模块可以用于获取用户的历史直播行为特征以及用户的历史直播行为特征编码。

步骤103，获取偏好确定模型根据目标训练样本数据确定的对应目标训练样本对象的第一预测直播偏好度和目标训练样本对象的第二预测直播偏好度。

具体地，如图3所示，该偏好确定模型包括嵌入模块(Embedding Layer)、第一偏好确定模块和第二偏好确定模块。其中，嵌入模块(Embedding Layer)可以将One-Hot编码特征转换为32维的连续特征向量。其中，嵌入模块还包括子模块Avg Pooling，Avg Pooling用于将ID序列特征转换为32维度的连续特征向量。第一偏好确定模块包括LR、FM和DNN，嵌入模块将每个连续特征向量分别输入LR、FM和DNN，LR、FM和DNN对连续特征向量进行特征交叉，之后，对LR、FM和DNN的输出进行加权求和，并通过Sigmoid函数，得到第一直播偏好度。第二偏好确定模块包括LR、FM和DNN，嵌入模块将每个连续特征向量分别输入LR、FM和DNN，LR、FM和DNN对连续特征向量进行特征交叉，之后，对LR、FM和DNN的输出进行加权求和，并通过Sigmoid函数，得到第二直播偏好度。

步骤104，根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签，训练偏好确定模型的模型参数，以得到训练好的偏好确定模型。

在一些实施例中，步骤104主要可以包括：根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签确定目标损失函数；根据目标损失函数对偏好确定模型进行训练，得到训练好的偏好确定模型。

其中，目标损失函数用于衡量第一预测直播偏好度与第一直播偏好度真值标签之间的偏差，以及第二预测直播偏好度与第二直播偏好度真值标签之间的偏差。具体地，以最小化目标损失函数为目标，对偏好确定模型进行训练。

在本实施例中，步骤“根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签确定目标损失函数”包括：根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签、目标训练样本对象的第二直播偏好度真值标签和目标训练样本对应训练样本数据的权重确定目标损失函数。

其中，可以将下述公式确定为目标损失函数Loss：

其中，

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例通过获取训练样本集合，训练样本集合中的每一条训练样本数据包括至少一个训练样本对象、以及至少一个训练样本对象中每个训练样本对象的多个历史直播行为特征、第一直播偏好度真值标签和第二直播偏好度真值标签，之后，将目标训练样本数据输入偏好确定模型，目标训练样本数据为训练样本集合中任一条训练样本数据，接着，获取偏好确定模型根据目标训练样本数据确定的对应目标训练样本对象的第一预测直播偏好度和目标训练样本对象的第二预测直播偏好度，并根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签，训练偏好确定模型的模型参数，以得到训练好的偏好确定模型。本申请实施例通过联合训练第一直播偏好度和第二直播偏好度，克服了由于用户直播消费数据稀疏导致无法有效训练模型的问题，并且，避免了由于用户缺少直播数据导致预测用户与训练用户的数据分布不同，进而导致训练出来的模型有较大偏差的问题。

请参阅图2、图3和图4，本申请实施例还提供了一种直播内容推荐方法，包括步骤201至步骤203，说明如下：

步骤201，获取目标对象的多个直播行为特征编码，多个直播行为特征编码用于表征目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征。

其中，多个直播行为特征编码可以为One-Hot编码。其中，目标对象为使用目标软件、且授权目标软件获取其对目标软件的历史使用数据的用户。其中，直播前曝光内容可以指显示在目标软件中的直播或主播的宣传文字、图片等内容，比如海报、链接等。其中，直播实际内容可以指主播直播页面中的内容。

具体地，多个直播行为特征编码还可以包括目标对象的画像数据编码、目标对象使用目标软件的直播无关行为特征编码以及用户无关的直播通用特征编码。其中，目标对象的画像数据编码、目标对象使用目标软件的直播无关行为特征编码以及用户无关的直播通用特征编码是根据目标用户的用户画像数据、目标用户使用目标软件的直播无关行为数据以及用户无关的直播通用数据构建训练样本特征后进行编码得到的。

譬如，目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征可以包括目标对象的曝光PV、曝光UV，点击PV、点击UV，点击率PV、点击率UV，总观看时长，关注UV，粉丝团PV、粉丝团UV，送礼次数，送礼UV，总送礼金额等等。譬如，目标对象的用户画像数据可以包括目标用户的年龄、性别、城市、城市等级、VIP类型、VIP等级，设备类型，操作系统等等。譬如，目标用户使用目标软件的直播无关行为特征主要可以包括目标用户最近一段时间的收听时长、最近一段时间收听的歌曲ID列表、最近一段时间收听的艺人ID列表等等。譬如，用户无关的直播通用数据主要可以包括平台主播的数量、主播的平均直播时长、用户直播消费时长，用户总消费时长，平均用户消费等等。

容易理解的是，目标对象的多个直播行为特征编码不仅包括用于表征目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征，还包括用于表征目标对象的用户画像特征、目标对象使用目标软件的直播无关行为特征，使得即使目标对象没有体验过直播相关业务，也能够预测其对直播的偏好程度。譬如，目标对象使用目标软件的直播无关行为特征包括目标对象最近一段时间收听的歌曲ID列表、最近一段时间收听的艺人ID列表，假设存在目标对象A和目标对象B，其中，目标对象A没有体验过直播相关业务，缺少历史直播行为数据，而目标对象B和目标对象A最近一段时间收听的歌曲ID列表和最近一段时间收听的艺人ID列表重合度较高，则可以认为目标对象B和目标对象A的喜好相同，则可以根据目标对象B对主播和直播的偏好程度推测目标对象A对主播和直播的偏好程度。

步骤202，基于预设偏好确定模型，以多个直播行为特征编码作为预设偏好确定模型的输入，确定目标对象的第一直播偏好度和第二直播偏好度，并根据第一直播偏好度和第二直播偏好度确定目标对象的综合直播偏好度，其中，第一直播偏好度用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度用于表征目标对象针对直播实际内容的偏好度。

在相关技术中，通常是根据用户的用户画像数据和用户的直播行为数据，基于深度学习模型预测用户对直播的偏好度，导致针对没有直播行为数据的用户，无法预测其对直播和主播的偏好度。本实施例基于深度学习模型，基于目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征，预测出目标对象针对直播前曝光内容的偏好度以及目标对象针对直播实际内容的偏好度，并综合目标对象针对直播前曝光内容的偏好度以及目标对象针对直播实际内容的偏好度，计算其对直播的偏好度，针对没有感知或体验过直播用户，也可以预测出其对直播的偏好度，克服了由于其直播行为数据稀疏导致无法计算其对直播的偏好度的问题，可以用有效预测所有用户对于直播的偏好度，进而可以根据所有用户对于直播的偏好度对用户进行准确的直播推荐。

在一些实施例中，预设偏好确定模型包括嵌入模块、第一偏好确定模块和第二偏好确定模块，步骤“基于预设偏好确定模型，以多个直播行为特征编码作为预设偏好确定模型的输入，确定目标对象的第一直播偏好度和第二直播偏好度”，包括：控制嵌入模块将多个直播行为特征编码分别转换为预设维度的多个连续特征向量；控制第一偏好确定模块根据多个连续特征向量确定目标对象的第一直播偏好度；控制第二偏好确定模块根据多个连续特征向量确定目标对象的第二直播偏好度。

其中，预设维度可以为32维。具体地，嵌入模块可以将One-Hot编码或者ID序列特征转换为32维的连续特征向量。

譬如，请参阅图3，该预设偏好确定模块包括用户特征处理模块，该用户特征处理模块可以用于获取目标对象的多个直播行为特征编码。或者，该用户特征处理模块还可以用于获取目标对象的多个直播行为特征，并对目标对象的多个直播行为特征进行编码。其中，目标对象的多个直播行为特征可以包括离散特征、连续特征和ID序列特征。用户特征处理模块可以对离散特征进行One-Hot编码，并对连续特征进行分桶后，将分桶后的连续特征进行One-Hot编码。

具体地，如图3所示，嵌入模块(Embedding Layer)可以将One-Hot编码特征转换为32维的连续特征向量。其中，嵌入模块还包括子模块Avg Pooling，Avg Pooling用于将ID序列特征转换为32维度的连续特征向量。

在一些实施例中，步骤“控制第一偏好确定模块根据多个连续特征向量确定目标对象的第一直播偏好度”，包括：控制第一偏好确定模块根据多个连续特征向量，以及预设偏好确定模型中确定的第一偏好确定模块中多个连续特征向量中每个连续特征向量对应的权重数，计算目标对象的第一直播偏好度。

其中，第一偏好确定模块中多个连续特征向量中每个连续特征向量对应的权重数是在训练阶段根据业务目标对预设偏好确定模型进行训练得到的，具体地，可以根据不同的业务目标，比如DAU、关注率、付费率等目标，对预设偏好确定模型进行优化训练，然后基于优化后的模型预测目标对象对直播的偏好度。

请继续参阅图3和图4，第一偏好确定模块包括LR、FM和DNN，嵌入模块将每个连续特征向量分别输入LR、FM和DNN，LR、FM和DNN对连续特征向量进行特征交叉，之后，对LR、FM和DNN的输出进行加权求和，并通过Sigmoid函数，得到第一直播偏好度。

在一些实施例中，步骤“控制第二偏好确定模块根据多个连续特征向量确定目标对象的第二直播偏好度”，包括：控制第二偏好确定模块根据多个连续特征向量，以及预设偏好确定模型中确定的第二偏好确定模块中多个连续特征向量中每个连续特征向量对应的权重数，计算目标对象的第二直播偏好度。

同理，第二偏好确定模块中多个连续特征向量中每个连续特征向量对应的权重数是在训练阶段根据业务目标对预设偏好确定模型进行训练得到的，具体地，可以根据不用的业务目标，比如DAU、关注率、付费率等目标，对预设偏好确定模型进行优化训练，然后基于优化后的模型预测目标对象对直播的偏好度。

请继续参阅图3和图4，第二偏好确定模块包括LR、FM和DNN，嵌入模块将每个连续特征向量分别输入LR、FM和DNN，LR、FM和DNN对连续特征向量进行特征交叉，之后，对LR、FM和DNN的输出进行加权求和，并通过Sigmoid函数，得到第二直播偏好度。

在一些实施例中，步骤“根据第一直播偏好度和第二直播偏好度确定目标对象的综合直播偏好度”，包括：计算第一直播偏好度和第二直播偏好度之间的乘积；将乘积确定为目标对象的综合直播偏好度。

譬如，请参阅图4，第一偏好确定模块确定第一直播偏好度为0.7，第二偏好确定模块确定第二直播偏好度为0.3，则可以将第一直播偏好度和第二直播偏好度的乘积0.21确定为目标对象的综合直播偏好度。

步骤203，根据目标对象的综合直播偏好度对目标对象进行直播内容推荐。

譬如，可以根据目标对象的综合偏好度，在综合偏好度较高的目标对象的页面推荐较多直播曝光资源，在综合偏好度较低的目标对象的页面推荐较多曝光资源，比如，音乐、播客等。

在一些实施例中，步骤203主要可以包括：基于预设偏好确定模型，确定目标软件内包含目标对象的所有对象的综合直播偏好度；根据所有对象的综合直播偏好度，对所有对象进行排序；根据目标对象在排序中的位置，对目标对象进行直播内容推荐。

譬如，可以按照综合直播偏好度从高到低对目标对象进行排序，之后，根据目标对象在排序中的位置，对目标对象进行直播推荐。比如，针对排序前10％的目标对象推荐较多不同类型的主播，针对排序后20％的目标对象推荐更多的新人友好型主播。

本申请实施例通过获取目标对象的多个直播行为特征编码，多个直播行为特征编码用于表征目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征，接着，基于预设偏好确定模型，以多个直播行为特征编码作为预设偏好确定模型的输入，确定目标对象的第一直播偏好度和第二直播偏好度，并根据第一直播偏好度和第二直播偏好度确定目标对象的综合直播偏好度，其中，第一直播偏好度用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度用于表征目标对象针对直播实际内容的偏好度，之后，根据目标对象的综合直播偏好度对目标对象进行直播内容推荐。本申请实施例可以根据目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征，确定目标对象针对直播前曝光内容的第一直播偏好度、以及针对直播实际内容的第二直播偏好度，并联合第一直播偏好度和第二直播偏好度确定目标对象对直播的综合偏好度，从而提高了预测用户对直播的偏好程度的准确度，并克服了相关技术中，由于缺乏用户针对直播实际内容的行为数据导致的，无法预测用户对直播的偏好程度的问题，进而提高了根据目标对象对直播的偏好度进行直播内容推荐的准确度。

为便于更好的实施本申请实施例的偏好确定模型的训练方法，本申请实施例还提供一种偏好确定模型的训练装置。请参阅图5，图5为本申请实施例提供的偏好确定模型的训练装置的结构示意图。其中，该偏好确定模型的训练装置10可以包括：

第一获取模块11，用于获取训练样本集合，训练样本集合中的每一条训练样本数据包括至少一个训练样本对象、以及至少一个训练样本对象中每个训练样本对象的多个历史直播行为特征、第一直播偏好度真值标签和第二直播偏好度真值标签；

输入模块12，用于将目标训练样本数据输入偏好确定模型，目标训练样本数据为训练样本集合中任一条训练样本数据；

第二获取模块13，用于获取偏好确定模型根据目标训练样本数据确定的对应目标训练样本对象的第一预测直播偏好度和目标训练样本对象的第二预测直播偏好度；

训练模块14，用于根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签，训练偏好确定模型的模型参数，以得到训练好的偏好确定模型。

可选的，该偏好确定模型的训练装置10还可以包括处理模块，用于：在获取训练样本集合之前，获取目标用户的历史直播行为数据，历史直播行为数据为目标对象在预设历史时间段内的直播行为数据，历史直播行为数据包括多个维度的数据；根据多个维度中预先设定的至少一个第一维度的数据，确定目标对象的第一直播偏好度真值标签，并根据第一直播偏好度真值标签以及多个维度中预先设定的至少一个第二维度的数据确定目标对象的第二直播偏好度真值标签，第一直播偏好度真值标签用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度真值标签用于表征目标对象针对直播实际内容的偏好度；分别根据多个维度中每个维度的数据确定目标对象的多个历史直播行为特征；根据目标对象、目标对象的多个历史直播行为特征、目标对象的第一直播偏好度真值标签，以及目标对象的第二直播偏好度真值标签构建训练样本集合。

可选的，处理模块，具体可以用于：在第一直播偏好度真值标签为预设值时，根据多个维度中预先设定的至少一个第二维度的数据确定目标对象的第二直播偏好度真值标签。

可选的，处理模块，具体可以用于：将目标对象的多个历史直播行为特征中的连续特征转换为离散特征；将目标对象的多个历史直播行为特征中的离散特征，以及转换后的离散特征进行编码，得到目标对象的历史直播行为数据特征编码；根据目标对象、目标对象的历史直播行为数据特征编码、目标对象的第一直播偏好度真值标签，以及目标对象的第二直播偏好度真值标签，确定训练样本集中的一条训练样本数据。

可选的，处理模块，具体可以用于：根据预设业务目标，确定目标对象对应的训练样本数据的权重；根据目标对象、目标对象的历史直播行为数据特征编码、目标对象的第一直播偏好度真值标签、目标对象的第二直播偏好度真值标签以及目标对象对应的训练样本数据的权重，确定训练样本集中的一条训练样本数据。

可选的，训练模块14，具体可以用于：根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签确定目标损失函数；根据目标损失函数对偏好确定模型进行训练，得到训练好的偏好确定模型。

可选的，训练模块14，具体可以用于：根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签、目标训练样本对象的第二直播偏好度真值标签和目标训练样本对应训练样本数据的权重确定目标损失函数。

上述偏好确定模型的训练装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

偏好确定模型的训练装置10，可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该偏好确定模型的训练装置10为该终端或服务器。

本申请实施例提供的偏好确定模型的训练装置10，通过第一获取模块11获取训练样本集合，训练样本集合中的每一条训练样本数据包括至少一个训练样本对象、以及至少一个训练样本对象中每个训练样本对象的多个历史直播行为特征、第一直播偏好度真值标签和第二直播偏好度真值标签，之后，输入模块12将目标训练样本数据输入偏好确定模型，目标训练样本数据为训练样本集合中任一条训练样本数据，然后，第二获取模块13获取偏好确定模型根据目标训练样本数据确定的对应目标训练样本对象的第一预测直播偏好度和目标训练样本对象的第二预测直播偏好度，接着，训练模块14根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签，训练偏好确定模型的模型参数，以得到训练好的偏好确定模型。本申请实施例通过联合训练第一直播偏好度和第二直播偏好度，克服了由于用户直播消费数据稀疏导致无法有效训练模型的问题，并且，避免了由于用户缺少直播数据导致预测用户与训练用户的数据分布不同，进而导致训练出来的模型有较大偏差的问题。

本申请实施例还提供一种直播内容推荐装置。请参阅图6，图6为本申请实施例提供的直播内容推荐装置的结构示意图。其中，该直播内容推荐装置20可以包括：

获取模块21，用于获取目标对象的多个直播行为特征编码，多个直播行为特征编码用于表征目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征；

确定模块22，用于基于预设偏好确定模型，以多个直播行为特征编码作为预设偏好确定模型的输入，确定目标对象的第一直播偏好度和第二直播偏好度，并根据第一直播偏好度和第二直播偏好度确定目标对象的综合直播偏好度，其中，第一直播偏好度用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度用于表征目标对象针对直播实际内容的偏好度；

推荐模块23，用于根据目标对象的综合直播偏好度对目标对象进行直播内容推荐。

可选的，预设偏好确定模型包括嵌入模块、第一偏好确定模块和第二偏好确定模块；确定模块22，具体可以用于：控制嵌入模块将多个直播行为特征编码分别转换为预设维度的多个连续特征向量；控制第一偏好确定模块根据多个连续特征向量确定目标对象的第一直播偏好度；控制第二偏好确定模块根据多个连续特征向量确定目标对象的第二直播偏好度。

可选的，确定模块22，具体可以用于：控制第一偏好确定模块根据多个连续特征向量，以及预设偏好确定模型中确定的第一偏好确定模块中多个连续特征向量中每个连续特征向量对应的权重数，计算目标对象的第一直播偏好度。

可选的，确定模块22，具体可以用于：控制第二偏好确定模块根据多个连续特征向量，以及预设偏好确定模型中确定的第二偏好确定模块中多个连续特征向量中每个连续特征向量对应的权重数，计算目标对象的第二直播偏好度。

可选的，确定模块22，还可以用于：计算第一直播偏好度和第二直播偏好度之间的乘积；将乘积确定为目标对象的综合直播偏好度。

可选的，推荐模块23，具体可以用于：基于预设偏好确定模型，确定目标软件内包含目标对象的所有对象的综合直播偏好度；根据所有对象的综合直播偏好度，对所有对象进行排序；根据目标对象在排序中的位置，对目标对象进行直播内容推荐。

本申请实施例提供的直播内容推荐装置20，通过获取模块21获取目标对象的多个直播行为特征编码，多个直播行为特征编码用于表征目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征，之后，确定模块22基于预设偏好确定模型，以多个直播行为特征编码作为预设偏好确定模型的输入，确定目标对象的第一直播偏好度和第二直播偏好度，并根据第一直播偏好度和第二直播偏好度确定目标对象的综合直播偏好度，其中，第一直播偏好度用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度用于表征目标对象针对直播实际内容的偏好度，然后，推荐模块13根据目标对象的综合直播偏好度对目标对象进行直播内容推荐。本申请实施例通过根据目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征，确定目标对象针对直播前曝光内容的第一直播偏好度、以及针对直播实际内容的第二直播偏好度，并联合第一直播偏好度和第二直播偏好度确定目标对象对直播的综合偏好度，从而提高了预测用户对直播的偏好程度的准确度，并克服了相关技术中，由于缺乏用户针对直播实际内容的行为数据导致的，无法预测用户对直播的偏好程度的问题，进而提高了根据目标对象对直播的偏好度进行直播内容推荐的准确度。

可选的，本申请还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

图7为本申请实施例提供的计算机设备的结构示意图，如图7所示，该计算机设备700可以包括：通信接口701，存储器702，处理器703和通信总线704。通信接口701，存储器702，处理器703通过通信总线704实现相互间的通信。通信接口701用于计算机设备700与外部设备进行数据通信。存储器702可用于存储软件程序以及模块，处理器703通过运行存储在存储器702的软件程序以及模块，例如前述方法实施例中的相应操作的软件程序。

可选的，该处理器703可以调用存储在存储器702的软件程序以及模块执行如下操作：获取训练样本集合，训练样本集合中的每一条训练样本数据包括至少一个训练样本对象、以及至少一个训练样本对象中每个训练样本对象的多个历史直播行为特征、第一直播偏好度真值标签和第二直播偏好度真值标签；将目标训练样本数据输入偏好确定模型，目标训练样本数据为训练样本集合中任一条训练样本数据；获取偏好确定模型根据目标训练样本数据确定的对应目标训练样本对象的第一预测直播偏好度和目标训练样本对象的第二预测直播偏好度；根据目标训练样本对象的第一预测直播偏好度、目标训练样本对象的第二预测直播偏好度，以及目标训练样本对象的第一直播偏好度真值标签和目标训练样本对象的第二直播偏好度真值标签，训练偏好确定模型的模型参数，以得到训练好的偏好确定模型。

可选的，该处理器703可以调用存储在存储器702的软件程序以及模块执行如下操作：获取目标对象的多个直播行为特征编码，多个直播行为特征编码用于表征目标对象针对直播前曝光内容的行为特征以及目标对象针对直播实际内容的行为特征；基于预设偏好确定模型，以多个直播行为特征编码作为预设偏好确定模型的输入，确定目标对象的第一直播偏好度和第二直播偏好度，并根据第一直播偏好度和第二直播偏好度确定目标对象的综合直播偏好度，其中，第一直播偏好度用于表征目标对象针对直播前曝光内容的偏好度，第二直播偏好度用于表征目标对象针对直播实际内容的偏好度；根据目标对象的综合直播偏好度对目标对象进行直播内容推荐。

本申请还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例中的偏好确定模型的训练方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例中的直播内容推荐方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的偏好确定模型的训练方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的直播内容推荐方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序，该计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的偏好确定模型的训练方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序，该计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的直播内容推荐方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：杭州网易云音乐科技有限公司;

上一篇：大豆GmTFL1b基因及其在调控种子大小中的应用
下一篇：高速公路室内模型沉降监测系统及监测方法