导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>预设重排模型训练方法及装置和内容推荐方法及装置

预设重排模型训练方法及装置和内容推荐方法及装置

文献发布时间：2023-06-19 19:35:22

技术领域

本发明涉及智能分析技术领域，特别是涉及预设重排模型训练方法及装置和内容推荐方法及装置。

背景技术

会员订阅制是目前互联网视频音乐类应用常见的模型，其特点是既服务非会员用户也服务会员用户，非会员用户只能观看一部分的音视频，即免费内容，但会员用户可以观看全部音视频，包括付费内容。

非会员用户在观看付费内容时，存在两种情况：一种是需要观看广告，一种是只能观看一个付费内容的小部分内容，大部分内容需要收费后才能观看。现有技术中，在对非会员用户推荐内容时，往往是在免费内容后，加入预设数目个付费内容，以便于非会员用户可以观看到部分付费内容。但是，由于付费内容是固定插入的，且数目一定，当非会员用户对付费内容不感兴趣，非会员用户看到插入的付费内容时，会迅速划走，或者退出音视频应用程序的平台。当非会员用户对付费内容很感兴趣，但是推荐的付费内容太少，非会员内容就不够特别了解付费内容，也就不确定是否需要付费。所以，采用现有的常规推送方法会导致非会员用户推送内容的精度较差。

发明内容

本发明实施例的目的在于提供预设重排模型训练方法及装置和内容推荐方法及装置，以实现提升非会员用户的内容推送的精准度。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种预设重排模型训练方法，其特征在于，所述方法包括：

分别获取免费样本内容和付费样本内容，并从所述免费样本内容和所述付费样本内容中选取当前的推荐内容；

将所述当前的推荐内容输入至原始重排模型中，得到所述当前的推荐内容的预设激励值；

判断所述预设激励值与所述当前的推荐内容的真实奖励值的差值是否小于预设阈值；

若小于，则将所述原始重排模型确定与预设重排模型；

若不小于，则重新调整所述原始重排模型的参数，返回执行上述步骤。

在一种可行的实现方式中，所述将所述当前的推荐内容输入至原始重排模型中，得到所述当前的推荐内容的预设激励值，包括：

将所述当前的推荐内容以及当前的用户特征输入所述原始重排模型；其中，所述用户特征包括：用户用户对免费内容的行为特征、用户对于付费内容的行为特征、环境因素、兴趣画像、已产生的推荐内容中的至少一种；

输出在所述当前的推荐内容的预估激励值。

在一种可行的实现方式中，所述当前的用户特征包括：已产生的推荐内容；

所述方法还包括：

根据所述当前的推荐内容，更新所述当前的用户特征；返回执行所述将所述当前的推荐内容以及当前的用户特征输入所述原始重排模型，得到所述当前的待推荐内容的预设激励值。

在本发明实施的第二方面，提供了一种内容推荐方法，其特征在于，所述方法包括：

分别获取候选免费内容和候选付费内容；

将所述候选免费内容和所述候选付费内容输入至预设重排模型中，得到各内容的预估收益值；其中，所述预估收益值用于表示用户观看内容的体验度和用户观看内容的成本之间的差异；所述预设重排模型是基于强化学习提前训练得到的；

将所述预估收益值满足预设收益值条件的内容作为待推荐内容。

在一种可行的实现方式中，所述获取候选免费内容和候选付费内容，包括：

基于用户历史观看行为，计算所述用户偏好度；

按照预设规则，基于所述用户偏好度，确定所述候选免费内容和所述候选付费内容。

在一种可行的实现方式中，将所述候选免费内容和所述候选付费内容输入至预设重排模型中，得到各内容的预估收益值，包括：

将所述候选免费内容、所述候选付费内容以及用户特征输入所述预设重排模型；其中，所述用户特征包括：用户对免费内容的行为特征、用户对于付费内容的行为特征的至少一种；

输出在所述用户特征下的各内容的预估收益值。

在一种可行的实现方式中，所述用户特征还包括：环境因素；所述环境因素包括：当前日期，用于判断是否为节假日、当前时间，用于判定观看内容的时间、和网络环境中的至少一种。

在一种可行的实现方式中，所述用户特征还包括：兴趣画像、已产生的推荐内容中的至少一种。

在一种可行的实现方式中，其特征在于，所述用户特征包括：已产生的推荐内容；

所述方法还包括：

直至满足预设循环结束条件，根据所述待推荐内容，更新已产生的推荐内容；返回执行所述基于所述候选免费内容和所述候选付费内容，计算得到各内容的预估收益值的步骤。

在本发明实施的第三方面，还提供了一种预设重排模型训练装置，其特征在于，所述装置包括：

选取模块，用于分别获取免费样本内容和付费样本内容，并从所述免费样本内容和所述付费样本内容中选取当前的推荐内容；

预设激励值模块，将所述当前的推荐内容输入至原始重排模型中，得到所述当前的推荐内容的预设激励值；

判断模块，用于判断所述预设激励值与所述当前的推荐内容的真实奖励值的差值是否小于预设阈值；

若小于，则将所述原始重排模型确定与预设重排模型；

若不小于，则重新调整所述原始重排模型的参数，返回执行上述确定当前的推荐内容，将所述当前的推荐内容输入至原始重排模型中，得到所述当前的推荐内容的预设激励值的步骤。

在本发明实施的第四方面，提供了一种内容推荐装置，其特征在于，所述装置包括：

获取模块，用于分别获取候选免费内容和候选付费内容；

计算模块，用于将所述候选免费内容和所述候选付费内容输入至预设重排模型中，得到各内容的预估收益值；其中，所述预估收益值用于表示用户观看内容的体验度和用户观看内容的成本之间的差异；所述预设重排模型是基于强化学习提前训练得到的；

推荐模块，用于将所述预估收益值满足预设收益值条件的内容作为待推荐内容。

在一种可行的实现方式中，所述计算模块具体用于基于用户历史行为，计算所述用户偏好度；

按照预设规则，基于所述用户偏好度，确定所述候选免费内容和所述候选付费内容；

所述计算模块具体用于所述候选免费内容、所述候选付费内容以及用户特征输入所述预设重排模型；其中，所述用户特征包括：用户对免费内容的行为特征、用户对于付费内容的行为特征的至少一种；

输出在所述用户特征下的各内容的预估收益值；

所述用户特征还包括：环境因素；所述环境因素包括：当前日期，用于判断是否为节假日、当前时间，用于判定观看内容的时间、和网络环境中的至少一种；

所述用户特征还包括：兴趣画像、已产生的推荐内容中的至少一种；

所述用户特征包括：已产生的推荐内容；

所述计算模块还具体用于直至满足预设循环结束条件，根据所述待推荐内容，更新已产生的推荐内容；返回执行所述基于所述候选免费内容和所述候选付费内容，计算得到各内容的预估收益值的步骤。

在本发明实施的又一方面，还提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面和第二方面所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面和第二方面所述的方法步骤。

本发明实施例提供的预设重排模型训练方法及装置和内容推荐方法及装置，通过预先基于样本内容训练得到预设重排模型，利用该模型可以计算得到内容的预估收益值，然后将预估收益值最大的内容作为待推荐内容推荐给非会员用户，由于本申请中是从候选免费内容和候选付费内容中选取待推荐内容，所以，得到的待推荐内容会根据非会员用户的不同而不同，以此得到的待推荐内容并不是按照固定数量的免费内容和付费内容去推荐，而是动态地调整待推荐内容中的免费内容和付费内容，进而实现提高非会员用户推送内容的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种内容推荐方法的流程示意图；

图2a为本发明实施例中提供的一种计算预估收益值的流程示意图；

图2b为本发明实施例中提供的一种计算预估收益值的流程框架示意图；

图3为本发明实施例中提供的一种内容推荐方法的总体流程示意图；

图4为本发明实施例中提供的一种内容推荐装置的结构示意图；

图5为本发明实施例中提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

目前，很多互联网企业都采用会员订阅制为用户提供音视频内容，既服务非会员用户也服务会员用户，非会员用户只能观看一部分的免费内容，而会员用户可以观看全部内容，包括付费内容，基于此，互联网企业为了为非会员用户提供更好的服务，需要为非会员用户推荐其感兴趣的付费内容，以此非会员用户可以知道付费内容的具体内容，以便于后续选择是否付费观看更优质的付费内容。但是，现有技术中，在向非会员用户推荐付费内容时，往往是在付费内容中插入预设数目个付费内容，但是这样推荐的待推荐内容无法满足非会员的需求，所以导致为非会员推荐内容的精度不高。

基于此，本申请提出了一种内容推荐方法，可以结合非会员用户观看内容的成本和非会员用户观看内容的体验度，将用户观看内容的成本和观看内容的体验度综合量化为预估收益值，不仅向用户推荐其感兴趣的付费内容还会向用户推荐其感兴趣的免费内容，提高用户的使用体验。本申请提出的一种内容推荐方法的执行主体(下文简称执行主体)可以为任意具备内容推荐功能的电子设备，包括但不限于服务器、个人电脑、移动设备等。

如图1所示，本申请实施例提出的一种内容推荐方法，包括：

S110，分别获取候选免费内容和候选付费内容。

S120，将候选免费内容和候选付费内容输入至预设重排模型中，得到各内容的预估收益值；其中，预估收益值用于表示用户观看内容的体验度和用户观看内容的成本之间的差异。

S130，将预估收益值满足预设收益值条件的内容作为待推荐内容。

本实施例中，通过预先基于样本内容训练得到预设重排模型，利用该模型可以计算得到内容的预估收益值，然后将预估收益值最大的内容作为待推荐内容推荐给非会员用户，由于本申请中是从候选免费内容和候选付费内容中选取待推荐内容，所以，得到的待推荐内容会根据非会员用户的不同而不同，以此得到的待推荐内容并不是按照固定数量的免费内容和付费内容去推荐，而是动态地调整待推荐内容中的免费内容和付费内容，进而实现提高非会员用户推送内容的精度。

下面将对前述步骤S110-S130进行详细说明：

在S110中，免费内容是音视频应用程序中非会员用户可以观看的内容；付费内容是音视频应用程序中仅有会员用户可以观看的内容。候选免费内容可以是该音视频应用程序所能提供的所有免费内容，候选付费内容可以是该音视频应用程序所能提供的所有付费内容。

可以理解的是，候选免费内容和候选付费内容越多，后续计算预估收益值所需的计算量越大，因此为减少后续计算预估收益值所需的计算量应当尽可能减少候选免费内容和候选付费内容的数量，而为了避免用户想要观看的内容未被推荐给用户，候选免费内容应当尽可能为执行主体为用户选择的用户感兴趣的免费内容，同理，候选付费内容应当尽可能为执行主体为用户选择的用户感兴趣的付费内容。其中，针对不同用户确定得到的候选免费内容的数量和候选付费内容的数量可以不同，由于，针对非会员用户，如果为其推荐大量的其无法观看的付费内容，则该用户的使用体验较差，则会造成非会员用户的大量流失，如果为其推荐大量的免费内容，其无法知晓其感兴趣的付费内容，以便于可以得到更好的使用体验，故而该用户的使用体验也较差。所以，为充分向用户展示免费内容和付费内容，候选免费内容的数量和候选付费内容的数量应当尽可能相等。以便于执行主体后续从候选免费内容和候选付费内容中选择为非会员用户推荐的待推荐内容，避免为非会员用户推荐过多的付费内容或过多的免费内容。由于会员用户可以观看音视频平台的所有内容，所以，该内容推荐方法是针对非会员用户而言的，为了便于描述，以下将描述中的用户均指代非会员用户。

以音视频应用程序1(以下简称APP1)为例，针对用户A(以下简称为用户A)，需要为用户A推荐内容，则执行主体会获取50个候选免费内容和50个候选付费内容，以便于后续为用户A进行内容推荐。

在一种可能的实现方式中，音视频应用程序中有千万个音视频内容，在针对用户推荐内容时，需要从这千万个音视频内容中进行获取用户感兴趣的内容，这无疑是大海捞针。本实施例中，为了提高获取内容的效率，上述S110具体可以为：

S1101，基于用户历史行为，计算用户偏好度。

本步骤中，用户历史行为可以包括：用户历史观看记录、用户历史搜索记录、用户历史关注记录等等参数中的任意一种或多种。本申请中的用户历史行为包括但不限于以上参数。

针对某一音视频应用程序，用户历史观看记录可以为在第一历史时间段内，用户使用该应用程序观看音视频的历史记录。用户历史搜索记录可以为在第二历史时间段内，用户使用该应用程序搜索音视频内容的历史记录。用户历史关注记录可以为第三历史时间段内，用户使用该应用程序关注音视频内容的历史记录。上述第一历史时间段、第二历史时间段、第三历史时间段为本领域技术人员根据经验设置的。第一历史时间段、第二历史时间段、第三历史时间段可以为1天，1星期等等，上述第一历史时间段、第二历史时间段、第三历史时间段可以相同也可以不同，具体根据实际需求进行限定。

基于用户历史行为，计算用户偏好度的方式可以但不限于基于用户历史行为，通过预设用户偏好度模型进行计算。其他可以基于用户历史行为，计算用户偏好度的方式也可以适用于本申请实施例，本申请实施例中对计算用户偏好度的方式不做限定。

仍以前述APP1为例，获取用户A的历史行为，其中，用户A的历史行为为：用户A在过去一周内的历史观看记录，用户A过去一个月内的历史搜索记录，用户A在过去半年内的历史关注记录。然后将用户A的历史行为输入预设用户偏好度模型中，计算得到用户A的用户偏好度。

S1102，按照预设规则，基于用户偏好度，确定候选免费内容和候选付费内容。

本步骤中，可以按照预设筛选模型，基于计算得到的用户偏好度，筛选出符合用户行为特征，即用户更感兴趣的原始免费内容和原始付费内容，其中，原始免费内容是通过预设筛选模型筛选出的用户感兴趣的全部免费内容，原始付费内容是通过预设筛选模型筛选出的用户感兴趣的全部付费内容。预设筛选模型为任何可以通过用户偏好度筛选出免费内容和付费内容的模型。然后，从全部免费内容和全部付费内容中选取预设数目个原始免费内容和原始付费内容作为候选免费内容和候选付费内容。该预设数目为技术人员基于实际应用场景设置的，比如，本申请实施例中，预设数目可以为50。

其中，选取预设数目个原始免费内容和原始付费内容作为候选免费内容和候选付费内容时，可以按照用户偏好度的大小选取用户偏好度排名前预设数目个的原始免费内容和原始付费内容，还可以随机选取预设数目个原始免费内容和原始付费内容，还可以设置预设阈值，将用户偏好度大于预设阈值的原始免费内容和原始付费内容确定为候选免费内容和候选付费内容。

仍以前述APP1为例，计算得到用户A的用户偏好度之后，基于预设筛选模型，筛选出用户A感兴趣的全部的原始免费内容集合1和原始付费内容集合1，然后从原始免费内容集合1中选取50个内容作为候选免费内容，从原始付费内容集合1中选取50个内容作为候选付费内容。

本实施例中，为了使得推荐内容用户更加感兴趣，可以通过用户历史行为，计算用户偏好度，然后基于用户偏好度，确定用户感兴趣度高的候选免费内容和候选付费内容，由于本申请实施例中，是从用户感兴趣的内容中选取候选免费内容和候选付费内容，所以，后续进行推荐内容是从用户感兴趣的免费内容和付费内容中进行筛选，进而可以大大提高内容推荐的效率。

在S120中，候选免费内容和候选付费内容中包括预设数目个候选免费内容和候选付费内容。在按照预设规则依次计算得到各内容的预估收益值。其中，预估收益值用于表示用户观看内容的体验度和用户观看内容的成本之间的差异。其中，用户的观看内容的成本可以是用户观看内容的时间成本，还可以是其他用户需要付出的成本。

在一种可能的实现方式中，内容的预估收益值和用户的使用体验正相关。当内容的预估收益值越大时，则表明用户使用体验越好。在另一种可能的实现方式中，内容的预估收益值和用户的使用体验负相关。当内容的预估收益值越大时，则表明用户使用体验越好。下文中为描述方便，仅以预估收益值与用户的使用体验正相关的情况为例进行说明，对于预估收益值与用户的使用体验负相关的情况原理是相同的，在此不再赘述。

为了计算得到每个内容的预估收益值，预设重排模型可以为双路内容混合重排模型。预设模型可以根据强化学习的方式训练得到该预设重排模型。本步骤中，预设重排模型可以使用强化学习方法使用Dueling DQN(对偶网络结构)的模型构建。

本申请实施例中提出一种预设重排模型的训练方法，所述方法包括：

S101、分别获取免费样本内容和付费样本内容，并从免费样本内容和付费样本内容中选取当前的推荐内容。

本步骤中的免费样本内容和付费样本内容的数目可以相同也可以不同，但是样本的总数量一定，例如，可以是100。样本内容为用户的历史观看过的内容，包括免费内容和付费内容。当前的待推荐内容可以是从用户观看的序列中随机选取出一个样本内容，由于每次为用户推荐内容中包含预设数目个推荐内容，例如，10个，则用户的观看样本内容时的当前推荐内容为包含该样本内容在内的序列，可以通过音视频应用程序的平台的后台或者该用户的历史记录中获取，所以选取样本之后，就可以确定出后续的推荐内容的序列。后续的推荐内容可以是包括该样本内容在内的，在该样本内容观看之后观看的连续10个样本内容。例如，推荐内容为a1，其中，用户观看样本内容的顺序为：a1、a2、a3、a4、a5、a6、a7、a8、a9、a10，则当前的推荐内容是：a1、a2、a3、a4、a5、a6、a7、a8、a9、a10。

S102、将当前的推荐内容输入至原始重排模型中，得到所述当前的推荐内容的预设激励值。

S103、判断预设激励值与当前的推荐内容的真实奖励值的差值是否小于预设阈值。

本步骤中，推荐内容的真实奖励值为用户观看的该推荐内容时，根据实际观看情况得到的真实奖励值。而任何可以计算真实奖励值的方式均可以应用在本申请实施例中。

示例性的，假设当前的推荐内容是：a1、a2、a3、a4、a5、a6、a7、a8、a9、a10。而用户实际观看过程中，观看了免费内容：a1、a2、a3、a7、a8、a9、a10，收费内容：a4，并且观看了a4之后产生了付费行为。假设观看每个免费内容的奖励值为x，观看每个收费内容的奖励值为y，观看了收费内容之后产生付费行为的奖励值为a，则真实奖励值为：7x+y+a。

预设阈值为本领域技术人员根据实际需求设置的。

S104、若小于，则将原始重排模型确定与预设重排模型。

S105、若不小于，则重新调整所述原始重排模型的参数，返回执行上述确定当前的推荐内容，将当前的推荐内容输入至原始重排模型中，得到当前的推荐内容的预设激励值的步骤。

在一种可能的实现方式中，上述步骤S103具体可以为：

S1031、将当前的推荐内容以及当前的用户特征输入原始重排模型；其中，用户特征包括：用户用户对免费内容的行为特征、用户对于付费内容的行为特征、环境因素、兴趣画像、已产生的推荐内容中的至少一种；

S1032、输出在当前的推荐内容的预估激励值。

后续会对上述用户特征进行更详细的描述，此处不做过多赘述。

在一种可能的实现方式中，当前的用户特征包括：已产生的推荐内容；该方法还包括：

S1032a、根据当前的推荐内容，更新当前的用户特征；返回执行将当前的推荐内容以及当前的用户特征输入所述原始重排模型，得到当前的待推荐内容的预设激励值。

本步骤与下面步骤S2012类似，具体步骤后续会进行描述，此处不做过多赘述。

在一种可能的实现方式中，输出各个内容的预估收益值之后，还可以将该各个内容的预估收益值按照预估收益值的大小顺序进行排序。以便于后续可以基于排序好的预估收益值确定待推荐内容。

在S130中，预设收益条件可以是基于用户的最大化收益进行确定的。示例性的，对用户而言，可以将预估收益值最大的前10个内容作为待推荐内容，推荐给用户。为了便于描述，以下实施例中，均以内容的预估收益值与用户的使用体验正相关为例进行说明。

在一种可能的实现方式中，预设收益条件还可以是基于平台的最大化收益进行确定的。当用户预估收益值和平台收益正相关，且用户预估收益值和用户的使用体验正相关时，可以将预估收益值最大的前10个内容作为待推荐内容，推荐给用户。通过上述实施例中的方案，可以基于平台的收益确定预设收益条件进而筛选出对平台收益最大化的推荐内容，以此提高平台收益。

为了更为准确地筛选出用户感兴趣的待推荐内容，使得计算得到的各内容的预估收益值更为准确，还可以将用户特征输入至预设重排模型中，然后计算得到个内容的预估收益值。如图2a所示，该方法具体包括：

S201，将候选免费内容、候选付费内容以及用户特征输入预设重排模型；其中，用户特征包括：用户对免费内容的行为特征、用户对于付费内容的行为特征的至少一种。

本步骤中，用户对免费内容的行为特征可以是用户观看免费内容的类型特征，用户观看免费内容的有效特征，例如，设置一个预设阈值，当观看时长大于预设阈值时，则用户观看该免费内容有效，有效特征可以是有效内容的观看个数，有效内容占全部观看免费内容的占比等。

用户对付费内容的行为特征为：用户观看付费内容的有效特征，例如，用户观看付费内容后产生了付费行为，则该付费内容的特征即为有效特征。

S202，输出在用户特征下的各内容的预估收益值。

本步骤中，环境因素可以为反映用户当前使用音视频平台所处环境的特征，例如，用户使用该音视频平台时所处的当前时刻，当前时刻是否为周末，当前时刻是否存在无线网络等等。

上述步骤的流程框架图具体如图2b所示，将候选免费内容、候选付费内容和用户特征输入预设重排模型的Embedding(嵌入)层，然后在输入Dueling DQN网络，最后输出该内容的预估收益。图2b中的V即为候选免费内容和候选付费内容，A则为用户特征，Q为预估收益值。

在一种可行的实现方式中，用户特征还包括：环境因素；环境因素包括：当前日期，用于判断是否为节假日、当前时间，用于判定观看内容的时间、和网络环境中的至少一种。

在一种可行的实现方式中，用户特征还包括：兴趣画像、已产生的推荐内容中的至少一种。

兴趣画像为用户的偏好特征，可以是根据用户之前的观影行为提取的用户标签，例如可以是用户喜欢的音视频类型、明星等。

已产生的推荐内容可以是在当前推荐内容产生以前系统为用户确定的待推荐内容，也可以是在当前推荐内容产生以前用户已看过的推荐内容，具体可以根据实际应用场景确定。

本实施例中，通过将用户特征与候选免费内容和候选增值共同输入至预设重排模型中，增加了用户特征之后，可以每次在计算预估收益值时，基于该用户特征，计算最合适的预估收益值，以使得计算得到的预估收益值更加符合用户的兴趣。进而在为用户确定待推荐内容时，可以推荐使用户更感兴趣的待推荐内容，因此用户在观看该待推荐内容时，用户体验更高。

在一种可能的实现方式中，在计算预估收益值时，由于用户的历史观看行为会对用户之后感兴趣的内容有所影响，所以，可以将已产生的推荐内容作为参数，输入至预设重排模型中，进而计算得到的预估收益值更加准确，且更加符合用户的兴趣。用户特征包括：已产生的推荐内容，上述步骤S201具体可以为：

S2012，直至满足预设循环结束条件，根据待推荐内容，更新已产生的推荐内容；返回执行基于候选免费内容和候选付费内容，计算得到各内容的预估收益值的步骤。

本步骤中，每次在计算内容的预估收益值后，会基于计算得到的预估收益值，更新已产生的推荐内容，然后基于更新后的已产生的推荐内容，继续计算内容的预估收益值，直至计算完所有的候选免费内容和候选付费内容的预估收益值。当用户使用音视频应用程序时，推荐系统需要为该用户推荐一批内容，当用户浏览完第一批内容时，推荐系统触发第二次请求，继续为该用户推荐下一批内容。基于推荐结果的时效性以及相关性，每次为用户推荐10个内容，以便于推荐系统可以实时基于用户的行为特征调整待推荐内容。并且每次产生的待推荐内容均是基于已产生推荐内容确定的。具体地，已产生待推荐内容以一个队列的形式表示，该队列中包括10个系统为用户确定的推荐内容，由于用户已产生待推荐内容会基于用户的浏览而动态变化，所以，该队列中的内容既可以包括用户已经观看过的内容，还可以包括系统已经确定的推荐内容，但是用户并没有看到，所以，将该队列中的10个内容描述为系统为该用户确定的推荐内容。且该队列中已产生的推荐内容是按照产生的时间顺序排列。

预设循环结束条件为直至计算完所有的候选免费内容和候选付费内容的预估收益值，确定出预设数目个待推荐内容为止。

在一种可能的实现方式中，确定待推荐内容的算法流程具体可以为：

输入：候选免费内容和候选付费内容集合S，假设初始大小为100；用户在该场景下已看过的前10个结果；已产生的推荐内容为：X＝X1，…X10

输出：待推荐内容为：R：R1，R2，…R10；

执行流程为：

for第i轮,i in 1to 10:

for每个内容M in候选内容集合S：

使用预设重排模型，计算每个M的预估收益值；

挑选最大收益的M，计为M_i

将M_i移除出S；

将M_i插入序列R，即R_i＝M_i；

将M_i插入用户已看序列X的队尾，若X大小>10，移除序列X头元素；

直至确定出待推荐内容R为止。

示例性的，仍以前述APP1为例，通过计算用户A的用户偏好度之后，确定出50个候选免费内容，50个候选付费内容，假设用户A已产生的推荐内容为：X1、X2、X3……X10，计算完所有的50个候选免费内容和50个候选付费内容的预估收益值，确定其中最大的预估收益值，，假设最大预估收益值为a10对应的预估收益值M10，则将a10确定为待推荐内容R1，然后将用户A已产生的推荐内容更新为：a10、X2、X3……X10，然后重新计算所有的50个候选免费内容和50个候选付费内容的预估收益值，确定其中最大的预估收益值，，假设最大预估收益值为a11对应的预估收益值M11，则将a11确定为待推荐内容R2，以此类推，直至确定出第10个待推荐内容R10为止，最后得到待推荐内容：R1、R2、……、R10。本申请实施例中提供一种推荐方法，该方法的系统流程图如图3所示，该方法具体为：

S301，基于用户历史行为，计算用户偏好度。

S302，按照预设规则，基于用户偏好度，确定候选免费内容和候选付费内容。

S303，将候选免费内容、候选付费内容以及用户特征输入所述预设重排模型。

S304，输出在用户特征下的各内容的预估收益值。

当用户特征包括已产生的推荐内容时，上述方法还包括：

S305，直至满足预设循环结束条件，根据待推荐内容，更新已产生的推荐内容；返回执行步骤S303。

本实施例中，通过获取候选免费内容和候选付费内容，将用户特征与候选免费内容和候选增值共同输入至预设重排模型中，可以每次在计算预估收益值时，基于该用户特征，计算最合适的预估收益值，以使得计算得到的预估收益值更加符合用户的兴趣。进而在为用户确定待推荐内容时，可以推荐使用户更感兴趣的待推荐内容，推荐的准确度更高。

本发明实施例还提供了一种预设重排模型训练装置，所述装置包括：

选取模块401，用于分别获取免费样本内容和付费样本内容，并从所述免费样本内容和所述付费样本内容中选取当前的推荐内容；

预设激励值模块402，将所述当前的推荐内容输入至原始重排模型中，得到所述当前的推荐内容的预设激励值；

判断模块403，用于判断所述预设激励值与所述当前的推荐内容的真实奖励值的差值是否小于预设阈值；

若小于，则将所述原始重排模型确定与预设重排模型；

相应于上述内容推荐方法实施例，本发明实施例还提供了一种内容推荐装置，如图4所示，所述装置包括：

获取模块410，用于获取候选免费内容和候选付费内容；

计算模块420，用于将所述候选免费内容和所述候选付费内容输入至预设重排模型中，得到各内容的预估收益值；其中，所述预估收益值用于表示用户观看内容的体验度和用户观看内容的成本之间的差异；所述预设重排模型是基于强化学习提前训练得到的；

推荐模块430，用于将所述预估收益值满足预设收益值条件的内容作为待推荐内容。

本发明实施例提供的一种内容推荐装置，通过预先基于样本内容训练得到预设重排模型，利用该模型可以计算得到内容的预估收益值，然后将预估收益值最大的内容作为待推荐内容推荐给非会员用户，由于本申请中是从候选免费内容和候选付费内容中选取待推荐内容，所以，得到的待推荐内容会根据非会员用户的不同而不同，以此得到的待推荐内容并不是按照固定数量的免费内容和付费内容去推荐，而是动态地调整待推荐内容中的免费内容和付费内容，进而实现提高非会员用户推送内容的精度。

在一种可行的实现方式中，所述计算模块420具体用于基于用户历史行为，计算所述用户偏好度；

按照预设规则，基于所述用户偏好度，确定所述候选免费内容和所述候选付费内容；

将所述候选免费内容、所述候选付费内容输入预设重排模型中；所述预设重排模型为基于收益提前进行训练得到的；

输出得到各内容的预估收益值；

所述预设重排模型为根据强化学习训练得到的；

所述计算模块420具体用于将所述候选免费内容、所述候选付费内容以及用户特征输入所述预设重排模型；其中，所述用户特征包括：用户对免费内容的行为特征、用户对于付费内容的行为特征的至少一种；

输出在所述用户特征下的各内容的预估收益值；

在一种可行的实现方式中，所述用户特征还包括：兴趣画像、已产生的推荐内容中的至少一种。

在一种可行的实现方式中，所述用户特征包括：已产生的推荐内容；

所述计算模块420还具体用于直至满足预设循环结束条件，根据所述待推荐内容，更新已产生的推荐内容；返回执行所述基于所述候选免费内容和所述候选付费内容，计算得到各内容的预估收益值的步骤。

本实施例中，通过获取候选免费内容和候选付费内容，将用户特征与候选免费内容和候选增值共同输入至预设重排模型中，可以每次在计算预估收益值时，基于该用户特征，计算最合适的预估收益值，以使得计算得到的预估收益值更加符合用户的兴趣。进而在为用户确定待推荐内容时，可以推荐使用户更感兴趣的待推荐内容，以此用户在观看该待推荐内容时，用户体验更高。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

分别获取候选免费内容和候选付费内容；

将所述预估收益值满足预设收益值条件的内容作为待推荐内容。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的内容推荐方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的内容推荐方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张徵;冯长晟;万国;陈柏宇;喻想想;宋凯;
专利申请人：北京爱奇艺科技有限公司;

上一篇：肥胖人群多囊卵巢综合征诊断的细菌生物标志物
下一篇：一种用于边缘计算单元的设备状态监测装置