掌桥专利:专业的专利平台
掌桥专利
首页

内容确定方法、装置、计算机可读存储介质及计算机设备

文献发布时间:2024-04-18 19:52:40


内容确定方法、装置、计算机可读存储介质及计算机设备

技术领域

本申请涉及内容推荐技术领域,具体涉及一种内容确定方法、装置、计算机可读存储介质及计算机设备。

背景技术

随着互联网技术的不断发展,人们的生活已经与互联网密不可分。在互联网时代,随着内容量的快速扩大,人们面临的内容选择的压力也就随之不断增大,这降低了人们对内容的使用效率,从而造成了信息超载问题。

推荐系统是根据用户的内容需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化推荐系统。一个好的推荐系统,不仅能为用户提供个性化的内容和服务,还能和用户之间建立密切关系。

然而,在一些情况下,例如在互联网广告推荐场景下,推荐系统为用户推荐的内容不够准确。

发明内容

本申请实施例提供一种内容确定方法、装置、计算机可读存储介质及计算机设备,该内容确定方法可以有效提升推荐系统中内容确定的准确性,进而提升给用户推荐的内容的准确性。

本申请第一方面提供一种内容确定方法,方法包括:

获取目标对象的历史行为数据对应的至少一个行为特征;

获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,所述属性特征为候选内容的属性数据对应的特征;

根据所述行为特征以及所述属性特征计算所述目标对象对每一候选内容的感兴趣程度;

根据所述感兴趣程度确定目标候选内容。

本申请第二方面提供一种内容确定装置,装置包括:

第一获取单元,用于获取目标对象的历史行为数据对应的至少一个行为特征;

第二获取单元,用于获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,所述属性特征为候选内容的属性数据对应的特征;

计算单元,用于根据所述行为特征以及所述属性特征计算所述目标对象对每一候选内容的感兴趣程度;

确定单元,用于根据所述感兴趣程度确定目标候选内容。

在一些实施例中,所述计算单元,包括:

计算子单元,用于基于所述行为特征和所述属性特征计算每一行为特征的第一权重系数;

处理子单元,用于根据每一行为特征的第一权重系数对所述至少一个行为特征进行加权处理,得到每一候选内容对应的兴趣特征;

确定子单元,用于基于所述兴趣特征确定所述目标对象对每一候选内容的感兴趣程度。

在一些实施例中,所述计算子单元,包括:

第一获取模块,用于获取每一属性特征对应的第二权重系数;

计算模块,用于根据所述行为特征、所述属性特征以及所述第二权重系数计算每一行为特征的第一权重系数。

在一些实施例中,所述获取模块,包括:

提取子模块,用于在所述历史行为数据中提取每一历史行为数据中包含的与每一属性数据关联的目标属性数据;

确定子模块,用于根据所述目标属性数据确定每一属性数据对应的第二权重系数,所述每一属性数据为每一候选内容对应的至少两个属性数据中的每一属性数据。

在一些实施例中,所述计算模块,包括:

获取子模块,用于获取每一行为特征对应的行为特征向量以及每一属性特征对应的属性特征向量;

处理子模块,用于对任一目标行为特征与每一属性特征进行元素层面乘积处理,并根据所述第二权重系数对处理结果进行加权处理,并根据加权处理结果所述目标行为特征对应的第一权重系数;

计算子模块,用于基于所述目标行为特征对应的第一权重系数的计算方法遍历每一行为特征,计算得到每一行为特征的第一权重系数。

在一些实施例中,所述确定子单元,包括:

第二获取模块,用于获取训练后的感兴趣程度预测模型;

预测模块,用于将所述兴趣特征输入至所述感兴趣程度预测模型,得到目标对象对每一候选内容的感兴趣程度。

在一些实施例中,本申请实施例提供的内容确定装置,还包括:

第三获取单元,用于获取所述目标候选内容的至少一个维度的目标属性数据;

推荐单元,用于基于所述目标属性数据向所述目标用户推荐所述目标候选内容。

在一些实施例中,所述第一获取单元,包括:

第一获取子单元,用于获取目标对象在预设时间段内的至少一个历史行为数据;

第一映射子单元,用于将所述历史行为数据映射到向量空间,得到所述目标对象的至少一个行为特征。

在一些实施例中,所述第二获取单元,包括:

第二获取子单元,用于获取至少两个候选内容中每一候选内容对应的资源属性数据、渠道属性数据以及关联内容属性数据;

第二映射子单元,用于将所述资源属性数据、渠道属性数据以及关联内容属性数据分别映射到向量空间,得到每一候选内容对应的资源属性特征、渠道属性特征以及关联内容属性特征;

所述计算单元,还用于:

根据所述行为特征、所述资源属性特征、所述渠道属性特征以及所述关联内容属性特征计算得到所述目标对象对每一候选内容的感兴趣程度。

本申请第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请第一方面所提供的内容确定方法中的步骤。

本申请第四方面提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请第一方面所提供的内容确定方法中的步骤。

本申请第五方面提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现第一方面所提供的内容确定方法中的步骤。

本申请实施例提供的内容确定方法,通过获取目标对象的历史行为数据对应的至少一个行为特征;获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;根据感兴趣程度确定目标候选内容。

以此,本申请提供的内容确定方法,可以根据用户的历史行为特征和候选内容的多个维度的属性特征双向计算用户对每一候选内容的感兴趣程度,并进一步根据感兴趣程度确定给用户推荐的目标内容。由于在计算用户对候选内容的感兴趣程度时,考虑了候选内容的多个维度的属性特征,使得计算得到的感兴趣程度更为准确,从而提升了对目标内容进行确定的准确性,进而可以提升为用户推荐的内容的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请中内容确定的一个场景示意图;

图2是本申请提供的内容确定方法的流程示意图;

图3是本申请提供的内容确定方法的另一流程示意图;

图4是本申请提供的行为特征权重系数评估模型示意图;

图5是本申请中对属性特征向量进行剪枝的效果示意图;

图6是本申请中目标广告内容的各维度属性数据的热力图;

图7是本申请提供的内容确定装置的结构示意图;

图8是本申请提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种内容确定方法、装置、计算机可读存储介质及终端。其中,该内容确定方法可以使用于内容确定装置中。该内容确定装置可以集成在计算机设备中,该计算机设备可以是终端也可以是服务器。其中,终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC,Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。其中,服务器可以为区块链中的节点。

请参阅图1,为本申请提供的内容确定方法的一场景示意图。如图所示,计算机设备A获取目标对象的历史行为数据对应的至少一个行为特征;获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;根据感兴趣程度确定目标候选内容。

需要说明的是,图1所示的内容确定场景示意图仅仅是一个示例,本申请实施例描述的内容确定场景是为了更加清楚地说明本申请的技术方案,并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知,随着内容确定场景演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。

基于上述实施场景以下分别进行详细说明。

在相关技术中,推荐系统在向用户进行内容推荐时,可以获取用户的历史行为数据和候选内容数据,计算出用户对每一候选内容数据的感兴趣程度,并基于该感兴趣程度向用户推荐内容。然而,由于目前在计算用户对候选内容的感兴趣程度时,一般只考虑了内容数据本身,或者内容数据的单一维度的属性,使得用户对候选内容的感兴趣程度的计算准确性较差,进而导致推荐系统给用户推荐的内容的准确性不高。对此,本申请提供一种内容确定方法,可以基于候选内容的多维度属性特征计算用户对每一候选内容的感兴趣程度,从而使得计算得到的用户对候选内容的感兴趣程度更为准确,也就可以提升推荐系统给用户推荐的内容的准确性。

本申请实施例将从内容确定装置的角度进行描述,该内容确定装置可以集成在计算机设备中。其中,计算机设备可以是终端也可以是服务器。其中,终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC,Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图2所示,为本申请提供的内容确定方法的流程示意图,该方法包括:

步骤101,获取目标对象的历史行为数据对应的至少一个行为特征。

其中,目标对象可以为具体的用户,也可以为用户的身份标识(IdentityDocument,ID),还可以为虚拟的人工智能对象。

目标对象的历史行为数据可以为目标对象对内容数据的历史操作行为对应的数据。其中,内容数据可以为各类应用提供的内容,例如新闻资讯应用提供的内容、短视频应用提供的内容、电商平台提供的内容以及即时通讯应用提供的内容等。那么具体地,内容数据便可以包括文本资讯内容、视频资讯内容、短视频内容、商品内容以及在线广告内容等。目标对象对内容数据的历史操作行为可以为点击行为、阅读行为、观看行为、点赞行为、收藏行为、注册行为以及购买行为等。

为了实现采用目标对象的历史行为计算目标对象对每一候选内容的感兴趣程度,进而根据感兴趣程度为目标对象推荐匹配的目标候选内容,需要将目标对象的历史行为转化为推荐系统可以处理的特征数据,得到每一历史行为数据对应的行为特征。其中,目标对象的历史行为数据可以为一个也可以为多个,每个历史行为数据对应一个行为特征。

在一些实施例中,获取目标对象的历史行为数据对应的至少一个行为特征,包括:

1、获取目标对象在预设时间段内的至少一个历史行为数据;

2、将历史行为数据映射到向量空间,得到目标对象的至少一个行为特征。

其中,在本申请实施例中,可以获取目标对象在预设时间段内的至少一个历史行为数据,然后将每一历史行为数据映射到向量空间中,得到目标对象的至少一个行为特征。即可以采用嵌入(Embedding)的方法将历史行为数据转化为可以进行运算的向量数据。其中,Embedding是深度学习领域中的术语,具体指将高维原始数据(例如图像,句子等)映射到低纬度的数据,使得高维原始数据变得可以进行实际计算。具体例如词嵌入(WordEmbedding),就是把单词组成的句子映射到一个表征向量。那么,当用户的历史行为数据以文本形式进行表述时,便可以将该文本映射到向量空间,得到历史行为数据对应的行为特征。

步骤102,获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征。

其中,在为目标对象确定推荐的内容数据时,一般需要从内容库中确定与目标对象最为匹配的内容数据或者目标对象最感兴趣的内容数据。其中,内容库中可以包括多个候选内容,例如至少两个候选内容。具体地,当候选内容为广告内容时,可以获取广告库中每一候选广告的至少两个维度的属性特征。

在相关技术中,例如在点击率预测的深度兴趣网络模型(Deep Interest Networkfor Click-Through Rate Prediction,DIN)和点击率预测的深度兴趣进化网络模型(DeepInterest Evolution Network for Click-Through Rate Prediction)中,在计算目标广告与用户历史行为的相关性时,往往只考虑了目标广告的单个维度的属性特征,例如广告主身份标识(Identity document,ID)或者广告ID等单个特征,忽略了其他的特征对用户行为产生的影响。尤其是在渠道维度和关联内容维度的特征对用户行为产生的影响。

在本申请实施例中,每一候选内容对应的至少两个维度的属性特征可以为每一候选内容对应的至少两个维度的属性数据对应的特征。具体地,至少两个维度的属性数据可以包括候选内容的资源属性数据、渠道属性数据以及关联内容属性数据等。当然,候选内容的属性数据还可以包括其他维度的属性数据,例如时间维度的属性数据等,此处资源属性数据、渠道属性数据以及关联内容属性数据只为示例。

具体地,仍以候选内容为广告内容为示例进行说明,广告内容的资源属性数据可以包括广告主ID数据、广告ID数据以及广告内容数据;广告内容的渠道属性数据可以为广告内容的投放渠道数据,例如在公众号投放广告、在朋友圈投放广告等;广告内容的关联内容属性数据可以为广告的上下文数据,例如在朋友圈投放广告时,广告前后的用户动态数据、广告数据,或者在公众号投放广告时,广告前后的推文数据等,都可以为广告的关联内容属性数据。对于同一用户而言,广告以不同的投放渠道进行发布,其能够被点击或者转化的概率也不同。例如,某些用户经常使用朋友圈,而很少查看公众号内容,那么,在朋友圈进行广告发布,相对于在公众号中进行广告发布,可以获得更高的点击或者转化概率。此外,对于同一用户而言,即使采用同一投放渠道进行广告发布,广告发布的位置对用户点击广告的概率也会造成影响;具体地,例如在篮球比赛视频集锦的公众号上发布篮球鞋的广告,比在美食推广公众号上发布篮球鞋的广告,前者则可以获得更大的被点击或转化的概率。即广告的投放渠道对应的特征以及广告投放位置的关联内容也会对用户的行为产生影响。

本申请实施例在考虑广告的特征对用户行为的影响时,除了考虑广告本身的特征,即广告主ID、广告ID等,还考虑了广告的投放渠道对应的特征、广告的关联内容对应的特征以及其他未列出的广告相关的特征。从多个维度对广告的特征进行特征提取,多维度描述用户行为与广告特征之间的关系,使得预测得到的用户对广告的感兴趣程度更为准确。

步骤103,根据所述行为特征以及所述属性特征计算所述目标对象对每一候选内容的感兴趣程度。

其中,此处行为特征为前述目标对象的至少一个行为特征,属性特征为前述至少两个候选内容中每个候选内容对应的至少两个维度的属性特征。在相关技术中,往往只根据目标对象的行为特征和候选内容一个维度的属性特征来计算目标对象对每一候选内容的感兴趣程度。例如,在计算目标对象对每个广告内容的感兴趣程度时,往往只考虑目标对象的行为特征和广告的资源属性特征,即只考虑广告主数据、广告ID数据以及广告内容数据这些对应的属性特征来计算目标对象对每一候选广告内容的感兴趣程度,而没有考虑渠道属性数据、关联内容属性数据等其他维度的属性特征。

在本申请实施例中,通过综合考虑候选内容的多维度属性特征对感兴趣程度的影响,可以有效提升计算得到的目标对象对每一候选内容的感兴趣程度的准确性,进而可以提升对目标候选内容确定的准确性。

在一些实施例中,根据行为特征以及至少两个维度的属性特征计算目标对象对每一候选内容的感兴趣程度,包括:

1、基于行为特征和至少两个维度的属性特征计算每一行为特征的第一权重系数;

2、根据每一行为特征的第一权重系数对至少一个行为特征进行加权处理,得到每一候选内容对应的兴趣特征;

3、基于兴趣特征确定目标对象对每一候选内容的感兴趣程度。

其中,此处每一行为特征的第一权重系数为每一行为特征与每一目标候选内容对应的权重系数。例如当存在三个行为特征A、B和C,以及三个候选内容a、b和c,那么对于候选内容a,行为特征A、B和C都分别具有一个与候选内容a对应的权重系数;对于候选内容b和候选内容c,行为特征A、B和C也分别具有一个与候选内容对应的权重系数。为与后续其他权重系数进行区分,此处可以称为第一权重系数。

行为特征的第一权重系数为每个行为特征对感兴趣程度的贡献程度,此处感兴趣程度为目标对象对目标内容的感兴趣程度。一般情况下,当行为特征的第一权重系数越高,则说明该行为特征对感兴趣程度的贡献度越高。具体例如,当行为特征A为对候选内容a的点击行为对应的特征,行为特征B为对候选内容a的点赞行为对应的特征,行为特征c为对候选内容a的付费行为,那么行为特征A的权重系数小于行为特征B的权重系数,行为特征B的权重系数小于行为特征C的权重系数。

在相关技术中,传统的点击率预测模型往往是将用户的历史行为特征进行加权池化或者进行平均池化处理。然而,实际上用户不同的历史行为在预测对不同广告的点击或转化率时,所产生的影响其实也是不同的,如果只是对用户的历史行为特征进行简单的加权池化或者平均池化,则不能体现不同的用户历史行为与用户对广告的感兴趣程度之间的关联关系,从而导致预测得到的用户对广告的感兴趣程度不够准确。因此,在本申请实施例中,可以先基于行为特征和至少两个维度的属性特征计算每一行为特征的第一权重系数,从而确定每一行为特征对应的权重系数,使得不同的行为特征对用户对目标内容的点击率所产生的影响进行差异化和准确化,进而可以提升预测得到的用户对广告的感兴趣程度的准确性。

在本申请实施例中,可以通过行为特征和每一候选内容对应的多个维度的属性特征计算得到与每一候选内容对应的每一行为特征的第一权重系数。然后,再利用每一行为特征对应的第一权重系数对每一候选内容对应的多个行为特征进行加权求和,得到每一候选内容对应的兴趣特征。该兴趣特征为表征目标对象对候选内容的感兴趣程度的特征,可以为一个特征向量。

进一步地,可以根据该兴趣特征确定目标对象对每一候选内容的感兴趣程度,该感兴趣程度可以为感兴趣值。

在一些实施例中,根据行为特征和至少两个维度的属性特征计算每一行为特征的第一权重系数,包括:

1.1、获取至少两个维度的属性特征中每一属性特征对应的第二权重系数;

1.2、根据行为特征、至少两个维度的属性特征以及第二权重系数计算每一行为特征的第一权重系数。

其中至少两个维度的属性特征为每一候选内容对应的至少两个维度的属性特征。在本申请实施例中,由于每一候选内容对应的多个维度的属性特征中每一属性特征对感兴趣程度的贡献也可能会有所不同。因此,为进一步提高感兴趣程度计算的准确性,进而提高对目标候选内容确定的准确性,可以先获取每一内容对应的每一属性特征的权重系数,此处为与前述行为特征的权重系数进行区分,可以称为第二权重系数。此处第二权重系数表征了每一维度的属性特征对用户行为的影响程度,或者为重要性程度。获取到每一候选内容对应的每一属性特征的第二权重系数后,再根据每一候选内容对应的多个维度的属性特征、每一属性特征对应的第二权重系数以及目标对象的多个行为特征计算得到每一候选内容对应的多个行为特征中每一行为特征的第一权重系数。

在一些实施例中,获取至少两个维度的属性特征中每一属性特征对应的第二权重系数,包括:

1.1.1、在所述历史行为数据中提取每一历史行为数据中包含的与每一属性数据关联的目标属性数据;

1.1.2、根据所述目标属性数据确定每一属性数据对应的第二权重系数,所述每一属性数据为每一候选内容对应的至少两个属性数据中的每一属性数据。

其中,在本申请实施例中,可以从目标对象的历史行为数据中提取出每一历史行为数据中包含的与每一属性数据关联的目标属性数据。其中,目标属性数据为历史行为数据对应的行为场景相关的数据。例如,当候选内容为运动产品的广告时,向不同的渠道投放该广告取得的点击率的差异要远大于向不同上下文内容位置投放广告取得的点击率差异,即此时渠道属性特征对该广告的点击率提升的影响程度大于关联内容属性特征。那么对于该广告而言,渠道属性特征对应的权重系数一般就会高于关联内容属性特征对应的权重系数。也就是不同属性特征对目标对象的感兴趣程度所造成的影响不同,该不同影响可以通过每一属性特征的第二权重系数进行表征。即在本申请实施例中,还可以对每一维度的属性特征设置一个权重系数,以实现对不同维度的属性特征的剪枝,甚至可以去除影响较小的属性特征,从而使得不同维度的属性数据对应的属性特征对感兴趣程度的贡献更符合实际情况,也就可以使得计算得到的目标对每一候选内容的感兴趣程度的结果更为准确,从而使得确定的目标候选内容的结果更为准确。其中,对每一维度的属性特征设置权重系数,可以为先设置一个初始权重系数,然后在深度学习的过程中不断对初始权重系数进行迭代更新,学习到每个属性特征的较为准确的权重系数。

在一些实施例中,还可以获取更多对象对目标候选内容的历史行为数据,然后对这些历史行为数据进行标注,得到训练数据。其中,该标注数据可以为每一属性特征对应的权重系数。进一步地,可以根据训练数据训练预设的神经网络模型,得到训练后的神经网络模型。

然后,当确定每一候选内容对应的历史行为数据后,便可以通过上述神经网络模型确定其每一属性特征对应的权重系数。

在一些实施例中,根据行为特征、至少两个维度的属性特征以及第二权重系数计算每一行为特征的第一权重系数,包括:

1.2.1、获取每一行为特征对应的行为特征向量以及每一属性特征对应的属性特征向量;

1.2.2、对任一目标行为特征与每一属性特征进行元素层面乘积处理,并根据第二权重系数对处理结果进行加权处理,并根据加权处理结果确定目标行为特征对应的第一权重系数;

1.2.3、基于目标行为特征对应的第一权重系数的计算方法遍历每一行为特征,计算得到每一行为特征的第一权重系数。

在本申请实施例中,行为特征和属性特征具体可以以向量的形式进行表示,即可以获取到每一行为特征对应的行为特征向量,以及每一候选内容对应的多个维度的属性特征中每一属性特征对应的属性特征向量。

其中,对任一目标行为特征向量,都可以计算其与每一候选内容的多个属性特征向量之间的元素层面乘积。具体地,例如二维向量c=(c1,d1),二维向量d=(c2,d2),那么计算向量c和向量d之间的元素层面乘积可以表示为=(c1*c2,d1*d2)。计算得到目标行为特征向量和候选内容每一属性特征向量之间的元素层面乘积后,再根据任一候选内容的每一属性特征对应的第二权重系数对这些元素层面乘积对应的向量进行加权池化处理,得到目标行为特征向量与候选内容之间的交互向量。对该交互向量进行归一化(softmax)处理,便可以得到目标行为特征向量与候选内容对应的权重系数。遍历每一行为特征,便可以得到每一行为特征与候选内容对应的第一权重系数。其中,此处候选内容为至少两个候选内容中的任意一个。进一步还可以遍历每一候选内容,得到每一候选内容对应的每一行为特征的第一权重系数。

在一些实施例中,根据兴趣特征确定目标对象对每一候选内容的感兴趣程度,包括:

3.1、获取训练后的感兴趣程度预测模型;

3.2、将兴趣特征输入至感兴趣程度预测模型,得到目标对象对每一候选内容的感兴趣程度。

其中,在本申请实施例中,当确定了目标对象对每一候选内容的兴趣特征后,可以将该兴趣特征输入至预设的感兴趣程度预估模型中进行处理,得到感兴趣程度预测模型输出的感兴趣程度。该感兴趣程度可以为感兴趣值,该感兴趣程度预测模型可以为深度点击率评估模型(Deep CTR模型)。

在一些实施例中,获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,包括:

A、获取至少两个候选内容中每一候选内容对应的资源属性数据、渠道属性数据以及关联内容属性数据;

B、将资源属性数据、渠道属性数据以及关联内容属性数据分别映射到向量空间,得到每一候选内容对应的资源属性特征、渠道属性特征以及关联内容属性特征;

根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度,包括:

C、根据行为特征、资源属性特征、渠道属性特征以及关联内容属性特征计算得到目标对象对每一候选内容的感兴趣程度。

其中,在本申请实施例中,每一候选内容对应的至少两个维度的属性特征可以具体包括资源属性特征、渠道属性特征以及关联内容属性特征。具体地,可以先获取每一候选内容对应的资源属性数据、渠道属性数据以及关联内容属性数据,然后将这些属性数据映射到向量空间,得到每一属性数据对应的特征向量,即得到每一候选内容对应的至少两个维度的特征向量。如此,根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度的步骤便可以为根据行为特征以及每一候选内容对应的资源属性特征、渠道属性特征以及关联内容属性计算得到每一候选内容对应的感兴趣程度。

其中,可以理解的是,资源属性数据、渠道属性数据以及关联内容属性数据只是候选内容的多个维度的属性数据中相对重要的几个维度的属性数据,并不代表候选内容的全部维度的属性数据。其中,候选内容的属性数据还可以包括内容对象数据、内容对象所处区域数据、内容管理系统数据等等。

步骤104,根据所述感兴趣程度确定目标候选内容。

其中,可以根据目标对象对每一候选内容的感兴趣程度确定目标候选内容。其中,感兴趣程度具体可以为感兴趣值,一般情况下感兴趣程度最高的候选内容确定为目标候选内容。即可以将至少两个候选内容按照感兴趣值的高低进行排序,确感兴趣值最高的候选内容为目标候选内容。

在一些实施例中,本申请提供的内容确定方法还可以包括:

1、获取所述目标候选内容的至少两个维度的目标属性数据;

2、基于所述目标属性数据向所述目标用户推荐所述目标候选内容。

其中,由于对于每一候选内容,都具有其对应的至少两个维度的属性数据。那么对于目标对象最感兴趣的目标候选内容,其同样具有对应的至少两个维度的目标属性数据。

至少两个维度的目标属性数据指示了目标候选内容的资源属性、渠道属性以及关联内容属性。根据目标候选内容的资源属性可以获取到目标候选内容对应的资源数据,例如广告主信息、广告ID以及广告内容等;根据目标候选内容的渠道属性可以获取到目标候选内容的投放渠道,例如在朋友圈投放广告或者在公众号投放广告;根据目标候选内容的关联内容属性可以确定目标候选内容关联的内容,例如确定广告的上下文信息,从而确定广告的投放位置。

如此,获取到目标候选内容的资源数据、渠道数据以及关联内容数据后,便可基于上述数据对目标候选内容进行精准推荐。

根据上述描述可知,本申请实施例提供的内容确定方法,通过获取目标对象的历史行为数据对应的至少一个行为特征;获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;根据感兴趣程度确定目标候选内容。

以此,本申请提供的内容确定方法,可以根据用户的历史行为特征和候选内容的多个维度的属性特征双向计算用户对每一候选内容的感兴趣程度,并进一步根据感兴趣程度确定给用户推荐的目标内容。由于在计算用户对候选内容的感兴趣程度时,考虑了候选内容的多个维度的属性特征,使得计算得到的感兴趣程度更为准确,从而提升了对目标内容进行确定的准确性,进而可以提升为用户推荐的内容的准确性。

而且,本申请进一步对每一候选内容对应的每一属性特征添加其合适的权重系数,可以识别和去除无关的属性特征,使得计算得到的每一行为特征的权重系数更为精准。如此可以提高目标候选内容确定的准确性,进而可以提高推荐系统进行内容推荐的准确性。

本申请还提供了一种内容确定方法,该方法可以使用于计算机设备中,该计算机设备可以为终端也可以为服务器。在本实施例中,可以以内容为广告为例进行详细描述。如图3所示,为本申请提供的内容确定方法的另一流程示意图,方法具体包括:

步骤201,计算机设备获取目标用户的历史行为特征。

其中,目标用户的历史行为特征为目标用户的历史行为数据对应的特征。用户的历史行为可以为对内容数据的点击、浏览、点赞、收藏、投币、下单以及付款等行为。在本申请实施例中,内容数据具体可以为广告数据。历史行为数据对应的特征可以为历史行为数据对应的特征向量,具体可以对历史行为数据的描述文本进行词嵌入处理,得到用户对广告的每一历史行为对应的H个行为特征向量v

步骤202,计算机设备获取广告库中每一候选广告的多维度属性特征。

其中,广告库可以为预设的广告库,具体可以为预设计算机设备中存储的所有广告资源,预设计算机设备可以为服务器。

每一候选广告的多维度属性特征可以为每一候选广告对应的多维度属性数据对应的特征向量。其中多个维度的属性数据具体可以包括资源属性数据、渠道属性数据和关联内容属性数据。同样地,可以采用词嵌入方法将每一候选广告对应的多维度属性数据转化为每一候选广告对应的多维度属性特征向量。具体地,对于任一目标候选广告,可以确定其对应的M个属性特征向量e

步骤203,计算机设备获取每一候选广告的每一属性特征对应的第一权重系数。

其中,对于每一候选广告的每一属性特征,都可以获取到其对应的权重系数r

其中,对目标候选广告的每一属性特征对应的第一权重系数,可以预先设置一个随机值,然后在模型训练的过程中对其进行剪枝,自动识别和去除无关维度的特征。

步骤204,计算机设备根据历史行为特征、每一候选广告的属性特征以及对应的第一权重系数计算得到每一历史行为特征与每一候选广告对应的第二权重系数。

其中,在确定了用户的历史行为特征对应的行为特征向量v

其中,α

然后,可以遍历每一候选广告,按照上述公式计算得到每一用户特征对应每一候选广告的第二权重系数。

步骤205,计算机设备根据第二权重系数对用户历史行为特征进行加权处理,得到用户对每一候选广告的兴趣特征。

其中,对于上述目标候选广告,由于确定了每一用户行为特征对应其的第二权重系数,可以采用上述第二权重系数对每一用户行为特征进行加权池化,得到用户对目标候选广告的兴趣特征。具体计算公式如下:

其中,v

同样地,可以遍历每一候选广告,得到用户对每一候选广告的兴趣特征v

步骤206,计算机设备将用户对每一候选广告的兴趣特征输入至预设的兴趣预测模型,得到用户对每一候选广告的感兴趣值。

其中,预设兴趣预测模型可以为深度点击率预测模型,即Deep CTR模型。在得到用户对每一候选内容的兴趣特征对应的特征向量后,可以将这些向量输入至Deep CTR模型中进行预测,得到用户对每一候选广告的感兴趣值。

步骤207,计算机设备根据用户对每一候选广告的感兴趣值确定目标候选广告。

其中,可以对每一候选广告对应的感兴趣值进行确定,并基于感兴趣值由高至低的顺序对候选广告进行排序。进一步确定感兴趣值最高的候选广告为目标候选广告。

步骤208,计算机设备向用户推荐目标候选广告。

其中,可以获取目标候选广告的多个维度的属性数据。具体可以包括资源属性数据、渠道属性数据以及关联内容属性数据。资源属性数据中可以包括广告的广告主信息、广告ID信息以及广告内容信息;渠道属性数据可以包括对目标候选广告进行投放的渠道信息,包括网页信息、公众号信息或者朋友圈等信息;关联内容属性数据可以包括在目标渠道中的上下文关系数据,可以据此确定目标候选广告的准确投放位置。获取到这些多个维度的属性信息,便可进一步根据这些多维度属性信息对广告进行精准投放。

具体地,上述方案可使用于广告的个性化推荐,在线广告对于多数互联网公司都是最直接最透明的流量变现方式。以即时通讯应用的资讯分享平台为例,当用户打开即时通讯应用的资讯分享平台刷新列表时,广告推荐系统接收到刷新请求,获取到用户的历史行为数据以及多个候选广告的多个维度的特征数据,然后计算用户对每一候选广告的感兴趣程度,并根据感兴趣程度确定目标候选广告,再将目标候选广告进行适应性投放。其中,可以理解的是,在本申请的具体实施方式中,涉及到用户历史行为数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

其中,如图4所示,为本申请提供的内容确定方法中计算每一行为特征对应的权重系数的模型示意图,该模型的功能与前述公式(1)对应,可以计算得到每一用户行为特征对应的行为特征权重系数。具体地,可以对多个维度的属性特征向量进行加权池化,即基于每一资源属性特征向量对应的属性权重系数对资源属性特征向量、渠道属性特征向量以及关联内容属性特征向量进行加权池化,得到加权池化后的目标属性特征。然后采用该目标属性特征和多个行为特征向量进行向量点积计算,得到每一行为特征对一个的行为特征权重系数。此处行为特征权重系数是针对一个目标候选广告的行为特征权重系数,基于行为特征权重系数对行为特征向量进行再次加权池化,便可以得到用户对该目标候选广告的兴趣特征。

下面,可以以一组数据对比来更明确地体现本申请提供的模型性能相对于相关技术模型性能的提升。如下表1所示,为本申请提供的目标模型和相关技术中的几个模型的性能对比表。

表1:模型性能对比表

如表1所示,为各类模型在公共数据集上运行的性能参数。其中,加权池化模型为传统池化方法,该方法对用户的至少一个行为特征直接做加权池化,得到用户对每一候选广告的兴趣特征。点击率预测的深度兴趣网络模型(Deep interest network for click-through rate prediction,DIN)是一种用户兴趣建模模型,该模型考虑了不同的目标广告对用户行为建模的影响,并对用户的不同历史行为赋予不同的权重。具体来讲,在计算每一个用户历史行为的权重时,会将该历史行为的行为特征向量与目标广告的特征向量输入到激活单元中,计算每一行为与目标广告的相关性,并通过神经网络输出该行为对应的权重。相关性越高,权重越大,再对用户历史行为进行加权求和,得到用户对目标广告的兴趣特征。点击率预测的深度兴趣进化网络模型(Deep interest evolution network forclick-through rate prediction,DIEN)是一种用户兴趣演变的模型,DIEN首先通过门控循环单元(Gate Recurrent Unit,GRU)网络对用户历史行为进行建模,从而捕获到用户历史行为间的时序关系。进而采用与DIN类似的做法,计算每一用户历史行为与目标广告之间的相关性,得到用户历史行为的权重。点击率预测的深度会话兴趣网络模型(Deep sessioninterest network for click-through rate prediction,DSIN)是一种用户会话兴趣建模模型,DISN首先将用户的历史行为按照时间窗口划分为多个会话,利用转换器(Transformer)和长短期记忆单元(Long Short-Term Memory,LSTM)捕获会话内部和会话之间的兴趣关系。

由表1中记载的实验数据可知,本申请提供的目标模型相对于其他模型具有更小的损失和更高的曲线下面积(Area Under Curve,AUC)值。而且,相对于对用户行为特征进行加权池化的普通加权池化模型,本申请提供的目标模型的AUC提升比例最高。其中,AUC即为接收者操作特征曲线(Receiver Operating Characteristic Curve,ROC)下面积大小,为评估模型性能的重要指标。AUC值越高,模型性能越好。

如图5所示,为本申请提供的目标模型中对广告的属性特征向量按照一定的权重系数进行剪枝方案对模型效果影响的示意图。如图所示,为在预设公共数据集上验证属性特征向量的剪枝率对模型性能影响的折线图,随着对每一属性特征向量的剪枝率的提升,模型对应的AUC逐步提升,当达到一个预设的剪枝率后,继续提升剪枝率会导致模型性能的下降。在示例中采用的数据集中,当剪枝率为0.6时模型的性能最好。当然本示例采用的数据集仅为一个示例数据集,在其他数据集中可能会在不同的剪枝率下取得最好的模型性能。

如图6所述,为本申请中通过模型学习到的各维度属性特征对应的热力图,其中颜色的深浅代表了各维度属性特征的权重系数的高低,颜色越深的属性特征对应的权重系数越高。如图所示,广告的资源信息、投放渠道信息以及关联内容信息对应的权重系数最高,其他维度的属性特征对应的权重系数较低。如此,便可以确定广告资源信息、广告投放渠道信息以及关联内容信息具有较大的权重系数值,而广告群组信息、用户身份信息以及品牌信息具有次之的权重系数值,而内容管理系统信息和城市等级信息具有最小的权重系数值。或者,在进行属性特征选择时,可以只选择权重系数较高的部分属性特征进行计算。

其中,图6所示的各属性数据对应的热力图是基于一个公共数据集进行训练得到的,对于不同的数据集,可能会训练得到不同的结果。即根据不同的公共数据集训练得到的各属性数据对应的热力图可能不同,也就是各属性特征对应的权重系数也可能不同。

根据上述描述可知,本申请提供的内容确定方法,计算机设备通过获取目标对象的历史行为数据对应的至少一个行为特征;获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;根据感兴趣程度确定目标候选内容。

以此,本申请提供的内容确定方法,可以根据用户的历史行为特征和候选内容的多个维度的属性特征双向计算用户对每一候选内容的感兴趣程度,并进一步根据感兴趣程度确定给用户推荐的目标内容。由于在计算用户对候选内容的感兴趣程度时,考虑了候选内容的多个维度的属性特征,使得计算得到的感兴趣程度更为准确,从而提升了对目标内容进行确定的准确性,进而可以提升为用户推荐的内容的准确性。

为了更好地实施以上方法,本申请实施例还提供一种内容确定装置,该内容确定装置可以集成在终端或服务器中。

例如,如图7所示,为本申请实施例提供的内容确定装置的结构示意图,该内容确定装置可以包括第一获取单元301、第二获取单元302、计算单元303以及确定单元304,如下:

第一获取单元301,用于获取目标对象的历史行为数据对应的至少一个行为特征;

第二获取单元302,用于获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;

计算单元303,用于根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;

确定单元304,用于根据感兴趣程度确定目标候选内容。

在一些实施例中,计算单元,包括:

计算子单元,用于基于行为特征和属性特征计算每一行为特征的第一权重系数;

处理子单元,用于根据每一行为特征的第一权重系数对至少一个行为特征进行加权处理,得到每一候选内容对应的兴趣特征;

确定子单元,用于基于兴趣特征确定目标对象对每一候选内容的感兴趣程度。

在一些实施例中,计算子单元,包括:

第一获取模块,用于获取每一属性特征对应的第二权重系数;

计算模块,用于根据行为特征、属性特征以及第二权重系数计算每一行为特征的第一权重系数。

在一些实施例中,获取模块,包括:

提取子模块,用于在历史行为数据中提取每一历史行为数据中包含的与每一属性数据关联的目标属性数据;

确定子模块,用于根据目标属性数据确定每一属性数据对应的第二权重系数,每一属性数据为每一候选内容对应的至少两个属性数据中的每一属性数据。

在一些实施例中,计算模块,包括:

获取子模块,用于获取每一行为特征对应的行为特征向量以及每一属性特征对应的属性特征向量;

处理子模块,用于对任一目标行为特征与每一属性特征进行元素层面乘积处理,并根据第二权重系数对处理结果进行加权处理,并根据加权处理结果目标行为特征对应的第一权重系数;

计算子模块,用于基于目标行为特征对应的第一权重系数的计算方法遍历每一行为特征,计算得到每一行为特征的第一权重系数。

在一些实施例中,确定子单元,包括:

第二获取模块,用于获取训练后的感兴趣程度预测模型;

预测模块,用于将兴趣特征输入至感兴趣程度预测模型,得到目标对象对每一候选内容的感兴趣程度。

在一些实施例中,本申请实施例提供的内容确定装置,还包括:

第三获取单元,用于获取目标候选内容的至少一个维度的目标属性数据;

推荐单元,用于基于目标属性数据向目标用户推荐目标候选内容。

在一些实施例中,第一获取单元,包括:

第一获取子单元,用于获取目标对象在预设时间段内的至少一个历史行为数据;

第一映射子单元,用于将历史行为数据映射到向量空间,得到目标对象的至少一个行为特征。

在一些实施例中,第二获取单元,包括:

第二获取子单元,用于获取至少两个候选内容中每一候选内容对应的资源属性数据、渠道属性数据以及关联内容属性数据;

第二映射子单元,用于将资源属性数据、渠道属性数据以及关联内容属性数据分别映射到向量空间,得到每一候选内容对应的资源属性特征、渠道属性特征以及关联内容属性特征;

计算单元,还用于:

根据行为特征、资源属性特征、渠道属性特征以及关联内容属性特征计算得到目标对象对每一候选内容的感兴趣程度。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

根据上述描述可知,本申请实施例提供的内容确定装置,通过第一获取单元301获取目标对象的历史行为数据对应的至少一个行为特征;第二获取单元302获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;计算单元303根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;确定单元304根据感兴趣程度确定目标候选内容。

以此,本申请提供的内容确定方法,可以根据用户的历史行为特征和候选内容的多个维度的属性特征双向计算用户对每一候选内容的感兴趣程度,并进一步根据感兴趣程度确定给用户推荐的目标内容。由于在计算用户对候选内容的感兴趣程度时,考虑了候选内容的多个维度的属性特征,使得计算得到的感兴趣程度更为准确,从而提升了对目标内容进行确定的准确性,进而可以提升为用户推荐的内容的准确性。

本申请实施例还提供一种计算机设备,该计算机设备可以为终端或服务器,如图8所示,为本申请提供的计算机设备的结构示意图。具体来讲:

该计算机设备可以包括一个或者一个以上处理核心的处理单元401、一个或一个以上存储介质的存储单元402、电源模块403和输入模块404等部件。本领域技术人员可以理解,图8中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理单元401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储单元402内的软件程序和/或模块,以及调用存储在存储单元402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理单元401可包括一个或多个处理核心;优选的,处理单元401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理单元401中。

存储单元402可用于存储软件程序以及模块,处理单元401通过运行存储在存储单元402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储单元402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储单元402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储单元402还可以包括存储器控制器,以提供处理单元401对存储单元402的访问。

计算机设备还包括给各个部件供电的电源模块403,优选的,电源模块403可以通过电源管理系统与处理单元401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源模块403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理单元401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储单元402中,并由处理单元401来运行存储在存储单元402中的应用程序,从而实现各种功能,如下:

获取目标对象的历史行为数据对应的至少一个行为特征;获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;根据感兴趣程度确定目标候选内容。

应当说明的是,本申请实施例提供的计算机设备与上文实施例中的方法属于同一构思,以上各个操作的具体实施可参见前面的实施例,在此不作赘述。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种方法中的步骤。例如,该指令可以执行如下步骤:

获取目标对象的历史行为数据对应的至少一个行为特征;获取至少两个候选内容中每一候选内容对应的至少两个维度的属性特征,属性特征为候选内容的属性数据对应的特征;根据行为特征以及属性特征计算目标对象对每一候选内容的感兴趣程度;根据感兴趣程度确定目标候选内容。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种方法中的步骤,因此,可以实现本发明实施例所提供的任一种方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述内容确定方法中各种可选实现方式中提供的方法。

以上对本发明实施例所提供的内容确定方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

相关技术
  • 文本内容标识方法、装置、设备及计算机可读存储介质
  • 内容分享方法、装置、设备及计算机可读存储介质
  • 内容获取方法、装置、设备及计算机可读存储介质
  • 通行确定方法及装置、电子设备、计算机可读存储介质
  • 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
  • 推送内容的确定方法、装置、设备及计算机可读存储介质
  • 目标内容的确定方法、装置、设备及计算机可读存储介质
技术分类

06120116335149