掌桥专利:专业的专利平台
掌桥专利
首页

一种信息流模型构建方法、装置及介质

文献发布时间:2023-06-19 09:30:39


一种信息流模型构建方法、装置及介质

技术领域

本申请涉及信息技术领域,特别是涉及一种信息流模型构建方法、装置及介质。

背景技术

随着科技的发展,电商越来越兴盛,为了吸引用户的眼球,电商平台往往通过仅包含单一信息流模型向用户推荐高点击率、低停留时长的图片和视频,因此导致图片和/或视频其本身的内容差强人意,使得用户对电商平台的认知大打折扣。

目前主要是通过样本的停留时长构建信息流模型,而实际情况下,各样本的停留时长种类繁多,分布范围广,故直接采用这些停留时间,导致信息流模型包含了样本中停留时间过长或过短的数据,而这些数据的置信度较低,会导致信息流模型的模拟结果的可靠性低,进而导致根据该模拟结果推荐的图片和/或视频的匹配度较差,因此降低了用户的停留时间和留存率。

由此可见,如何提高信息流模型模拟结果的可靠性,提高用户的停留时间和留存率是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种信息流模型构建方法、装置及介质。

为解决上述技术问题,本申请提供一种信息流模型构建方法,包括:

获取各样本的停留时长和互动数据;

确定所述停留时长对应的停留时长权重和所述互动数据对应的互动权重以得到各所述样本的权重;

根据各所述样本对应的权重构建信息流模型。

优选的,确定所述停留时长和所述互动数据对应的权重以得到各所述样本的权重,包括:

将存在所述停留时长和/或所述互动数据中至少一种的所述样本划分为正样本,将不存在所述停留时长和所述互动数据的所述样本划分为负样本;

分别计算各所述互动权重和各所述停留时长权重;

根据各所述停留时长权重和各所述互动权重计算各所述正样本对应的权重;

设置各所述负样本对应的权重为第一固定值;

其中,所述正样本对应的权重大于所述第一固定值。

优选的,计算所述停留时长权重,包括:

在所述停留时长不大于第一阈值的情况下,对所述停留时长进行线性处理得到第一停留时长权重;

在所述停留时长大于所述第一阈值的情况下,根据第一对数函数计算第二停留时长权重。

优选的,计算所述停留时长权重,包括:

在所述停留时长不大于第二阈值的情况下,设置第三停留时长权重为第二固定值;

在所述停留时长大于所述第二阈值的情况下,根据第二对数函数计算第四停留时长权重;

其中,所述第二阈值小于所述第一阈值。

优选的,在所述确定所述停留时长和所述互动数据对应的权重以得到各所述样本的权重前,还包括:

在所述停留时长大于第三阈值的情况下,设置所述停留时长为第三阈值;

其中,所述第三阈值大于所述第一阈值。

优选的,所述互动数据包括:点赞数据、评论数据、分享数据、关注数据以及收藏数据。

优选的,所述第一阈值具体为50秒,所述第二阈值具体为4秒,所述第三阈值具体为300秒。

为解决上述技术问题,本申请还提供一种信息流模型构建装置,包括:

获取模块,用于获取各样本的停留时长和互动数据;

确定模块,用于确定所述停留时长对应的停留时长权重和所述互动数据对应的互动权重以得到各所述样本的权重;

构建模块,用于根据各所述样本对应的权重构建信息流模型。

为解决上述技术问题,本申请还提供一种信息流模型构建装置,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上所述的信息流模型构建方法的步骤。

为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的信息流模型构建方法的步骤。

本申请所提供的信息流模型构建方法,获取各样本的停留时长和互动数据后,根据各停留时长和互动数据对应的权重计算各样本的权重,根据各样本对应的权重构建信息流模型。由于分别计算了各停留时长和各互动数据对应的权重,提高了各样本的停留时长的置信度。若直接在信息流模型中加入原始停留时长,线上其他核心指标会有明显下跌,因此本申请降低了直接加入原始停留时长对信息流模型预测效果的影响,提高了信息流模型模拟结果的可靠性,从而提高了推荐的图片和/或视频内容的匹配度,进而提高了用户的停留时间和留存率。

此外,本申请提供的一种信息流模型构建装置及介质,与上述信息流模型构建方法对应,效果同上。

附图说明

为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息流模型构建方法的流程图;

图2为本申请实施例提供的一种计算样本的权重的流程图;

图3为本申请实施例提供的一种计算停留时长权重的流程图;

图4为本申请实施例提供的一种第一阈值为30秒的停留时长权重的拟合曲线;

图5为本申请实施例提供的一种第一阈值为50秒的停留时长权重的拟合曲线;

图6为本申请实施例提供的一种根据默认对数函数计算权重和根据第一对数函数计算权重的对比图;

图7为本申请实施例提供的另一种计算停留时长权重的流程图;

图8为本申请实施例提供的一种互动权重、使用第一对数函数和线性函数确定的停留时长权重与使用第二对数函数和第二固定值确定的停留时长权重的对比图;

图9为本申请实施例提供的一种信息流模型构建装置的结构示意图;

图10为本申请实施例提供的另一种信息流模型构建装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。

本申请的核心是提供一种信息流模型构建方法、装置及介质。

为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。

图1为本申请实施例提供的一种信息流模型构建方法的流程图。如图1所示,该方法包括:

S10:获取各样本的停留时长和互动数据。

本申请实施例中,各样本的停留时间通过打点统计得到,互动数据具体为样本的一系列互动指标,作为优选的实施例,互动数据包括:点赞数据、评论数据、分享数据、关注数据以及收藏数据等,可以理解的是,互动数据中包含的数据类型越多,样本的互动数据越完善,最终构建信息流模型的模拟结果的可靠性越高。

S11:确定停留时长对应的停留时长权重和互动数据对应的互动权重以得到各样本的权重。

需要说明的是,停留时长权重和互动权重的计算方式不做具体限制,在具体实施中,可采用对数函数进行计算,相应的,各样本的权重即为各样本的停留时长权重和互动权重的求和值。

S12:根据各样本对应的权重构建信息流模型。

其中,信息流模型基于损失函数构建,即各样本的停留时长和互动数据作为损失函数中的权重影响该损失函数的变换,进而影响信息流模型的模拟结果。损失函数的公式如下:

sigmoids_weighted=-y_true*tf.log(y_pred)*reweight-(1-y_true)*tf.log(1-y_pred)

sigmoids_loss=tf.reduce_mean(sigmoids_weighted)

其中,sigmoids_weighted为一个超参数的总损失(即1024个样本的总损失),y_true为真实的标签,tf.log为对数函数,y_pred为信息流模型的预估值,reweight为样本对应的权重(即样本对应的停留时长权重和互动权重的求和值),sigmoids_loss为样本的平均损失,tf.reduce_mean为计算平均值的函数。

本实施例所提供的信息流模型构建方法,获获取各样本的停留时长和互动数据后,根据各停留时长和互动数据对应的权重计算各样本的权重,根据各样本对应的权重构建信息流模型。由于分别计算了各停留时长和各互动数据对应的权重,提高了各样本的停留时长的置信度。若直接在信息流模型中加入原始停留时长,线上其他核心指标会有明显下跌,因此本申请降低了直接加入原始停留时长对信息流模型预测效果的影响,提高了信息流模型模拟结果的可靠性,从而提高了推荐的图片和/或视频内容的匹配度,进而提高了用户的停留时间和留存率。

图2为本申请实施例提供的一种计算样本的权重的流程图。如图2所示,在上述实施例的基础上,S11具体包括:

S20:将存在停留时长和/或互动数据中至少一种的样本划分为正样本,将不存在停留时长和互动数据的样本划分为负样本。

S21:分别计算各互动权重和各停留时长权重。

需要说明的是,停留时长权重和互动权重的计算方式不做具体限制,在具体实施中,可采用对数函数进行计算。例如,互动权重计算方式如下:

In=log

其中,In为互动权重,interact_num为点赞、评论、分享、关注以及收藏这五个事件的简单求和或加权求和。例如,样本A中只有点赞数据和评论数据,则通过简单求和得到interact_num=2。

可以理解的是,对数函数的底数为1.2仅为一种表现形式,在具体实施中,对数函数的底数不做限制,与需求匹配即可。

S22:根据各停留时长权重和各互动权重计算各正样本对应的权重。

还需说明的是,各正样本对应的权重即为各正样本的停留时长权重和互动权重的求和值。

S23:设置各负样本对应的权重为第一固定值。

本申请实施例中,正样本对应的权重大于第一固定值,在具体实施中,第一固定值可以选择1.0。

可以理解的是,S22和S23没有先后顺序,可以按如图2所示顺序计算,也可以同时计算正样本对应的权重和设置负样本对应的权重。

本实施例所提供的信息流模型构建方法,由于将样本划分为正样本和负样本,且正样本的权重大于负样本的权重,故在信息流模型训练中,停留时间越长、互动数据越多的样本得到充分的训练,因此使得信息流模型的模拟结果趋向于推荐停留时间长、互动数据多的图片和/或视频。

图3为本申请实施例提供的一种计算停留时长权重的流程图。如图3所示,在上述实施例的基础上,计算停留时长权重包括:

S30:判断停留时长是否大于第一阈值,如果否,则进入S31,如果是,进入S32。

S31:对停留时长进行线性处理得到第一停留时长权重。

S32:根据第一对数函数计算第二停留时长权重。

为了让本领域技术人员更加清楚本申请实施例提供的计算停留时长权重的流程图,本实施例将举例进行具体说明。

在停留时长不大于第一阈值的情况下,通过如下公式计算第一停留时长权重:

Ti

其中,time为停留时长不大于第一阈值的样本的停留时长,Ti

需要说明的是,上述线性函数中的比值不做具体限制,其取值需匹配需求和对数函数,因此线性函数的比值为0.8仅为一种表现形式,不代表仅有这一种表现形式。

在停留时长大于第一阈值的情况下,通过如下公式计算第二停留时长权重:

Ti

其中,Ti

需要说明的是,上述对数函数中的底数是由各样本的停留时长的均值、方差、分位数等分布指标综合确定的,因此对数函数的底数为1.0775仅为一种表现形式,不代表仅有这一种表现形式。

图4为本申请实施例提供的一种第一阈值为30秒的停留时长权重的拟合曲线,图5为本申请实施例提供的一种第一阈值为50秒的停留时长权重的拟合曲线。其中,横坐标为停留时长的时间,纵坐标为停留时长权重。在第一阈值为30秒或第一阈值为50秒的情况下,t

可以理解的是,线性函数的斜率与对数函数在于线性函数相交处的斜率越是相等,在两者相交处的停留时长权重的误差越小,因此为了实现停留时长权重的曲线平滑过渡,作为优选的实施例,第一阈值可以选择50秒。

此外,计算第二停留时长权重还可直接通过默认的对数函数进行计算,相应的,线性函数的比值需与默认的对数函数匹配,使得默认的对数函数与线性函数相交。其中,默认的对数函数包括以2为底的对数函数、以10为底的对数函数以及以e为底的对数函数。

图6为本申请实施例提供的一种根据默认对数函数计算权重和根据第一对数函数计算权重的对比图。如图6所示,横坐标为一个正样本中互动事件的数量,纵坐标为正样本的权重,其中Ti表示通过默认对数函数计算的停留时间权重。根据默认对数函数计算正样本的权重时,随着互动事件的数量的增加,正样本的权重变化较小,因此该计算方法使得停留时长对信息流模型的模拟结果影响较大,相较于根据第一对数函数计算权重的计算方法,根据默认对数函数的计算方法建立的信息流模型的模拟结果的可靠性较低。

采用第一对数函数的计算方法,且第一阈值选择50秒建立的信息流模型其最终模拟结果为:曝光量减少3.1%,点击量减少6.29%,点击率减少了3.29%,单个图片和/或视频的停留时长增加了6.96%,人均停留时长增加了11.5%,安卓系统的停留时长增加了6.81%,苹果公司的系统(IOS)的停留时长增加了7.53%,小窗停留时长增加了14.02%。由该模拟结果可知,采用第一对数函数的计算方法,且第一阈值选择50秒建立的信息流模型能够有效的提高用户的停留时长,但是相应的,减少了用户的点击率。

本实施例所提供的信息流模型构建方法,将停留时长以第一阈值为分界线,采取了不同的处理方式,因此本实施例提供的方法能够减少停留时长较低时计算的停留时长权重的误差,从而提高了计算停留时长的精准度,进而提高了信息流模型的模拟结果的可靠性。

图7为本申请实施例提供的另一种计算停留时长权重的流程图。如图7所示,在上述实施例的基础上,计算停留时长权重包括:

S40:判断停留时长是否大于第二阈值,如果否,则进入S41,如果是,进入S42。其中,第二阈值小于上述实施例中的第一阈值。

S41:设置第三停留时长权重为第二固定值。

S42:根据第二对数函数计算第四停留时长权重。

可以理解的是,第二阈值和第二固定值不做具体限制,作为优选的实施例,第二阈值可选取4秒,第二固定值可选取为1.0。

为了让本领域技术人员更加清楚本申请实施例提供的计算停留时长权重的流程图,本实施例将以第二阈值是4为例进行具体说明。

在停留时长不大于4秒的情况下,设置第三停留时长权重Ti

Ti

其中,Ti

需要说明的是,第四对数函数中的底数是由各样本的停留时长的均值、方差、分位数等分布指标综合确定的,因此该对数函数的底数为1.4仅为一种表现形式,不代表仅有这一种表现形式。

本申请实施例中,计算第四停留时长权重还可直接通过默认的对数函数进行计算,默认的对数函数包括以2为底的对数函数、以10为底的对数函数以及以e为底的对数函数。

采用第二对数函数和第二固定值的计算方法建立的信息流模型其最终模拟结果为:曝光量增加了3.73%,点击量增加了7.21%,点击量增加了3.46%,点击人数增加了2.95%,单个图片和/或视频的停留时长减少了3.8%,页面停留时长(用户在app的总停留时长)增加了12%。由该模拟结果可知,采用第二对数函数和第二固定值的计算方法建立的信息流模型不仅进一步提高了用户的停留时长,还提高了用户的点击率和点击人数。

图8为本申请实施例提供的一种互动权重、使用第一对数函数和线性函数确定的停留时长权重与使用第二对数函数和第二固定值确定的停留时长权重的对比图。如图8所示,横坐标为一个正样本中互动事件的数量,纵坐标为权重值。由图8可知,相较于使用第一对数函数和线性函数确定的停留时长权重,本申请实施例所提供的方法计算的停留时长权重小于互动权重,故减少了停留时长对信息流模型的模拟结果的影响,增加了互动数据对信息流模型的模拟结果的影响,因此进一步提高了信息流模型的模拟结果的可靠性。

在上述实施例的基础上,在S11前还包括:在停留时长大于第三阈值的情况下,设置停留时长为第三阈值。其中,第三阈值大于上述实施例中第一阈值。

本申请实施例中,第三阈值不做具体的限制,与需求匹配即可。作为优选的实施例,第三阈值可取300秒。

本实施例所提供的信息流模型构建方法,由于将大于第三阈值的停留时长设置为第三阈值,因此减少了因停留时长过长导致总样本的停留时长的置信度降低的问题,进一步降低了停留时长对信息流模型的模拟结果的影响,从而进一步提高了信息流模型模拟结果的可靠性,进一步提高了用户的停留时间和留存率。

在上述实施例中,对于信息流模型构建方法进行了详细描述,本申请还提供信息流模型构建装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。

图9为本申请实施例提供的一种信息流模型构建装置的结构示意图。如图9所示,基于功能模块的角度,该装置包括:

获取模块10,用于获取各样本的停留时长和互动数据。

确定模块11,用于确定停留时长对应的停留时长权重和互动数据对应的互动权重以得到各样本的权重。

构建模块12,用于根据各样本对应的权重构建信息流模型。

由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

作为优选的实施例,确定模块11具体包括:

划分模块,用于将存在停留时长和/或互动数据中至少一种的样本划分为正样本,将不存在停留时长和互动数据的样本划分为负样本。

第一计算模块,用于分别计算各互动权重和各停留时长权重。

第二计算模块,用于根据各停留时长权重和各互动权重计算各正样本对应的权重。

第一设置模块,用于设置各负样本对应的权重为第一固定值,其中正样本的权重大于负样本的权重。

第一计算模块包括:

处理模块,用于在停留时长不大于第一阈值的情况下,对停留时长进行线性处理得到第一停留时长权重。

第三计算模块,用于在停留时长大于第一阈值的情况下,根据第一对数函数计算第二停留时长权重。

第一计算模块包括:

第二设置模块,用于在停留时长不大于第二阈值的情况下,设置第三停留时长权重为第二固定值,其中,第二阈值小于上述第一阈值。

第四计算模块,用于在停留时长大于第二阈值的情况下,根据第二对数函数计算第四停留时长权重。

还包括:

第三设置模块,用于在停留时长大于第三阈值的情况下,设置停留时长为第三阈值,其中,第三阈值小于上述第一阈值。

本实施例所提供的信息流模型构建装置,获取各样本的停留时长和互动数据后,根据各停留时长和互动数据对应的权重计算各样本的权重,根据各样本对应的权重构建信息流模型。由于分别计算了各停留时长和各互动数据对应的权重,提高了各样本的停留时长的置信度。若直接在信息流模型中加入原始停留时长,线上其他核心指标会有明显下跌,因此本申请降低了直接加入原始停留时长对信息流模型预测效果的影响,提高了信息流模型模拟结果的可靠性,从而提高了推荐的图片和/或视频内容的匹配度,进而提高了用户的停留时间和留存率。

图10为本申请实施例提供的另一种信息流模型构建装置的结构示意图。如图10所示,基于硬件结构的角度,该装置包括:

存储器20,用于存储计算机程序;

处理器21,用于执行计算机程序时实现如上述实施例中信息流模型构建方法的步骤。

其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的信息流模型构建方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于信息流模型构建方法中涉及的数据等。

在一些实施例中,信息流模型构建装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解,图10中示出的结构并不构成对信息流模型构建装置的限定,可以包括比图示更多或更少的组件。

本申请实施例提供的信息流模型构建装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:获取各样本的停留时长和互动数据后,根据各停留时长和互动数据对应的权重计算各样本的权重,根据各样本对应的权重构建信息流模型。由于分别计算了各停留时长和各互动数据对应的权重,提高了各样本的停留时长的置信度。若直接在信息流模型中加入原始停留时长,线上其他核心指标会有明显下跌,因此本申请降低了直接加入原始停留时长对信息流模型预测效果的影响,提高了信息流模型模拟结果的可靠性,从而提高了推荐的图片和/或视频内容的匹配度,进而提高了用户的停留时间和留存率。

最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的计算机可读存储介质,该介质上存储有计算机程序,计算机程序被处理器执行时,能够实现如下方法:获取各样本的停留时长和互动数据后,根据各停留时长和互动数据对应的权重计算各样本的权重,根据各样本对应的权重构建信息流模型。由于分别计算了各停留时长和各互动数据对应的权重,提高了各样本的停留时长的置信度。若直接在信息流模型中加入原始停留时长,线上其他核心指标会有明显下跌,因此本申请降低了直接加入原始停留时长对信息流模型预测效果的影响,提高了信息流模型模拟结果的可靠性,从而提高了推荐的图片和/或视频内容的匹配度,进而提高了用户的停留时间和留存率。

以上对本申请所提供的一种信息流模型构建方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

相关技术
  • 一种信息流模型构建方法、装置及介质
  • 一种通信服务系统及其构建方法、构建装置、存储介质
技术分类

06120112193901