掌桥专利:专业的专利平台
掌桥专利
首页

内容数据的处理方法及装置、存储介质

文献发布时间:2023-06-19 12:13:22


内容数据的处理方法及装置、存储介质

技术领域

本公开涉及内容数据的处理方法,特别涉及有一种内容数据的处理方法及装置、存储介质。

背景技术

在向用户推荐内容数据的应用场景,或在提升平台生态环境等多个应用场景中,经常需要从多个内容数据中挖掘出亮点内容数据。例如:从发布的多个视频中或多篇文章中,挖掘出优异的小视频或文章作品,或者从一个直播的多个片断中,挖掘出较为优秀的直播片断等。

现有的内容的挖掘方法,主要是根据内容数据的内容特征的大小,按照从大到小的顺序进行排名,如根据阅读量或点赞数等进行排名,然后选取排在前N名的内容数据作为高光内容数据,或者是把内容特征大于内容特征阈值的内容数据作为高光内容数据。

但是,内容数据的内容特征的大小,并不能完全准确地反映出内容数据是否优异。例如,对于一个拥有大量粉丝的作者,即使发布了一个质量较差的作品,该作品的内容特征通常也比粉丝量少的作者发布的优异作品的内容特征大。因此,现有的挖掘方式并不能准确地挖掘出优异的内容数据。

发明内容

本公开提供一种内容数据的处理方法及装置、存储介质,以至少解决现有技术无法准确地挖掘优异的内容数据的问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供了一种内容数据的处理方法,包括:

获取多个内容数据,并确定各个所述内容数据的内容特征;

基于各个所述内容数据的内容特征,计算得到内容特征阈值;

获取各个所述内容数据的已发布内容数据,并确定出各个所述内容数据的已发布内容特征阈值;其中,所述内容数据与其已发布内容数据由同一用户账户发布;

对于任一所述内容数据,若任一内容数据的内容特征大于所述任一内容数据的已发布内容特征阈值,且大于所述内容特征阈值,则确定所述任一内容数据为目标内容数据。

可选地,在上述的内容数据的处理方法中,所述获取多个内容数据,并确定各个所述内容数据的内容特之后,还包括:

获取每个所述内容数据的属性信息;

对每个所述内容数据的属性信息进行特征处理,得到每个所述内容数据的特征向量;

利用聚类算法对每个所述内容数据的特征向量进行处理,将所述内容数据划分为多类类别;

其中:所述对于任一所述内容数据,若任一内容数据的内容特征大于所述任一内容数据的已发布内容特征阈值,且大于所述内容特征阈值,则确定所述任一内容数据为目标内容数据,包括:

针对每个类别的内容数据中的任一所述内容数据,若任一内容数据的内容特征大于所述任一内容数据的已发布内容特征阈值,且大于所属类别对应的内容特征阈值,则确定所述任一内容数据为目标内容数据;其中,每个类别对应的内容特征阈值,基于属于所述类别下的各个所述内容数据的内容特征计算得到。

可选地,在上述的内容数据的处理方法中,所述基于各个所述内容数据的内容特征,计算得到内容特征阈值,包括:

计算得到各个所述内容数据的内容特征的均值、以及标准差;

将各个所述内容数据的内容特征的均值、与M倍的各个所述内容数据的内容特征的标准差的和,作为所述内容特征阈值,所述M为正整数。

可选地,在上述的内容数据的处理方法中,所述确定各个所述内容数据的内容特征,包括:

确定当前业务场景下的特征类型;

确定各个所述内容数据在各个所述特征类型下的业务特征;

针对每个所述内容数据,对所述内容数据的各个所述业务特征进行加权计算,得到所述内容数据的内容特征。

可选地,在上述的内容数据的处理方法中,所述获取各个所述内容数据的已发布内容数据之前,还包括:

获取多个历史周期中的每个历史周期内发布的内容数据的内容特征;其中,多个所述历史周期在时间维度上是连续的,每个所述历史周期的时间长度为预设周期长度;

计算每个所述历史周期内发布的内容数据的内容特征的均值,得到多个均值,并计算每个所述历史周期内发布的内容数据的内容特征的方差,得到多个方差;

计算得到所述多个均值的波动率,并计算得到所述多个方差的波动率;

若所述多个均值的波动率不大于预设值,且所述多个方差的波动率不大于预设值,则将所述预设周期长度确定为目标周期长度;

若所述多个均值的波动率大于预设值,和/或,所述多个方差的波动率大于预设值,则调整所述预设周期长度,并返回执行所述获取多个历史周期的每个所述历史周期内发布的内容数据的内容特征;

其中,所述获取各个所述内容数据的已发布内容数据,包括:

获取每个所述内容数据的发布时间前的所述目标周期长度内发布的已发布内容数据,得到每个所述内容数据的已发布内容数据。

可选地,在上述的内容数据的处理方法中,所述确定出各个所述内容数据的已发布内容特征阈值,包括:

计算每个所述内容数据的已发布内容数据的内容特征的均值,得到每个所述内容数据对应的内容特征均值;

计算每个所述内容数据的已发布内容数据的内容特征的标准差,得到每个所述内容数据对应的内容特征标准差;

分别利用每个所述内容数据对应的内容特征均值和内容特征标准差,计算得到每个所述内容数据的已发布内容特征阈值;其中,一个所述内容数据的已发布内容特征阈值,等于所述内容数据对应的内容特征均值与N倍的所述内容数据对应的内容特征标准差的和;所述N为正整数。

可选地,在上述的内容数据的处理方法中,所述对于任一所述内容数据,若任一内容数据的内容特征大于所述任一内容数据的已发布内容特征阈值,且大于所述内容特征阈值,则确定所述任一内容数据为目标内容数据之后,还包括:

在所述目标内容数据的数量未处于预设数量范围内时,调整所述每个所述内容数据对应的内容特征标准差的倍数N,并以调整后的每个所述内容数据对应的内容特征标准差的倍数N,返回执行所述分别利用每个所述内容数据对应的内容特征均值和内容特征标准差,计算得到每个所述内容数据对应的已发布内容特征阈值。

可选地,在上述的内容数据的处理方法中,所述若所述目标内容数据的数量未处于预设数量范围内,则调整所述每个所述内容数据对应的内容特征标准差的倍数N,包括:

若所述目标内容数据的数量大于所述预设数量范围的最大值,则减小所述每个所述内容数据对应的内容特征标准差的倍数N;

若所述目标内容数据的数量小于所述预设数量范围的最小值,则增加所述每个所述内容数据对应的内容特征标准差的倍数N。

根据本公开实施例的第二方面,提供了一种内容数据的处理装置,包括:

第一获取单元,被配置为执行获取多个内容数据,并确定各个所述内容数据的内容特征;

第一计算单元,被配置为执行基于各个所述内容数据的内容特征,计算得到内容特征阈值;

第一确定单元,被配置为执行获取各个所述内容数据的已发布内容数据,并确定出各个所述内容数据的已发布内容特征阈值;其中,所述内容数据与其已发布内容数据由同一用户账户发布;

筛选单元,被配置为执行对于任一所述内容数据,若任一内容数据的内容特征大于所述任一内容数据的已发布内容特征阈值,且大于所述内容特征阈值,则确定所述任一内容数据为目标内容数据。

可选地,在上述的内容数据的处理装置中,还包括:

第二获取单元,被配置为执行获取每个所述内容数据的属性信息;

特征处理单元,被配置为执行对每个所述内容数据的属性信息进行特征处理,得到每个所述内容数据的特征向量;

分类单元,被配置为执行利用聚类算法对每个所述内容数据的特征向量进行处理,将所述内容数据划分为多个类别;

其中:所述筛选单元,包括:

筛选子单元,被配置为执行针对每个类别的内容数据中的任一所述内容数据,若任一内容数据的内容特征大于所述任一内容数据的已发布内容特征阈值,且大于所属类别对应的内容特征阈值,则确定所述任一内容数据为目标内容数据;其中,每个类别对应的内容特征阈值,基于属于所述类别下的各个所述内容数据的内容特征计算得到。

可选地,在上述的内容数据的处理装置中,所述第一计算单元,包括:

第二计算单元,被配置为执行计算得到各个所述内容数据的内容特征的均值、以及标准差;

第三计算单元,被配置为执行将各个所述内容数据的内容特征的均值、与M倍的各个所述内容数据的内容特征的标准差的和,作为所述内容特征阈值,所述M为正整数。

可选地,在上述的内容数据的处理装置中,所述第一获取单元,包括:

第一获取子单元,被配置为执行获取多个内容数据;

第二确定单元,被配置为执行确定当前业务场景下的特征类型;

第三确定单元,被配置为执行确定各个所述内容数据在各个所述特征类型下的业务特征;

第四计算单元,被配置为执行针对每个所述内容数据,对所述内容数据的各个所述业务特征进行加权计算,得到所述内容数据的内容特征。

可选地,在上述的内容数据的处理装置中,还包括:

第二获取单元,被配置为执行获取多个历史周期中的每个历史周期内发布的内容数据的内容特征;其中,多个所述历史周期在时间维度上是连续的,每个所述历史周期的时间长度为预设周期长度;

第五计算单元,被配置为执行计算每个所述历史周期内发布的内容数据的内容特征的均值,得到多个均值,并计算每个所述历史周期内发布的内容数据的内容特征的方差,得到多个方差;

第六计算单元,用于计算得到所述多个均值的波动率,并计算得到所述多个方差的波动率;

周期确定单元,被配置为执行在所述多个均值的波动率不大于预设值,且所述多个方差的波动率不大于预设值时,将所述预设周期长度确定为目标周期长度;

第一返回单元,被配置为执行在所述多个均值的波动率大于预设值,和/或,所述多个方差的波动率大于预设值时,调整所述预设周期长度,并返回执行所述获取多个历史周期的每个所述历史周期内发布的内容数据的内容特征;

其中,所述第一确定单元执行所述获取各个所述内容数据的已发布内容数据时,用于:

获取每个所述内容数据的发布时间前的所述目标周期长度内发布的已发布内容数据,得到每个所述内容数据的已发布内容数据。

可选地,在上述的内容数据的处理装置中,所述第一确定单元,包括:

第七计算单元,被配置为执行计算每个所述内容数据的已发布内容数据的内容特征的均值,得到每个所述内容数据对应的内容特征均值;

第八计算单元,被配置为执行计算每个所述内容数据的已发布内容数据的内容特征的标准差,得到每个所述内容数据对应的内容特征标准差;

第九计算单元,被配置为执行分别利用每个所述内容数据对应的内容特征均值和内容特征标准差,计算得到每个所述内容数据的已发布内容特征阈值;其中,一个所述内容数据的已发布内容特征阈值,等于所述内容数据对应的内容特征均值与N倍的所述内容数据对应的内容特征标准差的和;所述N为正整数。

可选地,在上述的内容数据的处理装置中,还包括:

调整单元,被配置为执行在所述目标内容数据的数量未处于预设数量范围内时,调整所述每个所述内容数据对应的内容特征标准差的倍数N;

第二返回单元,被配置为执行以调整后的每个所述内容数据对应的内容特征标准差的倍数N,返回所述第九计算单元执行所述分别利用每个所述内容数据对应的内容特征均值和内容特征标准差,计算得到每个所述内容数据对应的已发布内容特征阈值。

可选地,在上述的内容数据的处理装置中,所述调整单元,包括:

第一调整单元,被配置为若所述目标内容数据的数量大于所述预设数量范围的最大值,执行减小所述每个所述内容数据对应的内容特征标准差的倍数N;

第二调整单元,用于被配置为若所述目标内容数据的数量小于所述预设数量范围的最小值,执行增加所述每个所述内容数据对应的内容特征标准差的倍数N。

根据本公开实施例的第三方面,提供了一种电子设备,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现如上述任一项所述内容数据的处理方法。

根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一项所述内容数据的处理方法。

根据本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机程序,其特征在于所述计算机程序被处理器执行时实现上述任一项所述的内容数据的处理方法。

本公开提供的一种内容数据的处理方法,通过获取多个内容数据,并确定各个内容数据的内容特征,然后基于各个内容数据的内容特征,计算得到内容特征阈值。其次,获取每个内容数据对应的多个已发布内容数据,并利用每个内容数据对应的多个已发布内容数据的内容特征,计算得到每个内容数据的已发布内容特征阈值,从而最终从多个内容数据中,筛选出内容特征大于自身的已发布内容特征阈值,且大于内容特征阈值的内容数据作为目标内容数据,其中,内容特征阈值基于所述多个内容数据的内容特征计算得到。从而,筛选出在多个待挖掘的内容数据中表现优异的,并且还优于自身的历史水平的内容数据,准确地挖掘出优异的内容数据。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种内容数据的处理方法的流程图;

图2是根据一示例性实施例示出的一种确定内容数据的内容特征的方法的流程图;

图3是根据一示例性实施例示出的一种计算内容特征阈值的方法的流程图;

图4是根据一示例性实施例示出的一种确定目标周期长度的流程图;

图5是根据一示例性实施例示出的一种计算已发布内容特征阈值的方法的流程图;

图6是根据一示例性实施例示出的另一种内容数据的处理方法的流程图;

图7是根据一示例性实施例示出的一种多内容数据分类的方法的流程图;

图8是根据一示例性实施例示出的另一种计算内容特征阈值的方法的流程图;

图9是根据一示例性实施例示出的一种内容数据的处理装置的结构示意图;

图10是根据一示例性实施例示出的一种第一计算单元的结构示意图;

图11是根据一示例性实施例示出的一种第一获取单元的结构示意图;

图12是根据一示例性实施例示出的一种第一确定单元的结构示意图;

图13是根据一示例性实施例示出的一种调整算单元的结构示意图;

图14是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种内容数据的处理方法的流程图。如图1所示,内容数据的处理方法,可以应用于电子设备,例如服务器、计算机终端等,具体包括以下步骤S101-S104。

在步骤S101中、获取多个内容数据,并确定各个内容数据的内容特征。

本公开实施例中,内容数据指的视频、文本、声音以及图像等媒体数据。更具体的,可以包括发布主体发布的视频、新闻、文章、音频等数据。需要说明的是,内容数据并不限于是一个完整的作品,如一部完整的电影、或一部完整的小说,也可以是作品的部分,如电影的一个片断或者一个时刻等,所以获取的多个内容数据可以是多个视频的多个片断,即本公开并不对内容数据的形式、长度、发布时间等进行特定限制。

需要说明的是,内容数据的内容特征可以用于表征内容数据在业务场景下的优异程度,通常内容数据的内容特征的数值越大,则表征内容数据在业务场景下越优,例如,内容数据的内容特征为点赞数,则内容数据的点赞数越多,则表征内容数据越优。其中,内容数据的内容特征可以根据业务场景确定的,具体可以是内容数据的一种特征数据,如播放次数、点赞数、或曝光次数等数据中的一种,也可以是多种特征数据融合和得到的值。例如,业务场景为分析挖掘优秀视频,则选取的特征应为与视频消费相关的特征,比如播放次数和曝光次数,然后将两种数值进行加权融合得到内容数据的内容特征。大部分业务场景下的内容特征均为多种数据融合得到。

可选地,若内容数据的内容特征为多中数据融合得到,则如图2所示,步骤S101的一种具体实施方式,包括以下步骤S201-S203。

S201、确定当前业务场景下的特征类型。

其中,特征类型可以是点击量、评论数、点赞量等,可用于反映内容数据在当前的业务场景下的优异程度的数据。具体的,可以预先设置好各个业务场景对应的多个内容特征的特征类型,在用户选取业务场景后,可确定在该业务场景下所需内容特征的特征类型,进而执行步骤S202。

S202、确定各个内容数据在各个特征类型下的业务特征。

S203、针对每个内容数据,对内容数据的各个业务特征进行加权计算,得到内容数据的内容特征。

例如,当前业务场景下的特征类型为点击量、评论数、点赞量,某一个内容数据各个特征类型下的业务特征为:点击量1000、评论数200、点赞量500,三个业务特征对应的权重值可以分别为10%、50%和40%,则对该内容数据的各个业务特征进行加权计算,得到内容数据的内容特征为400。

其中,加权计算过程中的各个业务特征的权重,可以根据业务场景的需求确定,一般情况下,对于在该业务场景下评定内容数据的优异程度影响越大的业务特征对应的权重越大。

可选地,可以使用现有的主观赋权和客观赋权的综合能力计算方式进行加权计算。具体的计算过程与现有相同,此处不再赘述。

在步骤S102中、基于各个内容数据的内容特征,计算得到内容特征阈值。

内容特征阈值基于各个内容数据的内容特征计算得到,可用于评定一个内容数据在多个内容数据是否优异。

可选地,内容特征阈值具体可以基于异常检测算法3simga计算,具体实施方式如图3所示,包括以下步骤S301- S302。

S301、计算得到各个内容数据的内容特征的均值、以及标准差。

S302、将各个内容数据的内容特征的均值、与M倍的各个内容数据的内容特征的标准差的和,作为内容特征阈值,M为正整数。

例如,有5个内容数据的内容特征为:350、400、600、500、550,则各个内容数据的内容特征的均值为480,标准差约等于92.74。若M设置为3,则内容特征阈值为:480+92.74*3=758.22。

需要说明的是,更具体的基于异常检测算法3simga计算内容特征阈值的计算过程,与图5示出的计算已发布内容特征阈值的过程一样,不同之处在于,图3是将计算的对象由已发布内容数据的内容特征转换为各个内容数据的内容特征,因此此处不再赘述。

在步骤S103中、获取各个内容数据的已发布内容数据,并确定出各个内容数据的已发布内容特征阈值。

其中,每个内容数据与每个内容数据对应的多个已发布内容数据由同一个用户账户发布。并且,一个内容数据的已发布内容数据的发布时间不晚于其对应的内容数据的发布时间,即一个内容数据对应的已发布内容数据,指与该内容数据均为同一个用户账户的发布、且发布时间不晚于该内容数据的其他内容数据。需要说明的是,在本申请实施例中,若对于发布两个的内容数据,若两个内容数据均为同一个用户账户发布,则确定两个内容数据具有相互对应关系,并且将发布时间较早的内容数据作为发布时间较晚的内容数据对应的已发布内容数据。而一个内容数据的已发布内容特征阈值,利用获取到的该内容数据的各个已发布内容数据的内容特征计算得到。可选地,已发布内容特征阈值可以基于异常检测算法计算得到,可用于评定内容数据是否优于历史水平,所以已发布内容特征阈值也可以通俗地理解其为已发布内容数据的内容特征的优异水平线。

通常,对于各个独立的内容数据,即单独发布的一个完整的内容数据,如用户发布的各个视频,一个内容数据对应的已发布内容数据一般指的是发布该内容数据的发布主体不晚于该内容数据发布的其他的内容数据。

对于非独立的内容数据,即该内容数据属于单独发布的一个完整内容数据中的一部分,其具有时序特征,时序特征即为该部分的内容数据与其他部分的内容数据之间的时序关系,例如,发布的一集电视剧中的某一个视频片断,而该片断与其他片断是存在时间上的先后关系的,则该内容数据对应的已发布内容数据,可以是该内容数据所属的一个单独发布的内容数据的,其发布时间早于该内容数据的其他组成部分。当然该内容数据对应的已发布内容数据,也可以是相同发布主体单独发布的其他的内容数据中的组成部分。例如,对于一个直播片断,其对应的已发布内容数据可以是其所属的直播视频中的其他的,发布时间早于该直播片断的其他的直播片断,此时通过本公开提供的方法,就可以挖掘出直播视频中的优秀的直播片断。当然,该直播片断对应的已发布内容数据也可以是,相同发布主体发布的,且发布时间早于该直播片断的其他直播视频中的直播片断。

需要说明的是,本公开实施例提供的方法,需要确定出优于自身历史水平的内容数据,所以需要确定出用于对比内容数据是否优异的已发布内容数据。

可选地,可以但不限于针对每个内容数据,选取距离该内容数据发布时间最近的预设数量的对应的已发布内容数据,或采用随机等方式确定内容数据对应的已发布内容数据。若当前的业务场景为挖掘包含时序特征的内容数据的亮点时刻,则可以是选取该内容数据所属的内容数据中的其他各个组成部分的内容数据。

可选地,一种获取各个内容数据的已发布内容数据的具体实施方式,具体包括:获取每个内容数据的发布时间前的目标周期长度内发布的已发布内容数据,得到每个内容数据的已发布内容数据。

例如,一个内容数据的发布时间为2021年2月1号,目标周期长度为一个月,则获取发布该内容数据的主体在2021年一月份所发布的内容数据,所获取的这些内容数据即为该内容数据的已发布内容数据。

其中,目标周期长度指的是时间长度。目标周期长度可基于业务场景以及内容数据的特性确定,以能得到能满足业务场景需求的已发布内容数据。由于,通常进行挖掘的内容数据具有相同的特性,因此本公开实施例中,采用相同的目标周期长度,确定各个内容数据对应的已发布内容数据。当然,也可以分别确定各个内容数据对应的目标周期长度,进而使用对应的目标周期长度确定内容数据对应的已发布内容数据。

图4是根据一示例性实施例示出的一种确定目标周期长度的方法。如图4所示,具体包括步骤S401- S406。

在步骤S401中、获取多个历史周期中的每个历史周期内发布的内容数据的内容特征;多个历史周期在时间维度上是连续的,每个历史周期的时间长度为预设周期长度。

其中,预设周期长度根据业务场景以及内容数据的特性选择一个初始的周期长度,如可以选择1天或7天,也可以选定几小时等。

例如,选定的预设周期长度为7天,获取4个历史周期中每个历史周期内发布的内容数据的内容特征,则四个历史周期可以分别是:1月1号至1月7号、1月8号至1月14号、1月15号至1月21号、1月21号至1月27号。应当理解的是,历史周期的结束时刻不晚于当前时刻。

在步骤S402中、计算每个历史周期内发布的内容数据的内容特征的均值,得到多个均值,并计算每个历史周期内发布的内容数据的内容特征的方差,得到多个方差。

例如,存在三个历史周期,第一个历史周期的内容数据的内容特征为:400、500、600,第二个历史周期的内容数据的内容特征为:400和600,第三个历史周期的内容数据的内容特征为:450、500、550、600,则计算三个历史周期内发布的内容数据的内容特征的均值,得到三个均值分别为:500、500、525;计算每个历史周期内发布的内容数据的内容特征的方差,得到三个方差约等于:6666.67、10000、3125。

在步骤S403中、计算得到多个均值的波动率,并计算得到多个方差的波动率。

在得到各个历史周期的均值和标准差后,就可以分别计算得到在这几个连续周期对应的均值的波动率以及计算方差的波动率。可选地,均值和方差的波动率,可以是每两个相邻的均值或方差的变化率的总和的绝对值。例如,对于上述计算得到的是均值:500、500、525,则第一个均值500与第二个均值500的变化率为:(500-500)/500=0;第二个均值500与第三个均值525的变换率为:(525-500)/500=0.05,所以均值的波动率为:0.05+0=0.05。

在步骤S404中、判断是否多个均值的波动率不大于预设值,且多个方差的波动率不大于预设值。

由于,若是目标周期长度过小,则确定的已发布内容数据的数量较少,易存在偶然性,不能很好的反应内容数据是否优于历史水平。但是,目标周期长度过大,则确定出的已发布内容数据的数据量过大,则影响处理效率。因此,本公开实施例选择内容数据的内容特征的均值波动率和方差的波动率均不大于预设值的周期长度,作为目标周期长度,既避免偶然性也防止数据量过大。所以,若判断出判断多个均值的波动率不大于预设值,且多个方差的波动率不大于预设值,则执行步骤S406;若判断出多个均值的波动率大于预设值,和/或,多个方差的波动率大于预设值,则执行步骤S405。

S405、调整预设周期长度。

其中,调整预设周期长度即为重新选择一个预设周期长度。具体的,通常是在原先选择的预设周期长度上以设定的幅度调整预设周期长度,即以设定的幅度增大预设周期长度,例如,预先选择的周期长度为7天,设定的幅度为3天,则调整后的周期长度为10天。需要说明的是,在调整预设周期长度后,针对调整后的预设周期长度返回执行步骤S401。

在步骤S406中、将预设周期长度确定为目标周期长度。

可选地,当基于异常检测算法3simga计算已发布内容特征阈值时,具体计算已发布内容特征阈值的步骤,如图5所示,包括步骤S501-S502。

在步骤S501中、计算每个内容数据对应的已发布内容数据的内容特征的均值,得到每个内容数据对应的内容特征均值,以及计算每个内容数据的已发布内容数据的内容特征的标准差,得到每个内容数据对应的内容特征标准差。

在步骤S502中、分别利用每个内容数据对应的内容特征均值和内容特征标准差,计算得到每个内容数据的已发布内容特征阈值;一个内容数据的已发布内容特征阈值,等于内容数据对应的内容特征均值与N倍的内容数据对应的内容特征标准差的和。

其中,N为正整数。需要说明的是,在现有的异常检测算法3singa中,N一般为3,适用于整体分布的数据。在不同的业务场景下,已发布内容数据的内容特征满足整体分布的较少。因此对于非常态分布的数据,可以采用箱线图的方式确定N的大小。具体的,利用已发布内容数据的内容特征制作箱线图,并基于箱线图确定N。其中,确定的N应该使得已发布内容特征阈值至少位于箱线图异常点的位置,并且应该处于数据分布开始发散的位置,从而可以保证筛选出大于该已发布内容特征阈值的内容数据尽可能多。具体的,随机或者采用固定值等确定一个初始的N,然后基于确定的N值计算已发布内容特征阈值,并根据已发布内容特征阈值在箱线图中的位置,相应地调整N,然后返回基于当前的N再计算已发布内容特征阈值,再根据当前的已发布内容特征阈值在箱线图中的位置,相应地调整N,直至已发布内容特征阈值位于箱线图异常点的位置,并且处于数据分布开始发散的位置。

可见,标准差的倍数N会影响已发布内容特征阈值的大小,而最终筛选的目标内容数据的内容特征需要大于已发布内容特征阈值,所以标准差的倍数N可以影响最终筛选出的目标内容数据的数量,因此在筛选出目标内容数据后,还可以进一步执行:判断目标内容数据的数量是否满足预期数量。

其中,若判断出目标内容数据的数量不满足预期数量,则调整标准差的倍数N。具体的,若目标内容数据的数量大于预期数量,则减小所述标准差的倍数N;若目标内容数据的数量小于预期数量,则增加标准差的倍数N。然后返回执行利用每个内容数据对应的多个已发布内容数据的内容特征,计算得到每个内容数据的已发布内容特征阈值,即执行计算每个内容数据对应的已发布内容数据的内容特征的均值和标准差的步骤。

在步骤S104中、对于任一内容数据,若该任一内容数据的内容特征大于该任一内容数据的已发布内容特征阈值,且大于内容特征阈值,则确定该任一内容数据为目标内容数据。

所以,本公开实施例中筛选出的目标内容数据不仅优于自身历史水平,并且在多个内容数据中属于优秀的内容数据(即在整体中也处于优异的水平),从而准确的得到优异的内容数据。

需要说明的是,当业务场景为挖掘包含时序特征的内容数据的高光时刻时,则获取的各个内容数据为多个独立的内容数据的一个时刻。那么,内容数据的内容特征大于自身的已发布内容特征阈值,即说明其为所属独立的内容数据中高光时刻,而大于内容特征阈值,则说明该高光时刻优于其他的独立的内容数据的高光时刻。

本公开实施例提供的一种内容数据的处理方法,通过获取多个内容数据,并确定各个内容数据的内容特征,然后基于各个内容数据的内容特征,计算得到内容特征阈值。其次,获取每个内容数据对应的多个已发布内容数据,并利用每个内容数据对应的多个已发布内容数据的内容特征,计算得到每个内容数据的已发布内容特征阈值,从而最终从多个内容数据中,筛选出内容特征大于自身的已发布内容特征阈值,且大于内容特征阈值的内容数据作为目标内容数据,其中,内容特征阈值基于所述多个内容数据的内容特征计算得到。从而,筛选出在多个待挖掘的内容数据中表现优异的,并且还优于自身的历史水平的内容数据,准确地挖掘出优秀的内容数据。

图6是根据一示例性实施例示出的一种内容数据的处理方法的流程图。如图6所示,内容数据的处理方法,具体包括步骤S601-S605。

在步骤S601中、获取多个内容数据,并确定各个内容数据的内容特征。

其中,内容数据的内容特征用于说明内容数据在业务场景下的优异程度。

需要说明的是,步骤S601的具体实施方式,可相应的参考上述方法实施例中的步骤S101的实施方式,此处不再赘述。

在步骤S602中,对多个内容数据进行分类,得到多个类别。

由于,由于内容数据的内容特征,受多个因素的影响,如内容数据所属的类列、粉丝量等因素,如娱乐类的作品的观看量,通常远比军事类或体育类的作品的观看量大,或者粉丝量多的用户发布的内容数据的内容特征,通常都比粉丝量少的用户的内容特征大。因此,需要对内容数据进行分类,然后再分别对类别的内容数据进行挖掘,才能准确地挖掘出优异的作品。

可选地,如图7所示,示出了一种对内容数据进行分类的方法,包括步骤S701-S703。

在步骤S701中、获取每个内容数据的属性信息。

其中,属性信息的类型根据业务场景选取,具体可以包括内容数据自身的业务内容特征,如观看量、点赞数等,还可以包括内容数据的发布主体的相关信息,如粉丝量、作品量等,当然也还可以包括其他与内容数据相关的信息,具体根据业务场景的需求进行选取。

在步骤S702中、对每个内容数据的属性信息进行特征处理,得到每个内容数据的特征向量。

可选地,可以采用现有的特征处理工具,如word2vec等,对内容数据的属性信息进行特征处理,得到每个多内容数据的特征向量。

在步骤S703中、利用聚类算法对每个内容数据的特征向量进行计算,将内容数据划分为多个类别。

可选地,可以采用现有的聚类算法kmeans对内容数据进行分类。其中,类别的数量可以根据业务场景的需求设定。

在步骤S603中、基于各个内容数据的内容特征,计算得到内容特征阈值。

具体的,分别基于每类别的内容数据的内容特征,计算得到每个类别对应的内容特征阈值。需要说明的是,针对每个类别的具体计算过程,可参考步骤S102的具体实施过程,此处不再赘述。

在步骤S604中、获取各个内容数据的已发布内容数据,并确定出各个内容数据的已发布内容特征阈值。

其中,每个内容数据与自身对应的多个已发布内容数据由同一个用户账户发布,每个内容数据的发布时间,不早于自身对应的每个已发布内容数据的发布时间。

需要说明的是,步骤S604的具体实施方式,可相应地参考步骤S103的各个具体实施方式,此处不再赘述。

在步骤S605中、针对每个类别的内容数据中的任一内容数据,若该任一内容数据的内容特征大于该任一内容数据的已发布内容特征阈值,且大于所属类别对应的内容特征阈值,则确定该任一内容数据为目标内容数据。

其中,每个类别对应的内容特征阈值,基于属于该类别下的各个内容数据的内容特征计算得到。例如,对于体育类对应的内容特征阈值,则基于体育类下的各个内容数据的内容特征计算得到,而娱乐类对应的内容特征阈值,则基于娱乐类下的各个内容数据的内容特征计算得到。

可选的,在本申请另一实施例中,步骤S603在步骤S604之后执行,并且步骤S603的具体实施方式,如图8所示,包括以下步骤S801-S803。

S801、从每个类别下的内容数据中,筛选出初选内容数据,初选内容数据的内容特征大于所述初选内容数据的已发布内容特征阈值。

S802、分别计算属于同一类别的各个初选内容数据的内容特征的均值和标准差。

需要说明的是,不属于初选内容数据的内容数据(即非初选内容数据),其内容特征不大于自身的已发布内容特征阈值,无法被筛选为目标内容数据。所以,后续利用多个初选内容数据相互对比筛选出优秀的内容数据,即筛选优秀的内容数据不需要考虑非初选内容数据,因此本公开实施例中,是分步对内容数据进行筛选,即先筛选出初选内容数据,然后再从初选内容数据中筛选目标内容数据,从而可以减少了计算的数据量,进而提高了计算效率。当然,这只是其中一种可选的方式,也可以是采用每个类别中的所有的内容数据的内容特征,计算各个类别对应的内容特征阈值,最终才筛选出内容特征既大于自身的历史特征阈值,且大于所属类别对应的内容特征阈值的内容数据,作为目标内容数据。

S803、利用均值和标准差,计算得到每个类别对应的内容特征阈值。

其中,内容特征阈值等于均值与M倍的标准值的和,M为正整数。

本公开实施例提供的一种内容数据的处理方法,通过获取多个内容数据的内容特征,然后将内容数据分为多个类别,以分别对每个类别进行数据筛选,从而能更准确地挖掘出优秀的内容数据。后续,确定每个内容数据对应的多个已发布内容数据,并利用每个内容数据对应的多个已发布内容数据的内容特征,计算得到每个内容数据的已发布内容特征阈值,从而从多个内容数据中,筛选出内容特征大于自身的已发布内容特征阈值的初选内容数据,即筛选出优于自己历史水平的数据。然后,在利用筛选内容数据,计算各个类别的内容特征阈值,并从初选内容数据中筛选出内容特征大于所属类别的内容特征阈值的内容数据作为目标内容数据,从而掘出在所属类别中表现优异,并且由于自身历史水平的内容数据,更准确地挖掘优秀的内容数据。

图9是根据一示例性实施例示出的一种内容数据的处理装置的结构示意图。如图9所示,内容数据的处理方法,具体包括以下单元:

第一获取单元901,被配置为执行获取多个内容数据,并确定各个内容数据的内容特征。

第一计算单元902,被配置为执行基于各个内容数据的内容特征,计算得到内容特征阈值。

第一确定单元903,被配置为执行获取各个内容数据的已发布内容数据,并确定出各个内容数据的已发布内容特征阈值。

其中,内容数据与其已发布内容数据由同一用户账户发布。

筛选单元904,被配置为执行对于任一内容数据,若任一内容数据的内容特征大于任一内容数据的已发布内容特征阈值,且大于内容特征阈值,则确定任一内容数据为目标内容数据。

可选地,在本公开另一实施例提供的内容数据的处理装置中,还可以包括以下单元:

第二获取单元,被配置为执行获取每个内容数据的属性信息。

特征处理单元,被配置为执行对每个内容数据的属性信息进行特征处理,得到每个内容数据的特征向量。

分类单元,被配置为执行利用聚类算法对每个内容数据的特征向量进行处理,将内容数据划分为多个类别。

其中:筛选单元,包括:

筛选子单元,被配置为执行针对每个类别的内容数据中的任一内容数据,若任一内容数据的内容特征大于任一内容数据的已发布内容特征阈值,且大于所属类别对应的内容特征阈值,则确定任一内容数据为目标内容数据。

其中,每个类别对应的内容特征阈值,基于属于类别下的各个内容数据的内容特征计算得到。

可选地,在本公开另一实施例提供的内容数据的处理装置中,第一计算单元,如图10所示,包括:

第二计算单元1001,被配置为执行计算得到各个内容数据的内容特征的均值、以及标准差;

第三计算单元1002,被配置为执行将各个内容数据的内容特征的均值、与M倍的各个内容数据的内容特征的标准差的和,作为内容特征阈值,M为正整数。

可选地,在本公开另一实施例提供的内容数据的处理装置中,第一获取单元,如图11所示,包括以下单元:

第一获取子单元1101,被配置为执行获取多个内容数据。

第二确定单元1102,被配置为执行确定当前业务场景下的特征类型。

第三确定单元1103,被配置为执行确定各个内容数据在各个特征类型下的业务特征。

第四计算单元1104,被配置为执行针对每个内容数据,对内容数据的各个业务特征进行加权计算,得到内容数据的内容特征。

可选地,在本公开另一实施例提供的内容数据的处理装置中,还包括:

第二获取单元,被配置为执行获取多个历史周期中的每个历史周期内发布的内容数据的内容特征。

其中,多个历史周期在时间维度上是连续的,每个历史周期的时间长度为预设周期长度。

第五计算单元,被配置为执行计算每个历史周期内发布的内容数据的内容特征的均值,得到多个均值,并计算每个历史周期内发布的内容数据的内容特征的方差,得到多个方差。

第六计算单元,用于计算得到多个均值的波动率,并计算得到多个方差的波动率。

周期确定单元,被配置为执行在多个均值的波动率不大于预设值,且多个方差的波动率不大于预设值时,将预设周期长度确定为目标周期长度。

第一返回单元,被配置为执行在多个均值的波动率大于预设值,和/或,多个方差的波动率大于预设值时,调整预设周期长度,并返回执行获取多个历史周期的每个历史周期内发布的内容数据的内容特征。

其中,第一确定单元执行获取各个内容数据的已发布内容数据时,用于:

获取每个内容数据的发布时间前的目标周期长度内发布的已发布内容数据,得到每个内容数据的已发布内容数据。

可选地,在本公开另一实施例提供的内容数据的处理装置中,第一确定单元,如图12所示,包括以下单元:

第七计算单元1201,被配置为执行计算每个内容数据的已发布内容数据的内容特征的均值,得到每个内容数据对应的内容特征均值。

第八计算单元1202,被配置为执行计算每个内容数据的已发布内容数据的内容特征的标准差,得到每个内容数据对应的内容特征标准差;

第九计算单元1203,被配置为执行分别利用每个内容数据对应的内容特征均值和内容特征标准差,计算得到每个内容数据的已发布内容特征阈值。

其中,一个内容数据的已发布内容特征阈值,等于内容数据对应的内容特征均值与N倍的内容数据对应的内容特征标准差的和;N为正整数。

可选地,在本公开另一实施例提供的内容数据的处理装置中,还包括:

调整单元,被配置为执行在目标内容数据的数量未处于预设数量范围内时,调整每个内容数据对应的内容特征标准差的倍数N。

第二返回单元,被配置为执行以调整后的每个内容数据对应的内容特征标准差的倍数N,返回第九计算单元执行分别利用每个内容数据对应的内容特征均值和内容特征标准差,计算得到每个内容数据对应的已发布内容特征阈值。

可选地,在本公开另一实施例提供的内容数据的处理装置中,调整单元,如图13所示,包括:

第一调整单元1301,被配置为若目标内容数据的数量大于预设数量范围的最大值,执行减小每个内容数据对应的内容特征标准差的倍数N。

第二调整单元1302,用于被配置为若目标内容数据的数量小于预设数量范围的最小值,执行增加每个内容数据对应的内容特征标准差的倍数N。

需要说明的是,本公开上述实施例提供的各个单元的具体工作过程,可相应地参考上述方法实施例中的相应的步骤的实施过程,此处不再赘述。

图14是根据一示例性实施例示出的一种电子设备的结构图。参见图14,例如,该电子设备1400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图14,电子设备可以包括以下一个或多个组件:处理组件1402,存储器1404,电源组件1406,多媒体组件1408,音频组件1410,输入/输出(I/ O)的接口1412,传感器组件1414,以及通信组件1416。

处理组件1402通常电子设备1400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1402可以包括一个或多个处理器1420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1402可以包括一个或多个模块,便于处理组件1402和其他组件之间的交互。例如,处理组件1402可以包括多媒体模块,以方便多媒体组件1408和处理组件1402之间的交互。

存储器1404被配置为存储各种类型的数据以支持在电子设备1400的操作。这些数据的示例包括用于在电子设备1400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件1406为电子设备1400的各种组件提供电力。电源组件1406可以包括电源管理系统,一个或多个电源,及其他与为电子设备1400生成、管理和分配电力相关联的组件。

多媒体组件1408包括在电子设备1400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1408包括一个前置摄像头和/或后置摄像头。当电子设备1400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的内容数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1410被配置为输出和/或输入音频信号。例如,音频组件1410包括一个麦克风(MIC),当电子设备1400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1404或经由通信组件1416发送。在一些实施例中,音频组件1410还包括一个扬声器,用于输出音频信号。

I/ O接口1412为处理组件1402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1414包括一个或多个传感器,用于为电子设备1400提供各个方面的状态评估。例如,传感器组件1414可以检测到电子设备1400的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1400的显示器和小键盘,传感器组件1414还可以检测电子设备1400或电子设备1400一个组件的位置改变,用户与电子设备1400接触的存在或不存在,电子设备1400方位或加速/减速和电子设备1400的温度变化。传感器组件1414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件1416被配置为便于电子设备1400和其他设备之间有线或无线方式的通信。电子设备1400可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件1416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,电子设备1400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的内容数据的处理方法。

本公开以实施例示出一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一实施例中的内容数据的处理方法。

可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开另一实施例提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于执行上述任一个实施例所提供的内容数据的处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 内容重放装置、内容重放方法、内容重放系统、内容数据提供装置、内容数据提供方法、数据结构、程序、及存储介质
  • 内容数据的处理方法、报告数据的处理方法、计算机设备、存储介质
技术分类

06120113212420