掌桥专利:专业的专利平台
掌桥专利
首页

基于云计算的移动互联网大数据用户行为分析系统

文献发布时间:2024-01-17 01:19:37



技术领域

本发明属于互联网技术领域,具体的,涉及一种基于云计算的移动互联网大数据用户行为分析系统。

背景技术

互联网技术的快速发展为人们的生活带来了便利,在互联网的应用于发展过程中,大量的信息被存储保留,当用户需要获取想要的信息时,就会出现较大的难度,而检索功能的出现能够根据关键词获取用户可能想要的部分资料,然后用户再根据检索结果来进行筛选。

但是随着互联网中信息的日益增多,在输入关键词进行检索时,可能会出现检索结果过多的问题,虽然现在的很多系统会通过一定的预设规则来对检索结果进行排序,使用户能够优先获取对应预设规则下的优质对象,但是这种筛选方法并未考虑到用户本人在进行数据筛选时的习惯,导致在实际操作中,还是需要用户根据自身需要进行较多的二次筛选工作,不利于用户进行检索工作时的流畅度,为了解决上述问题,提供一种能够对用户观看短视频资料时的行为进行分析,并根据用户的行为习惯,在用户进行检索工作时,为用户推荐更加贴合的目标对象的方法,本发明提供了以下技术方案。

发明内容

本发明的目的在于提供一种基于云计算的移动互联网大数据用户行为分析系统,解决现有技术中在进行检索时并未考虑到用户本人在进行数据筛选时的习惯,导致在实际操作中,还是需要用户根据自身需要进行较多的二次筛选工作,不利于用户进行检索工作时的流畅度的问题。

本发明的目的可以通过以下技术方案实现:

基于云计算的移动互联网大数据用户行为分析系统,包括:

检索单元,通过检索关键词在数据存储单元中获取初选资料;

数据存储单元,用于对资料以及各用户的阅览记录进行存储;

用户登录单元,用户通过用户登录单元登录系统;

控制中心,用于根据用户的阅览记录以及初选资料对各初选资料进行排序,并将符合用户需求的初选资料优先推荐;

所述控制中心的工作方法包括如下步骤:

包括如下步骤:

S1、将一个用户标记为目标用户,获取在过去的预设时间T1内,目标用户的阅览记录;

所述阅览记录包括目标用户阅览资料时各对应资料的好评率、点击率、资料时长以及所属领域;

获取目标用户在同一个所属领域范围内,在过去的T1时间内的完成阅览的资料,将这些完成阅览的资料标记为历史对照资料;

获取历史对照资料的阅览记录;

依次计算得到目标用户在对应所属领域范围内,对于好评率的敏感系数G1、对于点击率的敏感系数G2以及对于资料时长的敏感系数G3;

所述敏感系数G1的计算方法为:

获取各历史对照资料的好评率hi,其中1≤i≤n,n为历史对照资料的数量;

根据公式

其中hp=(h1+h2+…+hn)/n;

根据公式G1=α3/(α1*F+α2*hp)计算得到目标用户对于好评率的敏感系数G1,其中α1、α2、α3均为预设值,且α1+α2=1;

所述敏感系数G2根据各历史对照资料的点击率di进行计算;

所述敏感系数G3根据各历史对照资料的资料时长ti进行计算;

G2与G3的计算方法均与G1相同;

S2、目标用户通过检索单元输入检索关键词,检索单元根据检索关键词在数据存储单元中获取对应的资料,将这些对应的资料标记为初选资料;

S3、获取各初选资料的关键词契合度R1;

获取各初选资料对应的领域附加值β;

获取各初选资料在过去的预设时间T1内的话题强度R2;

获取各初选资料在当前时刻对应的好评率hk以及点击率dk;

获取各初选资料对应的时长tk;

根据公式:

U=γ1*R1+γ2*R2+γ3*hk

得到各初选资料的复合贴合系数U;

其中α4为预设值,且当G1/α4<σ时,则G1/α4取值为σ,σ为大于0小于1的参数;当G1/α4>1时,则G1/α4取值为1;

式中,γ1、γ2、γ3、γ4与|γ5|均为预设的参数,且γ1、γ2、γ3与γ4均为正值,当tk-tp大于等于0时,γ5取负值,当tk-tp小于0时,γ5取正值;

tp=(t1+t2+…+tn)/n;

S4、将各初选资料按照复合贴合系数U从大到小的顺序依次推荐至目标用户。

作为本发明的进一步方案,所述完成阅览的资料是指对应的用户对对应资料的实际播放部分的时长与对应资料的全部时长之比大于预设比例值θ。

作为本发明的进一步方案,所述θ取值为70%。

作为本发明的进一步方案,所述σ取值为0.25。

作为本发明的进一步方案,各初选资料的所述关键词契合度R1的计算方法为:

对于一个初选资料,获取在该初选资料中出现的检索关键词的数量q1;

获取检索关键词的总数量q;

根据公式R1=q1/q计算得到对应初选资料的关键词契合度R1。

作为本发明的进一步方案,所述领域附加值β的计算方法为:

获取目标用户在过去的T1时间内的所有的完成阅览的资料,将这些完成阅览的资料标记为分类子资料;

获取各分类子资料对应的所属领域,按照所属领域不同对各分类子资料进行分组;

获取各所属领域对应的分类子资料的数量e1;

计算获取对于目标用户,各所属领域对应的领域附加值β,β=β1*e1/e,其中β1为预设值,e为分类子资料的数量。

作为本发明的进一步方案,所述各初选资料的话题强度R2的计算方法为:

获取一初选资料在过去的预设时间T1内被引用和被转发的次数r,将引用或转发后的对应初选资料标记为二级资料;

根据公式r*μ1计算得到对应初选资料的一级影响值;

获取各二级资料在过去的预设时间T1内被引用或转发的次数r2j,将引用和转发后的对应二级资料标记为三级资料,其中1≤j≤m,m为二级资料的数量;

根据公式μ2*(r21+r22+,…,+r2m)计算得到对应初选资料的二级影响值;

获取各三级资料在过去的预设时间T1内被引用或转发的次数r3j,然后计算得到对应初选资料的三级影响值μ3*(r31+r32+,…,+r3m);

依次计算得到对应初选资料的后续各级影响值,直至资料未再被进行进一步的引用或转发;

然后将对应初选资料的各级影响值的和作为对应初选资料在过去的预设时间T1内的话题强度R2;

其中μ1>μ2>μ3>…。

本发明的有益效果:

1、本发明通过对各初选资料进行二次筛选,且二次筛选是根据对应的用户在过去的一段时间内的阅览记录来进行的,因此能够尽可能为用户提供对应的合适的资料推荐顺序,使用户能够快速的获得理想的检索结果,降低用户的自我筛选时间与筛选难度,提升检索体验。

2、本发明通过计算复合贴合系数U来判断各初选资料与目标用户之间的贴合程度,其中通过敏感系数与预设值α4的比值来对各初选资料的好评率、点击率以及时长进行权重的重新分配计算,降低各对应资料的好评率、点击率、资料时长等参数对推荐结果的影响,有利于为用户推荐最合适的视频资料,提升用户的检索体验。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

基于云计算的移动互联网大数据用户行为分析系统,包括:

检索单元,用于通过检索单元输入检索关键词,且检索单元通过检索关键词在数据存储单元中获取初选资料;

数据存储单元,用于对资料以及各用户的阅览记录进行存储;

用户登录单元,用户通过用户登录单元输入账号,在经过身份验证后登录系统;

控制中心,用于根据用户的阅览记录以及初选资料对各初选资料进行排序,并将符合用户需求的初选资料优先推荐至对应用户;

所述控制中心对各初选资料进行排序,并将符合用户需求的初选资料优先推荐至对应用户的方法包括如下步骤:

包括如下步骤:

S1、将一个用户标记为目标用户,获取在过去的预设时间T1内,目标用户的阅览记录;

所述阅览记录包括目标用户阅览资料时各对应资料的好评率、点击率、资料时长以及所属领域;

所述所属领域包括美食、舞蹈、动漫、动物、漫画、运动、汽车、电影、音乐等;

所述资料为视频资料;

获取目标用户在同一个所属领域范围内,在过去的T1时间内的完成阅览的资料,将这些完成阅览的资料标记为历史对照资料;

获取历史对照资料的阅览记录;

所述完成阅览的资料是指对应的用户对对应资料的实际播放部分的时长与对应资料的全部时长之比大于预设比例值θ;

在本发明的一个实施例中,所述θ取值为70%;

依次计算得到目标用户在对应所属领域范围内,对于好评率的敏感系数G1、对于点击率的敏感系数G2以及对于资料时长的敏感系数G3;

所述敏感系数G1的计算方法为:

获取各历史对照资料的好评率hi,其中1≤i≤n,n为历史对照资料的数量;

根据公式

其中hp=(h1+h2+…+hn)/n;

根据公式G1=α3/(α1*F+α2*hp)计算得到目标用户对于好评率的敏感系数G1,其中α1、α2、α3均为预设值,且α1+α2=1;

所述敏感系数G2的计算方法为:

获取各历史对照资料的点击率di,其中1≤i≤n,n为历史对照资料的数量;

根据公式

其中dp=(d1+d2+…+dn)/n;

根据公式G2=α3/(α1*F1+α2*dp)计算得到目标用户对于点击率的敏感系数G2;

所述敏感系数G3的计算方法为:

获取各历史对照资料的资料时长ti,其中1≤i≤n,n为历史对照资料的数量;

根据公式

其中tp=(t1+t2+…+tn)/n;

根据公式G3=α3/(α1*F2+α2*tp)计算得到目标用户对于资料时长的敏感系数G3;

其中G1、G2、G3越大,则目标用户对资料的好评率、时长与点击率越敏感;该步骤能够通过敏感系数来直观表达目标用户视频资料的好评、时长以及热度的敏感程度;

S2、目标用户通过检索单元输入检索关键词,检索单元根据检索关键词在数据存储单元中获取对应的资料,将这些对应的资料标记为初选资料;

S3、获取各初选资料的关键词契合度R1;

获取各初选资料对应的领域附加值β;

获取各初选资料在过去的预设时间T1内的话题强度R2;

获取各初选资料在当前时刻对应的好评率hk以及点击率dk;

获取各初选资料对应的时长tk;

根据公式:

U=γ1*R1+γ2*R2+γ3*hk

得到各初选资料的复合贴合系数U;

其中α4为预设值,且当G1/α4<σ时,则G1/α4取值为σ,σ为大于0小于1的参数;当G1/α4>1时,则G1/α4取值为1;

在本发明的一个实施例中,所述σ取值为0.25;

式中,γ1、γ2、γ3、γ4与|γ5|均为预设的参数,且γ1、γ2、γ3与γ4均为正值,当tk-tp大于等于0时,γ5取负值,当tk-tp小于0时,γ5取正值;

在本发明的一个实施例中,各初选资料的所述关键词契合度R1的计算方法为:

对于一个初选资料,获取在该初选资料中出现的检索关键词的数量q1;

获取检索关键词的总数量q;

根据公式R1=q1/q计算得到对应初选资料的关键词契合度R1;

所述领域附加值β的计算方法为:

获取目标用户在过去的T1时间内的所有的完成阅览的资料,将这些完成阅览的资料标记为分类子资料;

获取各分类子资料对应的所属领域,按照所属领域不同对各分类子资料进行分组;

获取各所属领域对应的分类子资料的数量e1;

计算获取对于目标用户,各所属领域对应的领域附加值β,β=β1*e1/e,其中β1为预设值,e为分类子资料的数量。

所述各初选资料的话题强度R2的计算方法为:

获取一初选资料在过去的预设时间T1内被引用和被转发的次数r,将引用或转发后的对应初选资料标记为二级资料;

根据公式r*μ1计算得到对应初选资料的一级影响值;

获取各二级资料在过去的预设时间T1内被引用或转发的次数r2j,将引用和转发后的对应二级资料标记为三级资料,其中1≤j≤m,m为二级资料的数量;

根据公式μ2*(r21+r22+,…,+r2m)计算得到对应初选资料的二级影响值;

获取各三级资料在过去的预设时间T1内被引用或转发的次数r3j,然后计算得到对应初选资料的三级影响值μ3*(r31+r32+,…,+r3m);

依次计算得到对应初选资料的后续各级影响值,直至资料未再被进行进一步的引用或转发;

然后将对应初选资料的各级影响值的和作为对应初选资料在过去的预设时间T1内的话题强度R2;

其中μ1>μ2>μ3>…;

S4、将各初选资料按照复合贴合系数U从大到小的顺序依次推荐至目标用户。

本发明通过对各初选资料进行二次筛选,且二次筛选是根据对应的用户在过去的一段时间内的阅览记录来进行的,因此能够尽可能为用户提供对应的合适的资料推荐顺序,使用户能够快速的获得理想的检索结果,降低用户的自我筛选时间与筛选难度,提升检索体验;

本发明通过计算复合贴合系数U来判断各初选资料与目标用户之间的贴合程度,其中通过敏感系数与预设值α4的比值来对各初选资料的好评率、点击率以及时长进行权重的重新分配计算,降低各对应资料的好评率、点击率、资料时长等参数对推荐结果的影响,有利于为用户推荐最合适的视频资料,提升用户的检索体验。

在说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上内容仅仅是对本发明所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

相关技术
  • 基于互联网大数据的用户行为分析方法及云计算业务系统
  • 基于互联网大数据的用户行为分析方法及云计算业务系统
技术分类

06120116132540