掌桥专利:专业的专利平台
掌桥专利
首页

一种基于话题关联的话题传播预测方法

文献发布时间:2023-06-19 18:37:28


一种基于话题关联的话题传播预测方法

技术领域

本发明属于网络舆情分析领域,具体涉及一种基于话题关联的话题传播预测方法。

背景技术

一般来说,话题是指一定时间、一定范围内,公众最为关心的热点问题。各种多样化的话题在社交网络中广泛传播,承载了网络用户的大量言论与信息行为。这些话题数据反映了用户兴趣、行为和社交关系,利用这些数据进行研究可以有效进行信息推荐。但与此同时,在现实世界中,话题所包含的信息真假参杂,当话题在社会群体中大量传播时,会对人们的认知以及社会的稳定造成一系列的影响。

伴随互联网的发展,话题传播的方式发生了巨大的变化。一方面,微博、微信、论坛等蓬勃发展的社交平台为话题的传播提供了跨越时空、地区且覆盖全民的信息交流渠道。另一方面,互联网用户下沉使得网络群体的构成更加多样化,信息的流动和传播更加扁平,话题的发展和衍生更加复杂。这也就意味着较传统的信息传播方式而言,现如今话题传播速度更快,影响更广,形式更复杂。因此,对于话题传播传播态势的研究,能够更好的了解信息传播特性,同时对于预防突发事件和舆情管控都具备重要意义。

近年来,学者们从多个维度对社交网络中话题的传播态势进行了一系列的研究并取得显著效果;随着网络社交平台数据量的不断增长和深度学习技术的成熟,基于神经网络、深度学习模型对话题传播进行预测备受青睐。然而,对于话题传播依然存在很多挑战,比如:1.衍生话题特征空间的关联性、复杂性。衍生话题由原生话题演化而来,与单一话题相比,衍生话题和原生话题之间的特征相互交织,不断进行信息动态交换,这对如何有效的提取话题特征来说是一个挑战;2.用户在原生-衍生话题传播过程中的复杂联系。在话题传播过程中,原生话题与衍生话题相互博弈,如何量化原生话题和衍生话题的用户影响力,挖掘用户之间的隐藏关系是急需解决的问题;3.衍生话题动态演化的阶段性、时效性。衍生话题的演化趋势随时间动态变化的同时受到原生话题的影响,话题状态交替演进,如何动态化分析衍生话题传播态势是目前研究面临的困难。

因此,本发明提出了一种基于话题关联的信息传播预测方法,引入衍生话题,不仅可以有效预测话题的传播态势,还可以更真实的反映原生话题和衍生话题在传播过程中的关联和博弈关系。

发明内容

针对现有技术存在的不足,本发明提出了一种基于话题关联的话题传播预测方法,该方法包括:获取话题信并对话题信息进行预处理;将预处理后的话题信息输入到基于话题关联的话题传播预测模型中,预测用户对话题的传播趋向;根据用户对话题的传播趋向对话题传播趋势进行控制;

基于话题关联的话题传播预测模型对预处理后的话题信息进行处理的过程包括:

S1:提取话题信息的内部属性和外部属性;内部属性包括用户活跃度、用户话题感知率和用户历史转发率,外部属性包括用户好友带动力、话题热度和用户话题内容集合;

S2:从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词,对挑选出的关键词进行向量表示,得到用户历史行为特征向量;

S3:根据所有内部属性以及外部属性中的用户好友带动力、话题热度,采用演化博弈论量化话题对用户的影响力,得到话题影响力邻接矩阵;

S4:根据话题影响力邻接矩阵提取网络结构特征,得到用户的网络结构特征向量;

S5:将用户历史行为特征向量和用户的网络结构特征向量输入到DT-GCN模型中,得到用户话题传播预测结果,包括用户是否参与话题传播以及用户参与话题类型。

优选的,采用DTR2vec算法从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词的过程包括:

S21:用户话题内容集合包括原生话题内容集合、衍生话题内容集合和用户社交内容集合;分别将三种内容集合输入到LDA主题识别模型中,得到原生话题关键词集合key

S22:计算原生话题关键词集合key

S23:根据原生话题关键词集合key

S24:分别根据兴趣权重和认知权重从用户内容关键词集合key

进一步的,计算原生话题内容集合和衍生话题内容集合的相似度采用BM25算法,公式为:

其中,Score(Q,d)表示原生话题内容集合和衍生话题内容集合的相似度得分,Q表示原生话题内容集合,d表示衍生话题内容集合,W

进一步的,计算用户内容关键词集合key

其中,w

优选的,采用演化博弈论量化话题对用户的影响力的过程包括:

S31:根据内部属性计算内部影响力,根据用户好友带动力和话题热度计算外部影响力;

S32:根据内部影响力和外部影响力,采用多元线性回归算法计算原生话题影响力以及衍生话题影响力;

S33:定义两种博弈策略,根据第一博弈策略和原生话题影响力计算第一收益,根据第二博弈策略和衍生话题影响力计算第二收益;

S34:根据第一收益和第二收益计算原生话题中用户的话题传播行为影响力以及衍生话题中用户的话题传播行为影响力;

S35:根据原生话题中用户的话题传播行为影响力和衍生话题中用户的话题传播行为影响力计算话题影响力邻接矩阵。

进一步的,计算内部影响力和外部影响力的公式为:

f

其中,f

进一步的,计算原生话题中用户的话题传播行为影响力和衍生话题中用户的话题传播行为影响力的公式为:

其中,Mut

进一步的,话题影响力邻接矩阵表示为:

其中,

优选的,DT-GCN模型对用户历史行为特征向量和用户的网络结构特征向量的处理过程包括:根据原生话题和衍生话题传播混合网络中节点之间连接信息得到邻接矩阵,将用户历史行为特征向量和用户的网络结构特征向量输入到CNN网络中进行卷积,得到特征矩阵;将特征矩阵和邻接矩阵输入到GCN网络中,GCN网络中加入一个drop层,最后采用softmax函数进行处理,得到用户对话题的传播预测结果。

优选的,DT-GCN模型的表达式为:

其中,Z表示用户输出的类别概率,

本发明的有益效果为:本发明利用原生-衍生话题之间的隐藏关系对用户兴趣和认知过程进行量化,聚焦于关联话题相互促进与抑制的传播过程对用户行为的影响,结合话题特征、用户特征以及强大的神经网络构建基于话题关联的话题传播预测模型;本发明引入关联话题,不仅可以有效预测话题的传播态势,还可以更真实的反映原生话题和衍生话题在传播过程中的关联和博弈关系,使得预测效果更符合实际情况,准确性高。

附图说明

图1为本发明中基于话题关联的话题传播预测方法结构示意图;

图2为本发明中提取用户的网络结构特征向量流程示意图;

图3为本发明中DT-GCN模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出了一种基于话题关联的话题传播预测方法,如图1所示,所述方法包括以下内容:获取话题信并对话题信息进行预处理;将预处理后的话题信息输入到基于话题关联的话题传播预测模型中,预测用户对话题的传播趋向;根据用户对话题的传播趋向对话题传播趋势进行控制;

获取话题信息可从公开的数据网站或是利用已成熟的社交网络公共API进行获取,包括原生-衍生话题在其生命周期内所有参与用户的历史行为信息、话题参与信息和用户基本属性信息,用户的历史行为信息包括用户历史转发和评论等信息,话题参与信息包括原生-衍生话题被转发以及被评论时间等信息,用户基本属性信息包括参与用户的好友关系信息。

对话题信息进行预处理,具体的,对话题信息进行简单的数据清洗,使大部分非结构化数据结构化,使得异常值或空值不再出现,减少对于后续计算带来的不便。

基于话题关联的话题传播预测模型对预处理后的话题信息进行处理的过程包括以下内容:

S1:提取话题信息的内部属性和外部属性;内部属性包括用户活跃度、用户话题感知率和用户历史转发率,外部属性包括用户好友带动力、话题热度和用户话题内容集合。

用户活跃度Act(u

用户活跃度是用户转发行为相对于其他用户的积极程度,一段时间内转发行为次数较高的用户转发积极性越高。本发明定义用户u

其中,Num[orig(u

用户话题感知率Pre(u

用户的话题感知率反映了用户接触新话题的概率,由用户的关注数体现,在一定程度上反映了新的话题出现时用户参与的概率,本发明定义用户话题感知率为:

其中,Fol(u

用户历史转发率Ret(u

用户历史转发率在一定程度上反映了用户对于转发行为的倾向性。用户获取话题的主要来源是好友的信息。因此,本发明定义用户历史转发率为:

其中,retwNum(u

用户好友带动力

在话题网络下,用户通常会受到关注用户的传播行为影响而参与某个话题,用户间的交互频率越高,则用户之间的带动力也就越高,相互转发话题的概率也就越高。用户的不同好友对其带动力也不同,其构造为:

其中,

话题热度Hot(t):

话题热度在社交网络中体现在话题转发、评论、点赞等,话题热度会在短时间内迅速上升,但当其热度达到顶点后又会迅速下降。考虑到这一过程与元素的半衰期相似,故引入半衰期函数

其中,Hot(t)表示当前时刻t的话题热度,RetNum(t)和RetNum(t-1)分别表示截至当前时刻和前一时刻为止话题的转发量,t′表示初始话题产生的时刻,w表示正则化因子。

用户话题内容集合TInfo(t):

话题在传播过程中,由于人的独特性,面对相同的话题每个用户的想法不同、评论不同,因此话题评论可以反映话题属性以及特征,同时随着话题的传播,话题特征也可能会发生变化,本发明把话题内容集合表示为:

TInfo(t)={(u

其中,info(t)表示时间段t内话题传播空间中用户u

S2:采用DTR2vec算法(基于话题关联的衍生话题表示学习算法)从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词,对挑选出的关键词进行向量表示,得到用户历史行为特征向量。

本发明设计的DTR2vec算法首先利用LDA(隐含狄利克雷分布)主题识别模型构建原生-衍生话题关联特征以及用户特征,然后根据用户面对原生-衍生话题的状态转变,对用户认知积累以及兴趣程度进行提取,最后利用表示学习将其低维向量化。

S21:用户话题内容集合包括原生话题内容集合、衍生话题内容集合和用户社交内容集合;分别将三种内容集合输入到LDA主题识别模型中,得到原生话题关键词集合key

利用LDA模型提取原生话题和衍生话题的关联特征,具体的,通过把用户发布以及转发的微博内容视为一个段落,从而形成以文章形式表示的内容,划分内容为原生话题内容集合、衍生话题内容集合和用户社交内容集合;将原生话题内容集合、衍生话题内容集合和用户社交内容集合分别视作一篇文章,采用LDA模型分别对三种内容集合进行处理,其中最优主题个数的选取通过利用不同主题数进行多次聚类实验获得。

通过LDA模型处理,得到原生话题关键词集合key

S22:计算原生话题关键词集合key

衍生话题由原生话题发展变化而来,因此原生话题和衍生话题之间存在必然的关联。本发明利用BM25(最佳匹配)算法得到原生话题内容集合和衍生话题内容集合的相似度得分,将其作为原生-衍生话题的关联程度阈值,计算公式为:

其中,Score(Q,d)表示原生话题内容集合和衍生话题内容集合的相似度得分,Q表示原生话题内容集合,d表示衍生话题内容集合,W

利用余弦计算公式计算原生话题主题关键词集合key

其中,X

将关联度大于相似度的两个关键词放入话题关联特征词集合key

S23:根据原生话题关键词集合key

用户是否转发话题与用户对话题的兴趣和认知紧密相关,考虑到原生话题出现后的一段时间用户会对其积累一定的认知同时对原生-衍生话题共同特征兴趣减弱,本发明利用余弦距离作为权重来挑选关键词,计算兴趣权重和认知权重的公式为:

其中,w

S24:分别根据兴趣权重和认知权重从用户内容关键词集合key

基于Doc2vec算法对挑选出的关键词(用户兴趣特征关键词和用户认知特征关键词)进行向量表示,输出用户历史行为特征向量D,表示为:

D=K×F

其中,K表示衍生话题下的用户数,F

S3:根据所有内部属性以及外部属性中的用户好友带动力、话题热度,采用演化博弈论量化话题对用户的影响力,得到话题影响力邻接矩阵。

原生话题和衍生话题在传播的过程相互博弈,因此在预测用户的传播行为时,应该考虑话题之间相互作用的影响。本发明引入演化博弈论量化原生-衍生话题对用户的影响力,其过程如下:

S31:根据内部属性计算内部影响力,根据用户好友带动力和话题热度计算外部影响力。

如图2所示,内部影响力由内部属性组成,外部影响力由外部属性组成,其计算公式如下:

f

其中,f

S32:根据内部影响力和外部影响力,采用多元线性回归算法计算原生话题影响力以及衍生话题影响力。

综合内部影响因素和外部因素,使用多元线性回归算法,构造原生话题和衍生话题的话题影响力函数:

其中,Inf

S33:定义两种博弈策略,根据第一博弈策略和原生话题影响力计算第一收益,根据第二博弈策略和衍生话题影响力计算第二收益。

依据博弈论的原理,本发明定义了两种博弈策略:策略1:“转发原生话题”、策略2:“转发衍生话题”。用P

Pro

Pro

其中,Pro

S34:根据第一收益和第二收益计算原生话题中用户的话题传播行为影响力以及衍生话题中用户的话题传播行为影响力。

其中,Mut

S35:根据原生话题中用户的话题传播行为影响力和衍生话题中用户的话题传播行为影响力计算话题影响力矩阵。

考虑到原生、衍生话题的竞争性,得到最后的原生-衍生话题影响力邻接矩阵

其中,

S4:根据话题影响力邻接矩阵提取网络结构特征,得到用户的网络结构特征向量。

考虑到社交网络结构的复杂性,本发明使用SDNE(图网络嵌入算法)方法进行网络表示学习,直接使用原生-衍生话题影响力邻接矩阵

S=K×F

其中,K为网络节点个数,即衍生话题下的用户数,F

S5:将用户历史行为特征向量和用户的网络结构特征向量输入到DT-GCN模型中,得到用户话题传播预测结果,包括用户是否参与话题传播以及用户参与话题类型。

本发明的预测任务目标是预测潜在用户节点是否会参与关联话题的转发,判断用户转发或者不转发,若转发,转发原生话题还是衍生话题,进而可以将其转化为一个三分类任务;考虑到直接拼接两类特征会导致模型输入过长,如图3所示,本发明设计DT-GCN(基于关联话题的图卷积神经网络)模型,其在GCN(图卷积神经网络)模型前加入CNN(卷积神经网络)层;DT-GCN模型对用户历史行为特征向量和用户的网络结构特征向量的处理过程包括:根据话题信息构建原生话题和衍生话题传播混合网络,根据原生话题和衍生话题传播混合网络中节点之间连接信息得到邻接矩阵将用户历史行为特征向量和用户的网络结构特征向量输入到CNN网络中进行卷积,得到特征矩阵;将特征矩阵和邻接矩阵输入到GCN网络中,GCN网络中加入一个drop层,最后采用softmax函数进行处理,softmax函数将图卷积输出转换成不同节点不同分类的概率值,得到用户对话题的传播预测结果。

GCN网络中,预处理邻接矩阵

其中,A表示原邻接矩阵,根据原生话题和衍生话题传播混合网络中节点之间连接信息得到,D表示邻接矩阵的度矩阵。

DT-GCN模型的表达式为:

其中,Z表示用户输出的类别概率;ReLU(x)=max(0,x)表示激活函数;

本发明讨论的是一个三分类预测问题,所以令模型输出Z=P(o,α,d|u

其中,P(o|u

本发明设计的基于话题关联的话题传播预测方法首先从原生—衍生话题在不同演变阶段各个特征之间的关联关系出发,提出DTR2vec算法,对用户的认知积累以及兴趣程度进行表示学习,从而使话题特征空间低矢量化。然后考虑原生-衍生话题在传播过程中的对抗性与共生性,引入演化博弈理论,形成用户间原生-衍生话题影响力的网络结构特征表示;最后分析原生-衍生话题在传播过程中的关联和博弈关系,并综合上述信息预测分析话题传播态势。

本发明通过预测用户对话题的传播趋向,从而预测话题的传播态势,可应用于用户个性化推荐和市场营销,有助于挖掘用户转发偏好,精准的投放广告和制定宣传计划。同时,可以提前了解监控热点话题的转发和传播趋势,针对不良信息,可以帮助舆情部门快速采取针对性措施,净化网络环境,对于弘扬正能量的话题可以因势利导,在社会中树立正确的价值导向。

以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115631426