掌桥专利:专业的专利平台
掌桥专利
首页

一种基于高斯传播模型的社交网络影响力最大化方法

文献发布时间:2023-06-19 11:02:01


一种基于高斯传播模型的社交网络影响力最大化方法

技术领域

本发明涉及社交网络领域,特别是涉及一种基于高斯传播模型的社交网络影响力最大化方法。

背景技术

近些年来社交网络已经成为现代社会不可或缺的一部分。人们在社交网络和交流合作从而产生了大量的数据。这些数据促进了学者们对影响力最大化问题开展了一系列研究。影响力最大化问题是社交网络中一个基础且关键的问题。在诸如新闻传播、疾病爆发、市场营销和谣言管控等实际应用上都需要解决影响力最大化问题。例如对于市场营销而言,能够利用影响力最大化算法分析目标社群从而让推销产品的信息能够尽可能扩散更大的范围。对于谣言管控而言,也能够用影响力最大化算法分析出那些人员是网络中谣言影响力最大的个体,从而能够对其实施有效的管控。

最初的影响力最大化算法是基于贪心框架的。但是贪心算法由于需要花费大量时间在蒙特卡洛模拟上使得该类算法无法在大型网络上实施。鉴于贪心算法的缺陷众多学者提出了启发式算法。一些文献重新建模了用户之前的信息传播模式,利用了诸如传染病传播的一些数学模型。为了解决传统传播模型无法解决的问题一些文献提出新的传播模型。为了解决贪心算法的低效率,一些文献提出了有跳数限制的算法。这些算法解决了一些传统算法无法解决的细分领域下的问题,但是还是受限于传统算法的扩展性问题。

发明内容

本发明的目的是提供一种基于高斯传播模型的社交网络影响力最大化方法,以解决上述现有技术存在的问题,突破传统影响力最大化算法的限制。

为实现上述目的,本发明提供了如下方案:

本发明提供一种基于高斯传播模型的社交网络影响力最大化方法,包括以下步骤:

S1,在社交网络中构建三个维度,包括Motif维度、Degree维度和Offset维度;

S2,构建平衡参数,基于所述Mofit维度计算侧向扩散参数、基于所述Degree维度计算竖向扩散参数,基于所述Offset维度、所述Degree维度和所述平衡参数计算节点影响动态源强度;

S3,基于所述侧向扩散参数、所述竖向扩散参数和所述节点影响动态源强度构建高斯传播模型;

S4,基于所述高斯传播模型建立目标函数,基于所述目标函数计算能获得最优结果,构建改进的CELF算法,根据所述目标函数和所述改进的CELF算法计算影响力。

进一步地,所述Motif维度用于表示节点在Motif维度的度量,所述Degree维度用于表示节点度,所述Offset维度用于表示节点间的偏移量。

进一步地,所述S2中的平衡参数,用于平衡节点间的距离对于源强度的影响。

进一步地,所述侧向扩散参数还基于平均聚集系数获得,所述竖向扩散参数还基于网络直径获得。

进一步地,所述平均聚集系数用于表示网络的稠密程度,所述网络直径用于表示网络规模。

进一步地,高斯传播模型的计算公式如下

其中(o,m,d)是某节点的在社交网络空间的坐标值,

进一步地,所述S4中目标函数能获得最优结果的条件为:证明所述目标函数具有:是NP难问题、非负性、单调性和子模性。

进一步地,所述改进的CELF算法基于目标函数的子模性进行改进,所述改进的CELF算法用于加快计算速度。

本发明公开了以下技术效果:

(1)本发明基于空气污染物传播的模型提出了社交网络下的高斯传播模型。高斯传播模型定义了社交网络下的多维信息传播空间和影响力浓度。在高斯传播模型下根据每个节点在多维传播空间的位置坐标能够计算影响力范围和影响力浓度。高斯传播模型定义传播空间下的一系列参数。由于本发明中的高斯传播模型不需要进行蒙特卡洛模拟,故能够提高贪心算法的效率;

(2)基于高斯传播模型提出了影响力最大化算法并且利用了改进的CELF算法用于加速算法;

(3)利用大量的实验证明了本发明的方法比传统方法的效率和效益大大提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图;

图2为社交网络中节点的位置示意图;

图3为实施例中dblp数据集uniform配置下影响力传播效果图;

图4为实施例中dblp数据集reciprocal配置下影响力传播效果图;

图5为实施例中dblp数据集random配置下影响力传播效果图。

具体实施方式

现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明,否则本申请使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本申请所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。

在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本申请中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。

本发明中所述的“份”如无特别说明,均按质量份计。

本申请提出了社交网络下的高斯传播模型,并且提出了该模型下的影响力最大化算法。相较于传统的IC和LT模型,高斯传播模型不需要进行蒙特卡洛模拟计算节点的影响力。高斯传播模型下信息传播类似于空气中污染物的传播。通过对社交网络下信息传播环境的建模每个节点在高斯传播模型下的影响力都能够计算出来。基于高斯传播模型的影响力最大化算法具有很高的算法效果。最终本申请通过理论证明了算法的精确度,并且利用实验进一步证明了算法的效率和效益。

所述高斯传播模型是一种对大气污染传播过程进行模拟计算的模型,它能够很好地计算出大气污染物在空气中传播时空间中每个位置的污染物浓度。在影响力最大化问题中,本申请将每个节点的影响力建模成基于高斯传播模型的污染物浓度,然后经过相应的媒介进行传播进而污染到其他节点,也即影响到其他节点。

在原始的高斯传播模型中计算大气空间中某处的污染物浓度需要确定污染源的三维空间和所需要计算的污染物浓度位置三维坐标。而对于社交网络而言,无法从传统笛卡尔坐标系构建社交网络节点坐标,本申请根据社交网络结构的位置、Motif性质和节点度等维度去构建社交网络下的多维空间。

在高斯社交网络传播模型下,每个节点根据影响力传播维度具有一个固定坐标为(Offset,Motif,fegree),其中Offset代表节点相对于其他节点的偏移量也就是节点之间的最短路径,Motif代表节点在Motif维度的度量,Degree代表节点度。

如图2所示,社交网络中的每个节点位置Offset维坐标根据两个节点的最短距离决定。如图2所示要计算A节点对于B节点的偏移量,那么对于A节点有offset

社交网络Motif维坐标根据节点在社交网络中传播能力决定。本申请采用一个节点在不同三节点Motif中出现的次数决定节点在Motif维的坐标值。

Motif最开始在被Milo R等人提出,Motif是一种复杂网络中频繁出现的节点结构模式。Benson A R等人进一步提出了Motif进一步的性质和相应的Motif的发现算法。

Motif代表了复杂网络中的关键组成结构,是普遍存在于复杂网络中的节点模式。本申请利用一个节点在不同三节点Motif出现的次数代表该节点在社交网络下Y维的坐标。公式如下:

Motif维坐标的值表示如果一个节点在不同三节点Motif出现的次数越多那么该节点的影响力往往越高。

社交网络Degree维坐标类似于社交网络Motif维坐标,Degree维坐标根据节点的度进行计算,公式如下:

Degree维坐标的值表示如果一个节点度数越高那么该节点的影响力往往越高。

所述节点的影响动态源强度:

大气的污染源强度代表了污染源的传播能力,但在社交网络中一个节点的源强度往往都不是一成不变的,都会根据当前节点所需要影响的节点的信息和相关的节点之间的距离进行改变。所以在高斯传播模型中每个传播信息的节点的影响源强度都会是动态源强度。节点的影响动态源强度计算公式如下:

q=Deg(i)*Deg(j)*dis(i,j)

Deg(i)代表某个节点的度,如果是有向图则代表节点的出度。dis(i,j)代表两个节点之间的距离,θ是节点间距离的平衡参数,用于平衡节点之间的距离对于源强度的影响,而i和j分别代表当前正在传播信息的节点和被传播的节点。

所述影响力扩散参数:

扩散参数包含了侧向的扩散参数σ

上述两个公式其中的a

在社交网络下影响力扩散参数取决于多种因素。其中网络的平均聚集系数代表了图中点的聚集程度能够表示网络的稠密程度。网络的聚集系数能够左右影响力的传播效果。网络的直径表示网络的规模。网络的直径同样也能左右影响力的传播效果。网络的平均聚集系数和直径是网络环境的参数,分别是影响力传播空间的Y轴维度和Z轴维度。故社交网络高斯传播模型下的a

C=a

D=a

其中C和D分别是网络的平均聚集系数和网络直径。

在高斯传播模型中通过污染源的信息和当时大气状况能够计算出当前风向下污染源周围污染物的浓度。在社交网络中承担传播信息任务的节点也需要将自己的信息传播给周围的节点。节点所传播的信息经过层层的传递影响力也会越来越弱,类似于从污染源传出的污染物也会随着扩散过程浓度会越来越低。当这个浓度也就是影响力低于某一个阈值时就无法影响当前位置的节点,这个阈值为当前位置节点的接受能力也就是受污染的阈值。高斯传播模型的计算公式如下:

其中(o,m,d)是某节点的在社交网络空间的坐标值,σ

社交网络高斯传播模型影响力最大化算法:

提出社交网络高斯传播模型之后需要对新模型下目标函数的np难性质、非负性、单调性和子模性进行证明。对于具有上述性质的高斯传播模型的目标函数利用贪心算法进行求解能够获得相当于(1-1/e-ε)倍的最优结果。

影响力最大化的问题定义如下:

根据高斯传播模型的定义,其在影响力最大化问题下的目标函数为:

其中的isPolluted函数表示当前i节点是否被当前社交网络中所传播的影响力所影响,函数定义如下:

其中怕pt(i)代表i节点的受影响阈值,在高斯传播模型下,当某个节点i所处位置的影响力浓度已经超过了节点i的受影响阈值,那么该节点便会处于被影响状态也就是被成功激活了。

证明1.在高斯传播模型下影响力最大化问题是NP难问题

为了证明在高斯传播模型下的影响力最大化问题是NP难问题,能够利用集合覆盖问题作为该影响力最大化问题的一个特例进行证明。

集合覆盖问题的定义是:给定一个背景集合U={u

为了证明该问题,任意构建一个包含n+m个节点的二分图,n个节点中的每一个节点都代表背景集合U中的元素,m个节点中的每一个节点都代表一个子集合S

证明2.在高斯传播模型下目标函数f(S)≥0

由高斯传播模型下目标函数以及isPolluted函数的定义,目标函数f(S)≥0。证明2得证。

证明3.在高斯传播模型下目标函数f(S)满足f(S+v)≥f(S)

由网络中任意节点所处位置的影响力浓度函数c

证明4.在高斯传播模型下目标函数f(S)满足

由函数f(S)定义可得

f(S+v)-f(S)=f(v)-(f(S)∩f(v)),

f(T+v)-f(T)=f(v)-(f(T)∩f(v)),

由证明3以及

f(v)-(f(S)∩f(v))≥f(v)-(f(T)∩f(v))

进一步能够得到f(S+v)-f(S)≥f(T+v)-f(T),证明4得证。

由上述四条证明,可知高斯传播模型下的目标函数满足是NP难问题,非负性,单调性和子模性的性质,用贪心算法求解高斯传播模型下的影响力最大化能够得到大约63%的最优结果。

具有成本效益的惰性前向选择CELF算法的改进:

传统的CELF算法在每次比较上一次的候选节点序列时,如果不满足上一次影响力增益排名第二的节点在新一轮的影响力增益大于上一次影响力排名第三的节点在上一轮的影响力增益就需要对候选节点序列中的节点的在新一轮的影响力增益全部进行重新计算,然后重新进行排序。

实际上在不满足上一次影响力增益排名第二的节点在新一轮的影响力增益大于上一次影响力排名第三的节点在上一轮的影响力增益时能够继续利用目标函数的子模性继续向下比较,找到某一个点在上一轮的影响力增益是小于当前新计算的节点在新一轮的影响力增益,根据子模性能够得到,这时候选节点队列分为了两部分,前一部分是在新一轮影响力增益比当前计算的节点新一轮增益更大的节点们,另一部分是上一轮增益比当前计算的节点新一轮影响力增益小的节点们,这时算法只要把前一部分的节点们在新一轮的影响力增益算出来进行排序然后选出增益最大的节点放入种子集合即可,根据子模性,后一部分的节点们在新一轮的影响力增益是必定必前一部分节点的增益小的,所以只需计算前一部分的节点在新一轮影响力增益即可。所述的改进的CELF算法为算法1。

算法2为计算节点集合在高斯传播模型下的影响力,算法3为高斯传播模型影响力最大化算法。

所述算法2根据种子节点集合计算网络中剩余节点受到的影响力浓度,再根据未激活节点的被影响阈值判断该节点是否能被影响。

算法3根据算法1和算法2选择种子节点。算法3的总体框架与算法2一致,算法2中计算节点影响力的f函数被替换成了算法2中利用高斯传播模型计算影响力的函数。

数据集:

本申请用的是dblp数据集中包含了954个节点的一部分。数据集参数如表1:

表1

实验参数设置:

在进行节点选择的时候每个节点的受影响阈值都统一设置为固定值。经过多次实验结果表明平均风速

对比方法:

本申请选择了如下四种传统方法跟在高斯传播模型下选择的种子节点进行激活效果的对比,四种方法如下:

1.HBIC,这是一种基于传统IC模型的贪心算法,改进了节点集合影响力计算的效率,并且在效果上与传统的基于蒙特卡洛模拟的贪心算法一致;

2.Pagerank,这是一种传统对于节点影响力进行排序的算法,广泛应用于各类网页排名或者商品排名中;

3.OutDegree,最基础的度算法,往往用于基准的影响力最大化算法;

4.Random,随机从网络中选出若干节点作为种子节点。

为了统一比较不同算法选出的种子节点在同一数据集上的影响力扩散效果,首先每个算法都会选出10组种子节点集合,大小分别从5开始然后每隔5个进行递增一直到50结束。每个算法选出的这十组种子节点集合会都在同一数据集下在IC模型下并且有三种不同的边权重的设置下进行一次10000次的蒙特卡洛模拟,然后分别得出相应的影响力扩散效果。验证效果的IC模型三种不同的边权重设置方法分别是:

1.uniform,每条边的权重设置为0.1;

2.reciprocal,每条边的权重设置为节点入度分之一;

3.random,每条边的权重从[0.1,0.01,0.001]这三个数中随机选择一个。

实验结果:

如图3、图4、图5所示在dblp(DataBase systems and Logic Programming)数据集下,uniform配置下,GDM,HBIC,Degree和pagerank差距不是很大,其中HBIC效果最好,GDM其次,pagerank和Degree最差;在reciprocal配置下,GDM,HBIC和pagerank在节点个数是50时效果最接近,Degree是前四个中最差的,但是能够看到的是在节点个数10个之后,GDM,HBIC和pagerank的差距开始体现,GDM的效果一直比HBIC和pagerank好,尽管最后的时候差距被稍微拉近,但是GDM的效果依旧还是最好的。在random配置下,前四个算法的效果差距不大,HBIC效果略好一点,剩下三个算法几乎一致。

在本申请中社交网络中影响力传播过程被重新建模并且从偏移量、Motif和节点度三个维度构建了高斯传播模型。在社交网络影响力传播环境下本申请定义了影响力浓度和影响力传播环境参数。对于高斯传播模型下影响力最大化问题下的目标函数证明了该函数具有是NP难问题,非负性,单调性和子模性等性质。基于这些性质本申请提出了高斯传播模型下的影响力最大化贪心算法。为了进一步加速贪心算法的效率,本来提出了CELF算法的改进用于加速算法。实验结果表示,基于高斯传播模型选出的种子节点效果基本与传统算法保持一致并且偶有超过,在时间效率上,基于高斯传播模型的影响力最大化算法消耗的时间也比传统的基于ic模型的贪心算法少得多,这证明基于高斯传播模型的贪心算法是一个扩展很高的算法能够用于大型社交网络上。

以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

相关技术
  • 一种基于高斯传播模型的社交网络影响力最大化方法
  • 一种基于情感分析的社交网络影响力传播模型构建方法
技术分类

06120112774052