掌桥专利:专业的专利平台
掌桥专利
首页

基于聚类快速推演和子模最大化的信息传播网络推演方法

文献发布时间:2023-06-19 19:30:30


基于聚类快速推演和子模最大化的信息传播网络推演方法

技术领域

本发明属于信息传播网络的结构推演技术领域,尤其涉及基于聚类快速推演和子模最大化的信息传播网络推演方法。

背景技术

信息传播网络推演是指根据信息在微博、微信等主流社交网路上传播结束后所观测到的有关数据,一般是比较容易观测到的某个用户传播(转发或发送)某则信息的时间,推演出信息传播所依赖的潜在网络结构。在复杂网络中,用户可被抽象为网络中的节点,用户之间谁将信息传播给了谁的传播关系可被抽象为网络中的节点之间的有向连边,因此将现实世界中人群的社交关系抽象为网络中将可以更加方便、高效地研究他们之间传播关系的推演。

现有的传播网络推演方法大体分为两类:仅推演用户之间传播关系的方法和推演用户之间传播关系和传播关系强度的方法。仅推演用户之间传播关系的方法的主要思想是假定用户之间传播信息的倾向或意愿都是相同的,然后建立观测到的传播数据的似然函数,最后最大化该似然函数推演出最有可能在其上面观测到该级联数据的传播网络结构。推演用户之间传播关系和传播关系强度的方法的宗旨是以用户之间传播关系的强度为自变量,建立观测到的传播数据的似然函数,然后最大化该似然函数。这两类方法的共同点是:若在多条观测的传播数据中,若用户A总是在用户B感染后感染(或用户B发送信息后用户A再进行评论或转发),那么很有可能存在这样一条从用户A指向用户B的有向传播关系。早在2010年到2013年期间,Gomez-Rodriguez和Myers等人提出了几种系统的传播网络推演方法。假设信息或疾病的传播轨迹像一棵树,NetInf算法在只考虑每个级联最有可能的传播生成树(即最有可能的传播情形)的条件下,结合观测级联的对数似然具有的子模性,利用贪心算法迭代推演出了传播边。而MulTree算法则考虑了每个级联所有可能的传播生成树(即所有可能的传播情形)。假设节点之间的关系强度是不同的,ConNIe算法和NetRate算法分别以节点之间的条件传播概率和传播速率为自变量,建立了观测的传播级联数据的似然函数(NetRate算法是依据生存分析理论来建立的)。由于观测级联的似然函数的对数是凸函数,均利用了凸优化的方法分别推演出节点之间的传播概率和传播速率。近几年,学者们陆续提出了一些改进的方法。为了更加准确刻画用户之间信息传播的异质性,2018年Zhao等人考虑到信息在传播的过程中流行度的变化,提出了将传播过程划分成不同生命阶段,然后将不同生命阶段的信息流行度与用户之间的关系强度的乘积作为用户之间的表观影响强度,以此提高现有算法的推演准确性。尽管对于描述网络的结构和功能来说,模体这一简单的网络构造模块非常重要,但是现有方法却没有将其利用起来的,因此2020年Tan等人从节点的观测数据中将复杂网络基础组件——模体挖掘出来,并作为结构先验加入到现有推演算法中,以此提高了现有算法的推演性能。然而,上述的传播网络推演方法仍存在一些问题:当网络规模稍大,或观测的级联数据的平均长度较长(即某一次观测到传播某条信息的人数较多)时,所有可能的潜在边数将至少是真实边数的10倍。由于是从所有可能的潜在边中去推演少量传播边,现有方法的推演效率较低,也即方法运行时间慢得难以接受。当可观测到用户转发或感染的时间时,我们也可容易得知用户是感染的状态,现有方法大都只考虑节点的时间因素,较少研究同时考虑节点的时间因素和节点的状态因素;且现有方法较少同时考虑节点的传播时间信息和状态信息去预处理初始的所有可能的潜在边来提高算法的推演效率和准确性。

发明内容

本发明的目的在于提出基于聚类快速推演和子模最大化的信息传播网络推演方法,通过融合节点的接收时间信息和接收状态信息来预处理观测的级联数据,令算法在推演规模稍大的网络结构时可以更加快速和更加准确。

为实现上述目的,本发明提供了基于聚类快速推演和子模最大化的信息传播网络推演方法,包括以下步骤:

根据收集到的传播时间数据和需要推演的用户之间的传播关系数构建数据模型,基于所述数据模型进行抽象,获得网络传播动力学领域中的信息级联集合、待推演的信息传播网络中的节点、待推演的信息传播网络中的传播边数、节点的接收时间和节点的接收状态;

根据所述节点的接收时间大小,在所述信息级联集合中构造出所有的潜在边,构造一个融合所述节点的接收时间和接收状态的聚类指标,计算每条潜在边的聚类指标值;

利用2-means聚类算法对每条所述潜在边的聚类指标值进行聚类,获取聚类结果,根据所述聚类结果获取一个对每条所述潜在边的聚类指标值进行筛选的阈值;

将每条所述潜在边的聚类指标值与所述阈值进行比较,推演出有效潜在边,根据所述有效潜在边获取节点的簇结构;

根据所述信息级联集合和信息传播按照树状构建观测级联的似然函数;将所述节点的簇结构融合到所述观测级联的似然函数中,利用贪心算法迭代推演出若干条传播边,完成传播网络推演。

可选的,根据收集到的传播时间数据和需要推演的用户之间的传播关系数构建数据模型具体包括:

将各用户和各用户传播信息的时间组成的一个序列抽象为一个信息级联,则多条传播数据组成的集合转化为信息级联集合;

每个级联c

用户之间谁传播信息给谁的传播关系抽象为待推演的信息传播网络中的传播边;

每个级联c

可选的,根据所述节点的接收时间大小,在所述信息级联集合中构造出所有的潜在边,具体包括:

根据节点的接收时间大小,基于所述信息级联集合构造出所有潜在边;

在每个观测到的信息级联中,若任意节点v

可选的,构造一个融合所述节点的接收时间和接收状态的聚类指标,具体包括:

分别利用所述节点的接收时间和接收状态计算出潜在边上最终的传播似然和潜在边的两个节点接收状态之间的正相关性;

利用乘法原则,融合所述节点的接收时间和接收状态的隐含信息,构造出所述聚类指标。

可选的,根据所述聚类结果获取一个对每条所述潜在边的聚类指标值进行筛选的阈值,具体包括:

对所有潜在边的聚类指标值进行2-means聚类后,所述潜在边按照指标值分为2类,包括聚类指标值大的一类和聚类指标值小的一类,其中聚类指标值大的一类的最小值大于聚类指标值小的一类的最大值;

对所述聚类指标值小的一类的所述聚类指标值进行计算,获取平均值,所述平均值为阈值。

可选的,根据所述信息级联集合和信息传播按照树状构建观测级联的似然函数具体包括:

基于信息级联集合和信息传播按照树状构建在某一潜在网络上观测级联数据的概率分布。

可选的,所述观测级联的似然函数表示为:

其中,c

可选的,将所述节点的簇结构融合到所述观测级联的似然函数的方法为:

其中,

本发明技术效果:本发明公开了基于聚类快速推演和子模最大化的信息传播网络推演方法,提出了一种有效的聚类指标,该指标融合了节点之间两次归一化的传播可能性(节点的接收时间信息)和节点接收状态之间的正相关性(节点的接收状态信息),可以较好的将初始潜在边中大量的无效潜在边和有效边区分开;提出了一种高效的预处理方法,该方法主要基于一个有效的聚类指标进行聚类,然后取所述潜在边中的聚类指标值小的一类的平均值作为阈值,并通过该阈值将大量无效的潜在边剪枝掉(至少能剪枝掉50%左右的无效潜在边,至多能剪枝掉90%左右的无效潜在边),可以准确捕获节点比较可能的或有效的潜在父节点;本发明所提的预处理方法可以作为一个构件融合到大多数依赖于节点接收时间信息的方法的前面,以此提高后续算法的推演效率;将本发明的预处理方法融合到一个现有一个算法发现:融合后该算法运行时间至少减少了30%左右的时间,至多减少了85%左右的时间,且推演准确性在大部分数据集上优于原始算法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例基于聚类快速推演和子模最大化的信息传播网络推演方法的流程示意图;

图2为本发明实施例提供的相同潜在边在不同级联中所起不同作用的图解;

图3为本发明实施例提供的一个级联的多棵传播生成树的图解;

图4为本发明实施例提供的一种基于聚类快速推演和子模最大化的信息传播网络推演方法的完整图解。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

如图1-4所示,本实施例中提供基于聚类快速推演和子模最大化的信息传播网络推演方法,包括以下步骤:

根据收集到的传播时间数据和需要推演的用户之间的传播关系数构建数据模型,基于所述数据模型进行抽象,获得网络传播动力学领域中的信息级联集合、待推演的信息传播网络中的节点、待推演的信息传播网络中的传播边数、节点的接收时间和节点的接收状态;

根据所述节点的接收时间大小,在所述信息级联集合中构造出所有的潜在边,构造一个融合所述节点的接收时间和接收状态的聚类指标,计算每条潜在边的聚类指标值;

利用2-means聚类算法对每条所述潜在边的聚类指标值进行聚类,获取聚类结果,根据所述聚类结果获取一个对每条所述潜在边的聚类指标值进行筛选的阈值;

将每条所述潜在边的聚类指标值与所述阈值进行比较,推演出有效潜在边,根据所述有效潜在边获取节点的簇结构;

根据所述信息级联集合和信息传播按照树状构建观测级联的似然函数;将所述节点的簇结构融合到所述观测级联的似然函数中,利用贪心算法迭代推演出若干条传播边,完成传播网络推演。

如图1所示,本发明提供了一种基于聚类快速推演和子模最大化的信息传播网络推演方法,下面将以微博社交网络上的微博传播网络结构的推演为例来说明该方法的现实运用,包括:

S1,输入观测到的传播数据C和所需推演的用户之间的传播关系数K:输入在微博社交网络上多条微博传播结束后所观测到的微博用户及其发布或评论微博的时间数据C={c

S2,根据观测到的传播数据构建数据模型:将一条微博经过各微博用户所留下的“足迹”即各用户及其发布或评论微博的时间所组成的一个序列

S3,构建初始的潜在边集E-initial:根据微博用户的接收时间大小,从级联集合C中构造出所有可能的潜在边集,即在每个观测到的级联

S4,构造一个融合了节点的接收时间和接收状态的聚类指标Cluster-Metric(v

S5,计算每条潜在边的聚类指标值Cluster-Metric(v

S6,利用2-means聚类算法对所有初始潜在边的聚类指标值Cluster-Metric(v

S7,从聚类结果中获取合适的阈值τ:对所有初始潜在边的聚类指标值Cluster-Metric(v

S8,获取节点的簇结构CS:首先将聚类指标值Cluster-Metric(v

S9,建立观测级联的似然函数:从级联或微博传播按照树状建模在某一潜在网络上最有可能观测到该级联数据的概率分布;

S10,将节点的簇结构CS融合到观测级联的似然函数中,具体来说是将每个用户的簇结构融合到末端节点为该用户的潜在边的传播似然函数中;

S11,利用贪心算法迭代推演出K条传播边:根据想要最大化的级联的对数似然具有子模性质,利用贪心算法迭代推演出所需推演的K条边,具体来说是迭代次数设置为K,即最终推演出了传播数据C中所有发布或评论过微博的用户之间的谁传播微博给了谁的传播关系。

进一步,所述S3中,初始的潜在边集E-initial包含的潜在边有:

其中,

进一步,所述S4中,构造聚类指标Cluster-Metric(v

S41:分别利用用户的接收时间和用户的接收状态计算出潜在边(v

其中,

IMI(X

其中,X

S42:利用乘法原则融合用户的接收时间和接收状态所隐含的信息,则构造出的聚类指标的计算公式如公式(4)所示:

Cluster-Metric(v

其中,fn(v

进一步,所述S8中,所述的每个用户v

CS

其中,E-Einitial表示初始的潜在边集,τ为所述S7中获取的阈值,具体为聚类后所有潜在边的聚类指标值Cluster-Metric(v

进一步,所述S9中,观测级联的似然函数的建立包含以下步骤:

S91:从微博传播像一棵树的角度出发,对于每一个观测到的级联c

其中,

为了方便建模,假设树中每条边上的传播概率是已知的且是相等的,级联c

其中,

根据有向带权图的基尔霍夫矩阵树定理,公式(7)可重新形式化为:

其中,

S92:由于每组传播数据的观测都是相互独立的,因此观测的级联数据C的似然函数可表示为所有级联的联合似然f(c

其中,

因此,网络推演的目标函数可设计成:

其中,

进一步,所述S10中,具体将每个用户v

其中,

图2所示的是本发明的构造聚类指标步骤中的第一个归一化所要解决的问题(即忽略了传播过程中其他节点影响的问题)的图解。根据节点的接收时间,从这三个级联中,我们可以初步推导得出(v

图3展示了本发明具体实施方式中一个级联的多棵传播生成树的图解。假定在子图(a)中这样一个给定的网络G

图4展示了本发明实施例提供的一种基于聚类快速推演和子模最大化的信息传播网络推演方法的完整图解。具体来说,本发明的执行过程可以分为四个模块:(a)输入在一个潜在的网络上多条信息传播结束后所观测到的级联数据与所需推演的网络边数K,每个级联由传播信息的节点和其传播信息的时间所组成(这步包含了数据模型的构建,即多条传播数据组成的集合抽象为多个信息级联构成的集合,每个级联中的传播信息的用户抽象为待推演的信息传播网络中的节点,每个级联中的用户传播信息的时间抽象为节点的接收时间,用户之间的传播关系抽象为待推演的信息传播网络中的传播边,则所需推演的用户之间的传播关系数抽象为待推演的传播边数),(b)聚类快速推演,这是本发明专利提供的一种有效的预处理方法。如图中所示,首先根据输入的级联数据,具体来说是节点的接收时间,构造出所有可能的初始潜在边,然后基于一个精心设计的融合了节点的接收时间和接收状态的聚类指标值对所有初始潜在边进行聚类,为此推演得到有效的或很有可能的潜在边,这些有效潜在边具体是通过一个阈值——聚类后值小一类的平均值筛选得到的,最后根据推演得到的有效潜在边,捕获每个节点的簇结构。该模块可通过对初始的大量潜在边进行预处理,在移除掉大量无效潜在边的同时尽可能有效地得到每个节点很有可能的潜在父节点集合,可为后续算法节省大量时间,(c)子模最大化推演,该模块通过将(b)模块得到的节点簇结构融合到一个子模函数中,以此实现在不影响网络推演准确性的前提下提高网络推演的效率。首先基于矩阵树定理求解(a)模块中输入的级联数据的似然函数,并转换为与网络推演问题等价的目标函数,然后将(b)模块得到的节点簇结构融合到这个具有子模性质的目标函数中,最后利用贪心算法逐步迭代推演出最终的传播边,(d)输出推演得到的一个包含K条边的网络,其中图中黑色实线边(i)表示推演正确的传播边,黑色虚线边(ii)表示未被推演出来的传播边,黑色点线边(iii)表示推演错误的传播边;表1展示了测试数据集的规模;

表1

表1所示的是测试用的观测级联数据所在的网络数据集,每个网络数据集上在表2中三种不同的传输时间模型下观测的级联个数均为200。其中前三个网络(G1,G2和G3)是著名的社交网络模型——Kronecker图模型生成的,后两个网络(G4,G5)是真实的网络,其中G4为博客网络,G5为朋友关系网络。

表2展示了测试的级联数据中节点接收时间的三种常见分布;

表2

表2所示的是传播过程中,任意两个节点之间的正的接收时间差所采样的分布或满足的分布,经典常见的三种分布如表2所示:指数分布、幂律分布和瑞利分布。其中前两个适用于信息传播的环境,后一个适用于疾病传播的环境。

表3多种方法在表1中三个人工数据集(G1,G2和G3)与两个真实数据集(G4,G5)上的推演准确性对比。

表3

表3展示了多种对比方法和本发明所提的方法在表1中五个包含了人工网络和真实网络的数据集上(与表2中三种传输时间分布分别组合的情形下)的网络推演准确性结果对比。主要通过F-Score(查准率和查全率的调和平均值)来对推演结果进行评估。每行中加粗的项表示该方法在对应行的数据集上效果最好。由此看出,本发明提出的方法在网络的推演准确性方面大部分情形下是优于其他方法的。

表4多种方法在表1中三个人工数据集(G1,G2和G3)与两个真实数据集(G4,G5)上的运行时间(单位:分钟m+秒s)对比。

表4

表4展示了多种对比方法和本发明所提的方法在表1中五个包含了人工网络和真实网络的数据集上(与表2中三种传输时间分布分别组合的情形下)的网络推演算法运行时间的对比(运行时间单位包括分钟和秒)。每行中加粗的项表示该方法在对应行的数据集上运行时间最少,也即跑的最快,右上角有*符号的项表示该方法在对应行的数据集上运行时间是第二少的,也即第二快的。由此看出,本发明提出的方法在网络的推演效率方面大部分情形下是仅次于Dani方法但优于剩余方法的。尽管如此,从表3可看出Dani方法在大部分情形下的推演准确性却不是最优的,而本发明提出的方法却是最优的。

综上所述,本发明涉及的是一种基于聚类快速推演和子模最大化的信息传播网络推演方法,能够通过聚类快速推演模块一种有效的预处理方法,在不影响子模最大化模块的子模性质的前提下提高该推演模块的执行效率。在观测级联数据较少时也能达到较高的准确率和较短的运行时长。此外,本发明利用了一开始就在医学领域广泛被用到的独立级联模型来研究信息的传播,因此传染病等领域的研究也可参考和借鉴本发明所提的方法。

以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

技术分类

06120115935770