掌桥专利:专业的专利平台
掌桥专利
首页

一种节点与社区相结合的多级传播分析方法、分析系统

文献发布时间:2023-06-19 19:30:30


一种节点与社区相结合的多级传播分析方法、分析系统

技术领域

本发明属于网络数据多级传播分析技术领域,尤其涉及一种节点与社区相结合的多级传播分析方法、分析系统。

背景技术

多级传播即为n级传播,一般包括信息和影响的传播,指信息和影响经由大大小小的中介,抵达一般受众。当前的多级传播分析工具,一般是嵌入在舆情分析系统中,作为一个辅助性质的分析模块存在,而不是一个独立的舆情分析产品。

现有的多级传播分析工具主要集中于在复杂社交网络中根据节点性质(如度中心性、介数中心性、接近中心性)或基于随机游走的指标(如PageRank指标)发现关键影响节点,以及针对传播路径展开深度与广度层面的分析。多级传播网络构造方法多以用户为基础节点形成用户传播网络图。

通过上述分析,现有技术存在的问题及缺陷为:

(1)现有多级传播分析工具的点面维度相对割裂,缺乏综合性的分析方法。比如关键影响节点识别,多级传播分析工具即使在全局传播网络视图下识别出了关键影响节点,也少有对关键影响节点的连接社群进行更深一步的挖掘。

(2)以用户为节点构造的传播网络图中,由于每个用户只能出现一次,因此在某用户产生多次转发行为的情形下,为保证用户的唯一性只能保留一个转发节点,从而引起传播节点丢失的问题。在涉及到传播路径的分析时,传播节点丢失会造成分析结果的失真。

(3)现有多级传播分析工具较少考虑了疑似异常图和疑似异常节点,疑似异常图和疑似异常节点的存在可能会对多级传播网络分析造成干扰。

发明内容

为克服相关技术中存在的问题,本发明公开实施例提供了一种节点与社区相结合的多级传播分析方法、分析系统。

所述技术方案如下:节点与社区相结合的多级传播分析方法,其特征在于,该方法包括以下步骤:

S1,多级传播网络构造:分别以用户和贴文为节点,转发、评论、回复关系为边,构造有向的用户多级传播连通图和有向的贴文多级传播连通图;

S2,疑似异常图与异常节点识别:通过计算连通图量化指标,根据指标阈值,识别疑似异常图与异常节点;

S3,去噪:基于步骤S2的结果,移除疑似异常图和异常节点,得到去噪后的用户多级传播连通图和贴文多级传播连通图;

S4,连通图点边属性赋值:为节点赋予聚类系数、立场倾向、核心桥梁系数属性,为边赋予同向/异向边二元数值、立场强度差值属性;

S5,紧密社群与核心桥梁节点识别:结合聚类系数、核心桥梁系数、社区算法,发现核心节点的影响集群和桥梁节点的沟通集群;

S6,同立场传播集群与立场转变关键节点识别:根据节点立场倾向和对立节点集,发现同立场传播集群与立场转变关键节点;

S7,煽动性节点与受影响集群识别:根据煽动性与跟风性系数、同/异向边属性,发现煽动性节点与受影响集群;

S8,爆发集群与爆发节点识别:根据传播路径和传播子树的传播速度,发现爆发节点与爆发集群;

S9,交叉分析:通过对比步骤S5、步骤S6、步骤S7、步骤S8所得到的关键节点和关联集群,发现相互重合的关键节点账号、以及上述关键节点账号的关联集群和作用途径。

在步骤S1中,所述有向的用户多级传播连通图是以用户为节点,原发节点为原发用户,转发、评论、回复关系为边形成的;

所述有向的贴文多级传播连通图是以贴文为节点,原发节点为原发贴文,转发、评论、回复关系为边形成的。

在步骤S2中,所述通过计算连通图量化指标,根据指标阈值,识别疑似异常图与异常节点具体包括:

对每个贴文多级传播连通图,计算平均每个账号发布贴文数量、每个账号单位时间内发布频率、原创转发之比指标;

平均每个账号发布贴文数量=post_n/account_n,其中,account_n为账号数量,post_n为发布贴文总数量;

每个账号单位时间内发布频率=post_n/t,其中,t为观察周期;

原创转发之比=original_n/retweet_n,其中,original_n为原创数量,retweet_n为转发数量;

对每个指标赋予初始权重,之后计算综合指标,根据初始阈值,识别出疑似异常图和其中节点,再通过事后验证的方式调整权重和阈值。

在步骤S4中,所述为节点赋予聚类系数、立场倾向、核心桥梁系数属性,为边赋予同向/异向边二元数值、立场强度差值属性具体包括:

对用户多级传播连通图,为图中节点赋予聚类系数;对贴文多级传播连通图,为图中节点赋予立场倾向、核心桥梁系数,为图中边赋予同向/异向边二元数值、边关联节点的立场强度差值,计算方式如下:

对于任一两个节点n

在步骤S5中,所述紧密社群与核心桥梁节点识别是基于用户多级传播连通图,根据聚类系数阈值,筛选出与邻接节点相互之间关系较为紧密的节点集;在此节点集的基础上,形成新的用户多级传播连通图;在此用户多级传播连通图的基础上,分别基于PageRank和中介中心性计算核心、桥梁系数得到核心、桥梁节点,同时结合社区算法,将整个用户多级传播连通图划分成多个紧密社群,以得到核心节点的影响力辐射集群以及桥梁节点的沟通集群。

在步骤S6中,所述同立场传播集群与立场转变关键节点识别是基于贴文多级传播连通图,根据节点的立场倾向识别出同一立场传播集群,对每个节点遍历前后连接点,若某个节点前后出现明显的立场对立集群,则该节点被标注为立场转变关键节点。

在步骤S7中,所述根据煽动性与跟风性系数、同/异向边属性,发现煽动性节点与受影响集群具体包括:

基于贴文多级传播连通图,对每个节点,根据关联边的同向/异向边二元数值、立场强度差值,按如下方式计算煽动性系数和跟风性系数;

对于某个节点w,计算provo

计算provo

则有,煽动性系数=a

跟风性系数的计算过程与煽动性系数相同,关注指向W的边与节点;

从而获得煽动性系数与跟风性系数之比,基于比例阈值,识别出煽动性节点;根据该节点关联的同向边,得到同向边邻接的节点集,此节点集则被识别为受煽动性节点影响的主要集群。

在步骤S8中,根据传播路径和传播子树的传播速度,发现爆发节点与爆发集群具体包括:

基于贴文多级传播连通图,对连通图中每条传播路径进行遍历,记录到达每个节点的时间,之后计算各传播路径的传播速度,得到传播速度TopN的路径,N为3、5、10自定义值,对TopN传播路径上的每个节点,根据其后续传播节点的平均用时,识别出传播路径的爆发节点;将连通图中的每个节点作为根节点,对其子树进行遍历,记录到达每个子节点的时间,之后计算各子树的传播速度,得到传播速度TopN的子树,子树的根节点则被识别为爆发节点,子树则被识别为爆发节点对应的爆发集群。

在步骤S9中,通过对比步骤S5、步骤S6、步骤S7、步骤S8所得到的关键节点和关联集群,发现相互重合的关键节点账号、以及上述关键节点账号的关联集群和作用途径具体包括:

基于贴文多级传播连通图,对每个连通图都进行核心、桥梁节点识别,交叉对比每个连通图的核心、桥梁节点,判断核心、桥梁节点对应的发帖账号是否存在重合,记录核心、桥梁节点账号对应的一个或几个贴文传播连通图,再结合步骤S5所述方法,发现核心、桥梁节点账号产生作用的贴文传播图和紧密社群,从而挖掘核心、桥梁节点在多级传播事件的作用机制。

本发明的另一目的在于提供一种节点与社区相结合的多级传播分析系统,包括:

环境搭建模块,通过nlp分析场景采用机器学习平台,使用Gpu算法和Gpu图算法库实现图计算性能加速;

数据集预处理模块,用于以事件维度进行数据预处理和数据集分割;

算法分析模块,基于节点与社区相结合的多级传播分析方法,进行底层算法调度;

可视化模块,采用地图瓦片按需加载的静态渲染和Gpu动态渲染相结合的方式用于实现多级传播分析结果的图谱展示。

本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述节点与社区相结合的多级传播分析方法。

本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述节点与社区相结合的多级传播分析方法。

本发明的另一目的在于提供一种所述节点与社区相结合的多级传播分析方法在社交网络平台舆情分析上的应用。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:

第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果,具体描述如下:

(1)针对多级传播分析点面维度相对割裂的问题,提出基于节点、网络、时间维度的联合分析方法,挖掘出关键节点和主要作用集群。

(2)针对用户传播图中节点丢失的问题,构造基于贴文节点的多级传播图,形成由不同原贴延伸而出的传播网络组合。

(3)针对异常图和异常节点的干扰问题,基于帖子、账号、关系等相关的量化指标,识别出多级传播网络中的疑似异常图和疑似异常节点。

第二、把技术方案看作一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:

本发明提出了一种节点与社区相结合的多级传播分析方法、系统、计算机设备及介质,进行以事件为导向的全域或局部多级传播网络构造,以及联合节点、网络、时间的综合分析。该方法基于全域或局部多级传播网络,结合网络相关的社区算法,节点相关的聚类系数、核心桥梁系数、煽动性跟风性系数,时间相关的传播速度,可以识别出多级传播事件的紧密社群与核心桥梁节点,同立场传播集群与立场转变关键节点,煽动性节点与受影响集群、爆发集群与爆发节点,疑似异常图与异常节点,为多级传播提供了点面融合的分析方法。另外,该方法根据分析指标的数据要求,分别基于用户传播图和贴文传播图进行分析,避免了只基于用户传播图的多级传播节点丢失的问题,同时允许在不同的传播图中对关键节点和关联集群进行交叉对比分析。

相比于现有技术,本发明的优点进一步包括:

本方法基于量化指标和事后验证,对疑似异常图和异常节点进行识别,减轻了异常图和异常节点对多级传播分析的影响。

本方法分别以用户和贴文为节点,对两种多级传播连通图,即用户多级传播连通图和贴文多级传播连通图,进行同步分析,减轻了用户传播图节点丢失对多级传播分析的影响。

本方法基于点边属性和网络结构,从不同角度对关键节点及其主要作用集群进行了识别和交叉分析,提高了多级传播分析的点面融合性。

同时基于节点与社区相结合的多级传播分析方法,在多级传播分析系统作出了相应优化。通过使用地图瓦片加载的静态渲染策略和基于fm3力导向布局进行优化和使用cuda加速运算,可以流畅渲染出全量图分析结果。

第三、作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:

(1)不同于舆情分析系统中辅助性质的分析模块,本发明基于节点与社区相结合的多级传播分析方法,构建独立的、专门应用于多级传播数据分析的系统,可以同时分析大批量的贴文转播图和用户传播图,并去除“噪音干扰”,从而深入挖掘出关键节点及其关联集群和作用路径,快速形成对多级传播事件的系统性认知。

(2)本发明在分析方法层面,本发明改善了业内集中分析影响力节点而忽略了其关联集群和作用方式的问题,从社群、立场、速度的角度分析了关键节点的影响辐射集群和影响途径。

(3)在分析系统层面,通过地图切片和静态缓存的特性解决了浏览器端大规模数据下内存溢出、网络传输超时和渲染卡顿的难题,保留了鸟瞰图的图分析特性,利用地图的缩放功能可按需切换为动态图的实时分析模式。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;

图1是本发明实施例提供的节点与社区相结合的多级传播分析方法流程图;

图2是本发明实施例提供的节点与社区相结合的多级传播分析系统示意图;

图3是本发明实施例相关效果的证据之一,展示了某事件的核心桥梁节点及其作用集群;

图中:1、环境搭建模块;2、数据集预处理模块;3、算法分析模块;4、可视化模块;

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

一、解释说明实施例:

本发明实施例提供一种节点与社区相结合的多级传播分析方法,包括:

紧密社群与核心桥梁节点、同立场传播集群与立场转变关键节点、煽动性节点与受影响集群、爆发集群与爆发节点、疑似异常图与异常节点的识别和交叉分析方法。

实施例1

本发明实施例提供一种节点与社区相结合的多级传播分析方法具体包括以下步骤:

S1,多级传播网络构造:分别以用户和贴文为节点,转发、评论、回复等关系为边,构造有向的用户/贴文多级传播连通图;

其中,以用户为节点,原发节点为原发用户,转发、评论、回复等关系为边,形成有向的用户多级传播连通图;

以贴文为节点,原发节点为原发贴文,转发、评论、回复等关系为边,形成有向的贴文多级传播连通图;

S2,疑似异常图与异常节点识别:通过计算连通图量化指标,根据指标阈值,识别疑似异常图与异常节点;

其中,对每个贴文多级传播连通图,计算平均每个账号发布贴文数量、每个账号单位时间内发布频率、原创转发之比等指标。

平均每个账号发布贴文数量=post_n/account_n,其中,account_n为账号数量,post_n为发布贴文总数量;

每个账号单位时间内发布频率=post_n/t,其中,t为观察周期;

原创转发之比=original_n/retweet_n,其中,original_n为原创数量,retweet_n为转发数量;

对每个指标赋予初始权重,之后计算综合指标,根据初始阈值,识别出疑似异常图和其中节点,再通过事后验证的方式调整权重和阈值;

S3,“去噪”:基于步骤S2的结果,移除疑似异常图和其中节点,得到“去噪”后的用户多级传播连通图和贴文多级传播连通图;

S4,连通图点边属性赋值:为节点赋予聚类系数、立场倾向、核心桥梁系数属性,为边赋予同向/异向边二元数值、立场强度差值属性;

其中,对用户多级传播连通图,为图中节点赋予聚类系数;对贴文多级传播连通图,为图中节点赋予立场倾向、核心桥梁系数,为图中边赋予同向/异向边二元数值、边关联节点的立场强度差值,计算方式如下。

对于任一两个节点n

S5,紧密社群与核心桥梁节点识别:结合聚类系数、核心桥梁系数、社区算法,发现核心节点的影响集群和桥梁节点的沟通集群;

其中,基于用户多级传播连通图,根据聚类系数阈值,筛选出与邻接节点相互之间关系较为紧密的节点集;在此节点集的基础上,形成新的用户多级传播连通图;在此用户多级传播连通图的基础上,分别基于PageRank和中介中心性计算核心、桥梁系数得到核心、桥梁节点,同时结合社区算法,将整个用户多级传播连通图划分成多个紧密社群,以得到核心节点的影响力辐射集群以及桥梁节点的沟通集群。

S6,同立场传播集群与立场转变关键节点识别:根据节点立场倾向和对立节点集,发现同立场传播集群与立场转变关键节点;

其中,基于贴文多级传播连通图,根据节点的立场倾向识别出同一立场传播集群,对每个节点遍历前后连接点,若某个节点前后出现明显的立场对立集群,则该节点被标注为立场转变关键节点;

S7,煽动性节点与受影响集群识别:根据煽动性与跟风性系数、同/异向边属性,发现煽动性节点与受影响集群;

其中,基于贴文多级传播连通图,对每个节点,根据关联边的同向/异向边二元数值、立场强度差值,按如下方式计算煽动性系数和跟风性系数。

对于某个节点w,计算provo

计算provo

则有,煽动性系数=a

跟风性系数的计算过程与煽动性系数类似,关注的是指向W的边与节点。

从而获得煽动性系数与跟风性系数之比,基于比例阈值,识别出煽动性节点;根据该节点关联的同向边,得到同向边邻接的节点集,此节点集则被识别为受煽动性节点影响的主要集群。

S8,爆发集群与爆发节点识别:根据传播路径和传播子树的传播速度,发现爆发节点与爆发集群;

其中,基于贴文多级传播连通图,对连通图中每条传播路径进行遍历,记录到达每个节点的时间,之后计算各传播路径的传播速度(时间总长与节点数之比,即经过每个节点的平均用时),得到传播速度TopN的路径,N可为3、5、10等自定义值,对TopN传播路径上的每个节点,根据其后续传播节点的平均用时,识别出传播路径的爆发节点;将连通图中的每个节点作为根节点,对其子树进行遍历,记录到达每个子节点的时间,之后计算各子树的传播速度,得到传播速度TopN的子树,子树的根节点则被识别为爆发节点,子树则被识别为爆发节点对应的爆发集群。

S9,交叉分析:通过对比不同步骤所得到的关键节点和关联集群,发现相互重合的关键节点账号、以及这些关键节点账号的关联集群和作用途径;

其中,基于贴文多级传播连通图,对每个连通图都进行核心、桥梁节点识别,交叉对比每个连通图的核心、桥梁节点,判断核心、桥梁节点对应的发帖账号是否存在重合,记录核心、桥梁节点账号对应的一个或几个贴文传播连通图,再结合步骤S5所述方法,发现核心、桥梁节点账号产生作用的贴文传播图和紧密社群,从而挖掘核心、桥梁节点在多级传播事件的作用机制;

另外,通过交叉对比步骤S5、步骤S6、步骤S7、步骤S8、步骤S9所得到的核心桥梁节点与关联社群、立场转变关键节点与同立场传播集群、煽动性节点与受影响集群、爆发节点与爆发集群,发现相互重合的节点账号,这些关键节点账号通过影响社群、煽动立场、引爆传播多个途径、对多个集群产生作用。

实施例2

如图2所示,本发明实施例提供一种节点与社区相结合的多级传播分析系统,包括:

环境搭建模块1,用于nlp分析场景,采用机器学习平台;用于图计算性能加速,使用Gpu算法和Gpu图算法库;

数据集预处理模块2,用于以事件维度进行数据预处理和数据集分割;

算法分析模块3,用于基于节点与社区相结合的多级传播分析方法,进行底层算法调度;

可视化模块4,用于多级传播分析结果的图谱展示,采用地图瓦片按需加载的静态渲染和Gpu动态渲染相结合的方式。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程。

二、应用实施例:

应用例

本发明实施例提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。

本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。

本发明实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

三、实施例相关效果的证据:

如图3核心桥梁节点及其作用集群所示,基于核心桥梁系数、聚类系数、社区算法,可以清晰地发现各核心桥梁节点在各社区的分布,从而得到各核心桥梁节点的作用社群。

如表1所示,相比于单一的地图瓦片渲染、Gpu渲染,结合两者的渲染方式在速度和动静态渲染上所取得的积极效果。

表1地图瓦片静态渲染和Gpu动态渲染相结合的积极效果

其中,表1是本发明实施例相关效果的证据之一,说明了地图瓦片静态渲染和Gpu动态渲染相结合的积极效果。

以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

相关技术
  • 信息传播分析系统、信息传播分析装置、信息传播分析方法及其程序
  • 一种融合节点分析与边分析的复杂网络社区识别方法
技术分类

06120115930960