掌桥专利:专业的专利平台
掌桥专利
首页

基于模体度的社交网络虚假信息传播检测方法

文献发布时间:2023-06-19 11:02:01


基于模体度的社交网络虚假信息传播检测方法

技术领域

本发明涉及信息检测领域,更具体的说是涉及一种基于模体度的社交网络虚假信息传播检测方法。

背景技术

社交网络是一种典型的复杂网络,它包含了一定范围内人与人之间的联系,其中个人用户可以抽象为网络中的节点,联系抽象为节点间的链接[2]。在线社交网络中,海量信息通过用户的交互和转发行为进行传播,社交媒体作为信息传播的载体,既可以使人们快捷地分享信息流获取时事新闻,方便人与人之间的思想交流与信息交互,同时也可能成为假新闻泛滥蔓延的重要渠道。

假新闻中通常充斥着谣言、具有误导性的虚假信息,大多数人在网络中面对大量信息往往不能准确判断信息的真伪,导致了虚假信息的广泛传播。新浪微博是我国用户阅读新闻信息、分享个人日常的重要平台,用户作为信息传播的生产者与传播者,不仅可以通过接受信息的带来的影响,也可以通过发送推文的方式获得影响。用户通过在社交媒体散布虚假信息,可能会影响舆论、政治、经济等诸多领域。

假新闻通常也伴有主观形式的偏见与情感的煽动性,因此在热点事件爆发的同时,往往也是假新闻酝酿与扩散的重要时机,成为信息传播中几乎不可避免的副产品。在信息技术快速发展的今天,如何避免大量摄入虚假信息,准确识别信息源的真实性,揭示微博信息的传播重要性度量及虚假新闻检测机制已然成为复杂网络领域的热点研究方向。对虚假信息网络传播特性深入挖掘,有助于分析在线社交网络中虚假信息的传播机制,因此研究虚假信息传播机制具有非常重要的科学意义与实际应用价值。

发明内容

有鉴于此,本发明提供了一种基于模体度的社交网络虚假信息传播检测方法。本发明首先基于复杂网络的有向模体结构,提出了模体度算法,基于模体度算法通过对社交网络的广度传播与深度传播机制进行统计分析,有助于分析在线社交网络中虚假信息的传播机制,基于模体度应用于虚假信息传播特性分析,将应用于社交媒体信息传播过程的虚假信息检测、遏制假新闻的早期传播等实际场景中,而且通过识别网络结构来检测虚假信息的方法,可在新闻传播中重要节点的识别与机器人检测发挥作用,为虚假信息检测提供了一种基于网络结构特征的新颖可行的途径。

为了实现上述目的,本发明采用如下技术方案:

一种基于模体度的社交网络虚假信息传播检测方法,其特征在于,包括以下步骤:

读取真实信息与虚假信息全部转发数据,进行数据清洗;

构建时序虚假信息转发网络与真实信息转发网络;

设计模体度算法,以计算单条网络的广度模体度与深度模体度;

对全部转发数据,应用模体度算法模型以及networkx的内置网络统计量方法,提取真实信息转发网络与虚假信息转发网络的数据特征;

利用所述数据特征训练二分类模型;

利用二分类模型对网络中的数据进行虚假信息检测。

优选的,所述二分类模型的训练步骤如下:

构建XGBoost二分类模型,根据所述数据特征对真实信息和虚假信息贴标签,将有标签的真实信息和有标签的虚假信息的训练集,输入到所述XGBoost模型中进行训练,选择MSE作为损失函数,通过迭代调参后得到二分类模型。

优选的,虚假信息检测过程具体如下:将待检测的信息输入到所述二分类模型,根据二分类逻辑回归目标函数输出分类概率,并将阈值设置为0.5作为分类界定值,若输出概率小于阈值0.5,则分类结果判定为0类,否则为1类,并通过准确率accuracy进行结果评价,实现对网络中的数据进行虚假信息检测。

优选的,所述数据特征包括融合模体度特征、结构异质性特征、结构性病毒特征以及传播特征。

优选的,所述模体度算法的具体流程如下:

读取单个事件转发数据;

构建该事件转发网络拓扑,构建的网络为有向无权无环的最大联通网络,根节点为事件信息发布者;

初始化节点广度模体度列表、节点深度模体度列表和节点储存列表;

遍历该网络中的全部节点:以每个节点为父子节点,计算该节点能够生成的广度传播模体与深度传播模体数量,记为节点广度模体度和节点深度模体度;

对列表中全部节点广度模体度、节点深度模体度分别进行求和,得到该网络的模体度:广度模体度、深度模体度。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于模体度的社交网络虚假信息传播检测方法,具有以下有益效果:

1)通过设计实现模体度算法,实现度量社交网络的广度传播与深度传播模式;

2)定性分析真实与虚假信息网络的传播特性;

3)融合基于模体度的多种网络拓扑特征,实现较高的虚假信息检测准确率,并能够在信息传播的较早时期进行虚假信息的有效识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明中基于模体度特征的虚假信息检测流程图;

图2附图为本发明中模体度计算流程图;

图3附图为本发明中网络结构特征之间的相关性图;

图4a附图为本发明中微博传播规模分布图;

图4b附图为本发明中结构性病毒特征分布图;

图5(a)-图5(e)附图为本发明中具有相同传播规模的网络结构图;

图6a附图为本发明中真实信息模体度散点热力图;

图6b附图为本发明中虚假信息模体度散点热力图;

图7a附图为本发明中广度模体度散点分布图;

图7b附图为本发明中深度模体度散点分布图;

图8a附图为本发明中广度模体度分布图;

图8b附图为本发明中深度模体度分布图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种基于模体度的社交网络虚假信息传播检测方法,如图1所示,包括以下步骤:

读取真实信息与虚假信息全部转发数据,进行数据清洗;

构建时序虚假信息转发网络与真实信息转发网络;

设计模体度算法,以计算单条网络的广度模体度与深度模体度;

对全部转发数据,应用模体度算法模型以及networkx的内置网络统计量方法,提取真实信息转发网络与虚假信息转发网络的数据特征;

利用数据特征训练二分类模型;

利用二分类模型对网络中的数据进行虚假信息检测。

其中,二分类模型的训练步骤如下:

构建XGBoost二分类模型,根据数据特征对真实信息和虚假信息贴标签,将有标签的真实信息和有标签的虚假信息的训练集,输入到XGBoost模型中进行训练,选择MSE作为损失函数,通过迭代调参后得到二分类模型。

其中,虚假信息检测过程具体如下:将待检测的信息输入到二分类模型,根据二分类逻辑回归目标函数输出分类概率,并将阈值设置为0.5作为分类界定值,若输出概率小于阈值0.5,则分类结果判定为0类,为虚假信息,否则为1类,为真实信息,并通过准确率accuracy进行结果评价,实现对网络中的数据进行虚假信息检测。

其中,数据特征包括融合模体度特征、结构异质性特征、结构性病毒特征以及传播特征。

其中,如图2所示,模体度算法的具体流程如下:

读取单个事件转发数据;

构建该事件转发网络拓扑,构建的网络为有向无权无环的最大联通网络,根节点为事件信息发布者;

初始化节点广度模体度列表、节点深度模体度列表和节点储存列表;

遍历该网络中的全部节点:以每个节点为父子节点,计算该节点能够生成的广度传播模体与深度传播模体数量,记为节点广度模体度和节点深度模体度;

对列表中全部节点广度模体度、节点深度模体度分别进行求和,得到该网络的模体度:广度模体度、深度模体度。

具体的,在本实施例中使用Ma等收集的基于事件的微博公开数据集,该数据集收集了虚假谣言和真实新闻的转发传播数据。合计为4664个微博事件源微博的完整转发数据,其中包括2313条虚假信息微博,2351条真实信息微博,涉及到2746818个用户节点、3805656次微博转发。虚假信息来自微博官方网站,如果微博的源用户所报道信息为假新闻,则该微博即视为虚假信息。该数据集包括源微博id、微博上级用户id、微博转发用户id、微博发布与转发时间、以及微博文本内容等信息。为了创建级联转发网络,选择微博用户作为网络节点,去除两个节点间的重复连边只保留一次有效转发。根据用户间的转发行为构成了链式传播关系,首先提取以下数据,以获取虚假新闻和真实新闻的各种特征:

1)微博上级用户:信息传播的父节点,与转发用户为传递关系,同时在网络中也标记了根源用户节点,该节点为信息散布的最初节点。

2)微博转发用户:定向转发上级微博信息的唯一用户节点,转发用户具有传播信息、扩大源微博影响力的功能。

由于个别微博涉及用户节点数量级庞大,传播时间较长,少数热点事件的源微博传播时间达到了2-4年,类似这种极值在新闻传播过程中具有特殊性,其复杂的网络结构会对数值计算以及整体分布会造成较大影响。而对一定范围内的数据样本进行采样将具有代表性,本实施例也将仅讨论在相同传播范围内的微博网络虚假信息传播特征。

因此,在微博总体的4664个事件数据中,本实施例将只研究用户节点数量在2000以内的微博事件样本,最终使用数据集为2133个虚假信息微博事件与2213个真实信息微博事件。该样本数据占总体数据的93.4%,可以反映在一定传播范围内的普遍规律,基本不会对整体数据的分析过程造成影响。

若一条微博的传播方式属于广度传播,通常这条微博的扩散深度较低。如果该微博的传播具有深度传播特性,该信息经过多级转发,那么该信息就具有较大的传播深度。为了探索微博网络的模体度指标的传播特性,本实施例计算并使用每条微博的传播深度、传播规模、结构性病毒特征等指标构建了每个微博事件传播网络的度量,并将这些指标与网络广度模体度、深度模体度进行基于皮尔逊系数的相关性分析。

根据已构建的微博传播网络,使用皮尔逊相关性系数来度量两个变量之间的线性相关程度。皮尔逊相关系数已广泛应用于聚类和特征分析中,其定义为:

其中,

根据统计的虚假信息和真实信息的微博网络结构特征指标,特征相关性热力图如图3所示,相关性热力图3中颜色的深浅表示对应行列元素相关性的强弱。

根据图3的结果可知,在微博传播网络结构特征中,广度模体度与微博的传播规模具有强正相关性。由于微博信息发布之后庞大的受众群体会加快信息的广播效应,微博信息会围绕一个信息源进行扩散,所以广度播模体度数值也相应增大。同时相关性分析显示,深度模体度也与传播规模和传播深度具有一定正相关关系。在全部样本数据中,随着传播规模的扩大,通常会伴随微博网络结构的复杂化,网络的深度也会随之增加。

在图4a和图4b中展示了真实信息微博与虚假信息微博中传播规模大于100的网络的互补累计分布函数CCDF(complementary cumulative distribution function),图中纵坐标轴CCDF反映了对应变量的概率分布,是对离散的变量中,所有大于x轴上的某一值,其出现概率的和,图4a和图4b即表示传播规模及结构性病毒特征大于某一值时,对应的概率之和。正如前文所述,相对真实信息的传播,虚假信息的传播规模可以变得非常庞大,假新闻更容易吸引指数级的转发与传播。同样图4b真假新闻的结构性病毒特征也明显反映了微博信息在传播过程中的巨大差异,结构性病毒特征的取值范围分布展现的差异性,也说明了真假新闻的网络结构总体上具有区别明显的特征。

真假新闻在传播模式上产生的差异,会直观地反映在所构成的网络结构上,就结构性病毒特征而言,假新闻比真实新闻(K-S test~0.610,p-value~0)更具病毒性,且平均路径更长,在传播深度上,虚假信息的平均深度要大于真实信息(K-S test~0.438,p-value~0),同时该验证在整体微博数据集上也依然成立,具有一定的普适性。表1统计了真假新闻数据的详细信息,其中数值表示虚假信息与真实信息网络结构特征的均值:

表1

表1数据说明了虚假信息与真实信息网络在相同传播规模内的样本数据具有明显的差异,虚假信息网络在结构上表现出具有更深的传播深度与相对较小的传播规模,就模体度而言真实信息往往广度模体度数值更大,深度模体度小于虚假信息网络。

在新闻扩散的早期,微博网络结构表现出不稳定性,假新闻也可能形成星型结构,但在整体生命周期中,两类信息所呈现的结构特征便具有一定的差异,如表1所示。假新闻多以更深层更复杂的网络结构传播,表现在假新闻网络传播深度更深,可能是由于熟人之间的牢固联系导致了更多的转发,真新闻大多数更多的是围绕着一个信息源,例如大V认证用户、官方账号、政府组织等权威机构,也存在一部分非官方用户进行真新闻的散布,进而实现新闻的爆发广播。可以说假新闻更具有煽动性,会存在偏见以及不稳定性,因此与真新闻的传播方式呈现出明显差异。

当然,假新闻的传播也涉及到新闻学、心理学与社会学范畴,其传播模式不仅仅取决于文本内容与节点信息,例如有研究发现:谣言是人们更感兴趣的且更觉得重要的话题。这种话题的重要性越高,虚假信息的流行度也就越广,且谣言越具戏剧性与煽动性越容易引起人们的关注。人们往往对具有戏剧性或者具有娱乐性质的新闻更具偏好,多数假新闻的内容与人们对客观事实的认知背道而驰,可能是它易吸引人们关注的原因之一。如果有人制造谣言,与大家的预期相悖,得到转发的可能性会更高,因为在参与话题讨论的过程时,往往会无意识地推进了谣言的传播,进而导致了假新闻的泛滥蔓延。

近似相同传播规模的微博可以具有截然不同的网络结构,为了定量分析在近似相同的传播规模内的微博网络的传播影响因素,筛选出传播规模在(99-111)区间的五条微博,构建传播层级结构,如图5所示。图5(a)与图5(b)网络为真实信息微博,图5(c)-图5(e)等网络为虚假信息微博。根据微博网络结构分析,在近似相等的传播规模下,发现信息扩散可以完全通过广度传播来驱动,所有用户都从一个来源接收到一条消息;也可以具有较大的传播深度,信息通过多个后代和分支传播,形成较长的链式结构。

图5(a)微博网络中,信息的传播完全是由广播形式的来驱动的,该类微博多表现为认证账号发布的公共信息,例如人民日报、新华社等公共机构账号,通常只存在大量低深度转发,将信息广播扩散到所有听众,而不会触发多层级深度转发。在图5(c)-图5(e)等网络中,通常表现为朋友亲属之间小规模转发行为,但会伴随着多级“一对一”形式的信息传播,最终形成的微博网络会表现出较强的深度传播特性,往往会形成多个星型结构或长链式传播的复杂网络。上述网络均为所有微博网络中的特殊情况,但实际上绝大多数微博的传播过程最终会形成图5(b)与图5(c)等形式的网络结构,即两种传播模式的混合是驱动信息进行扩散的主要原因,这表明信息传播是由广度和深度传播机制的共同驱动作用的。

由于微博生命周期不同以及信息内容的差异,最终形成的拓扑结构差异明显。为了刻画模体度分布以及模体度与传播规模的具体影响,在本实施例中分别将真假信息微博的广度模体度和深度模体度投影到二维平面,并以该投影点到坐标系原点的欧氏距离归一化作为度量网络传播重要性的指标,该指标反映了微博传播中所产生的影响力。影响力越强的内容与事件越容易得到大量转发与传播,同时广度传播与深度传播也会对微博网络结构相应产生一定影响。绘制模体度散点分布热力图如图6a和图6b所示,红色实线为深度模体度的平均值,绿色实线为广度模体度的平均值。整体分布情况而言,虚假信息微博的深度模体度要高于真实信息,真实信息微博的广度模体度的平均值也要高于虚假信息。传播重要性强的网络往往是广度传播与深度传播共同作用的结果,广度传播占有主导作用。

为了探索虚假信息与真实信息网络传播规模的主要驱动因素的差异,以及进一步分析造成这种差异的规律,通过图7a和图7b来反应不同信息与传播规模的关联。图中黑色实线分别为当前传播规模下级联达到星型网络和链状网络的模体取值范围的理论极大值,当广度模体度取理论极大值时,那么规模为n的网络对应的B

为了更直观的观察模体度分布差异,将网络模体度进行离差标准化(min-maxnormalization)处理,通过将模体度缩放至[0,1]区间内,统计各模体度区间内网络所占比例,进而反映模体度分布对应真假新闻的可能性。结果如图8a和图8b所示,虚假信息网络的深度模体度分布较集中于数值较大的区间,相较于真实信息分布区分较为明显,相对的真实信息中广度模体度数值较大的网络也具有更大的占比,该结果也进一步说明了在微博平台上,虚假信息网络的深度模体度相对较大。结合深度模体度定义分析,如果一个网络的深度模体度越趋近其理论极大值,那么该网络所对应内容为假新闻的可能性也更大。这也揭示了假新闻网络结构较复杂,而真实新闻网络表现出更稳定的结构布局,单传播源的广度传播占据整个传播过程的主导作用。

从文本信息、用户属性以及时序特征的角度,通过识别推文文本特征、用户属性以及时间变化趋势,使用机器学习及深度学习分类算法,进行谣言检测。上述方法通常具有较高分类准确精度,但是忽略了网络结构特征在假新闻网络检测时的作用。Zhao等提出的结构异质性特征(structural heterogeneity)是一种基于网络结构的度量方法,该指标反映了传播网络与其大小相同的星型网络之间的差异,且该方法未知类型的微博网络在相对较短的转发时间内,具有相对较高的识别精度。

本实施例提取微博传播网络的模体度特征,基于XGBoost构建有监督分类模型对真假信息进行分类。XGBoost模型是基于特征选择法的封装法,通过训练分类器模型,可以根据分类器的性能对特征进行评价。研究中将基于广度与深度模体度特征的检测方法,与基于结构异质性特征的检测方法以及结构性病毒特征做对比,对微博新闻数据的完整生命周期(第1次转发到最近1次转发)和新闻发布的前3小时进行特征计算,使用准确率Accuracy指标比较3种基于网络结构特征以及融合3种网络结构特征的虚假信息分类准确率。结果如表2所示,发现基于模体度特征的虚假信息检测方法,相对于结构异质性特征和结构性病毒特征,在微博网络的完整生命周期以及传播早期均具有更高的分类准确率。并且融合上述3种网络结构特征后,模型预测准确率得到进一步提升。

表2

为了进一步验证在更多社交媒体平台虚假信息传播网络数据中,使用基于模体度的结构特征进行虚假信息检测的有效性与泛用性,实验使用基于Ma等人发布的两个Twitter公开数据集:Twitter15和Twitter16。该数据集将谣言数据细分为4种类型,并根据Twitter谣言信息的转发关系以及时序先后,可构建级联传播树,该数据集统计汇总如表3所示。

表3

在本实施例中将Twitter15与Twitter16数据进行预处理后合并,使用全部的2308条推特,采用与微博数据相同的特征提取方法,进行了基于XGBoost多分类模型的Twitter假新闻的检测准确率对比。表4汇总了4分类的结果,同样在基于3种网络结构特征的分类准确率对比中,模体度特征具有更好的识别精度,并且融合的网络结构特征可以更有效的进行Twitter网络的假新闻检测。

表4

上述基于微博与Twitter平台的研究结果表明,即使不构建文本特征、用户属性特征与时序特征,基于网络结构特征也可以得到较高的虚假信息检测准确率,并能够在新闻传播的早期实现对假新闻的检测。

在本实施例中,重要性能指标定义如下:

定义1.广度模体度(breadth motif degree,BM).广度模体度是反映了信息传播过程中的广播效应,是星形网络结构的主要构成成分。典型扩散传播特征是由于单个有影响力的节点i所致,由节点i所能产生的广度传播模体数量即为节点广度模体度bm

定义2.深度模体度(depth motif degree,DM).深度模体度反映了信息传播过程中的深度传播效应,其中节点仅直接影响相邻的分支,深度传播模体将信息传播至网络的更深层,使网络结构的塑造更趋于复杂,节点间的距离更长。同样的,由节点i所能产生的深度传播模体数量即为节点深度模体度dm

网络的广度模体度与深度模体度是传播网络的全局结构特性,该指标忽略了网络中节点本身的属性差异,只考察整个传播网络的宏观特征。

定义3.微博传播深度(depth).假设微博在传播过程中形成有向无权图,相邻节点距离为1,那么从根源用户节点到其它节点的最长距离即为该微博的传播深度。

定义4.微博传播规模(scale).微博的传播规模定义为微博传播网络中所有节点的数目之和。

定义5.结构性病毒特征(structural virality).该指标基于所有节点间的最短平均距离,其被定义为:

其中,V是所有节点的集合,d(s,t)表示网络中节点s到节点t之间的最短路径长度,n表示网络中节点的数量。当结构性病毒特征趋近于2时,其网络结构趋近于完全广播的星型结构。Goel等提出的结构性病毒传播特征,主要考察的是传播机制导致的网络结构特性。新闻的传播能力可能不仅取决于传播规模,传播形成的网络结构复杂程度也能反映信息的病毒传播特性,结构性病毒特征可以度量传播结构的多样性与复杂性。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本实施例中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本实施例所示的这些实施例,而是要符合与本实施例所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 基于模体度的社交网络虚假信息传播检测方法
  • 社交网络中隐私信息传播范围的度量模型和度量方法
技术分类

06120112772652