基于网络信息传播图建模的社交媒体谣言检测方法

文献发布时间：2023-06-19 09:30:39

技术领域

本发明涉及网络空间安全技术领域，尤其涉及一种基于网络信息传播图建模的社交媒体谣言检测方法。

背景技术

2020年，全球网民数量达45.4亿，我国网民规模达9.04亿。因此，社交网络已经成为大多数人生活中不可或缺的一部分，影响范围深远。以Facebook社交平台为例，每月有近24.1亿活跃用户参与和分享种类繁杂的信息。但与此同时，社交网络也促进了各种谣言信息在用户间的传播，破坏社会秩序，严重危害社会安全。因此，实现一种高效的网络谣言自动检测方法，对于维护网络空间安全和社会稳定具有重要的意义。

传统的谣言检测方式是基于人工鉴别的，需要通过专业人员审核，但这种方法耗时耗力，往往是在谣言传播后期才能发现和辟谣，并且依赖于鉴别人员的知识水平。随着机器学习技术的发展，基于特征工程和机器学习的谣言检测方法被提出。该类方法首先针对具体的待检测谣言内容，通过人工方式进行数据分析，以抽取合适的谣言特征。其优点包括：减少了人工审核的负担，提升了检测效率和精度。但该类方法也存在缺陷：首先需要进行精细的特征设计和选取，繁琐耗时，而且每次人工特征工程选取的特征仅针对特定的谣言类型，缺乏通用性。此外，目前已有的大多数谣言检测方法都是基于单一帖子的内容信息进行分类，但是社交媒体上的帖子一般为短文本，缺乏语义信息，因此，该类方法存在局限性。

发明内容

本发明的目的是提供一种基于网络信息传播图建模的社交媒体谣言检测方法，能够提高谣言检测的准确性，实现有效的谣言检测，并具有适用性强，易于迁移等优点。

本发明的目的是通过以下技术方案实现的：

一种基于网络信息传播图建模的社交媒体谣言检测方法，包括：

以用户的帖子为节点，根据帖子的转发层次关系和时间维度关系建立传播图模型，并且根据用户的ID信息在传播图模型中构建相同用户的帖子连接关系；

将预训练模型提取的各个帖子的文本特征作为初始的节点表示特征，并利用消息传递图神经网络根据帖子之间关系进行信息的聚合，进而更新节点表示特征；

将更新后的节点表示特征与初始的节点表示特征连接后，通过分类器预测帖子为谣言的概率。

由上述本发明提供的技术方案可以看出，与现有的仅通过单条帖子内容信息的方法或仅通过树形传播模型建模的方法相比，本发明提出一种新颖的网络信息传播图建模方法，充分考虑了社交媒体帖子的传播空间层次关系和时间维度关系，并对社交媒体用户的依赖性进行挖掘，可以有效的捕获网络信息传播中的上下文。并且，本发明能够针对不同的传播图结构实现对信息传播图上不同帖子之间相互关系的信息挖掘，因此具有较好的灵活性并可以高效的判断谣言数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于网络信息传播图建模的社交媒体谣言检测方法的示意图；

图2为本发明实施例提供的社交网络信息传播结构示意图；

图3为本发明实施例提供的社交网络信息传播图建模示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于网络信息传播图建模的社交媒体谣言检测方法，采用端到端深度学习方法，能够直接从相关数据中自动学习和融合有意义的特征，具有适用性强，易于迁移等优点。考虑到社交平台上的信息级联传播和帖子的上下文信息，本专利通过对网络信息传播图建模的方式，以用户帖子为节点，并分别根据帖子的转发层次关系和时间维度关系建立传播图模型。此外，社交网络平台中谣言检测对帖子所属用户的感知也十分重要，因为同一人对某事件是否为谣言的看法和态度是连贯的。因此，也根据用户ID信息，在传播图模型中构建相同用户的帖子连接关系。针对信息传播图上建模的上述三种关系，本发明设计了依赖于连边关系类型的信息聚合函数，即通过关系感知的消息传递图神经网络进行节点表示学习，充分挖掘谣言传播中的空间结构信息和时间维度信息。通过本发明提出的方法，能够提高谣言检测的准确性，实现有效的谣言检测。图1给出了该检测方法的主要过程，主要包括如下几个部分：

1、以用户的帖子为节点，根据帖子的转发层次关系和时间维度关系建立传播图模型，并且根据用户的ID信息在传播图模型中构建相同用户的帖子连接关系。

2、将预训练模型提取的各个帖子的文本特征作为初始的节点表示特征，并利用消息传递图神经网络根据帖子之间关系进行信息的聚合，进而更新节点表示特征；

3、将更新后的节点表示特征与初始的节点表示特征连接后，通过分类器预测帖子为谣言的概率。

为了便于理解，下面针对本发明上述方案做进一步的介绍。

1、基于预训练模型的社交媒体帖子特征提取。

本发明实施例中，预训练模型为BERT模型；BERT模型是一种预训练语言表示模型，能够从文本数据中提取高质量的语言特征。同时，BERT模型在实际使用中具有良好的迁移学习特性，只需要根据特定的任务数据对模型进行微调即可得到较好嵌入向量表示。而且，相比于Word2Vec等模型针对每个单词得到一个固定表示，并采用所有单词的平均词向量作为整个帖子的表示，BERT模型充分考虑了单词的上下文语义信息，因而更具有优势。

本发明实施例中，对于每一帖子的文本信息，首先进行数据清洗预处理，去除不必要内容，所述不必要内容包括：去除特殊字符、URL超链接、HTML字符以及表情符号等；预处理完成后，使用BERT模型对文本中的句子进行处理，并利用BERT模型倒数第二层的隐藏层平均作为句子的文本特征向量，序列长度可以设置为1024，上述过程可以表示为：

其中，f

2、社交网络信息传播图建模。

社交媒体平台上的用户信息交流，转发等十分活跃，而网络信息传播图可以呈现用户的互动过程和信息的传播结构，更加真实的建模网络信息传播。首先，对于社交媒体平台上的某一源帖子和其转发帖子，存在用户之间的转发层次关系。其次，对于同一条帖子的转发回复帖子中，存在时间维度上的连接关系。另外，考虑同一人对某事件的看法和态度是连贯的，因此对于同一用户的不同帖子也会存在相应的关联关系。社交网络信息传播结构如图2所示，图2中User表示用户信息，@User表示社交媒体帖子的转发关系，User后的数字用来区分不同用户，文本内容表示用户的帖子内容。

本发明实施例中，构建的社交网络信息传播图模型表示为G＝(V，E，R，H

图3为社交网络信息传播图建模图。其优点包括：第一，相比于仅通过单条帖子内容信息判断是否为谣言的方法，通过图建模的方式可以挖掘帖子在社交媒体平台上的传播结构信息，捕获更加丰富多样的上下文特征，尤其是社交媒体短文本的情况下，结合信息传播图建模的方式，更有利于准确的判断。第二，相比于树形传播模型仅能体现帖子在空间层次上的传播模式，本发明提出的图建模方式同时可以捕获帖子在时间维度上的相互依赖关系，并且对相同用户的不同帖子建立连边，建模对用户感知的图结构，有利于对帖子之间相互关系的挖掘。

3、基于关系感知的消息传递图神经网络的特征表示学习。

消息传递图卷积神经网络(Graph Convolution Network，GCN)立足于节点之间的信息传播聚合，将图卷积视为一种消息传递过程，在此过程中，信息可以通过连边从一个节点传递到另一个节点。

本发明实施例中，设计了依赖于关系类型的信息聚合函数，即通过关系感知的消息传递图神经网络(GCN)进行节点表示学习，包含信息聚合与特征更新两个操作：

1)对于存在不同关系的图模型，定义关系感知的消息聚合函数为：

其中，

值得注意的是，消息聚合函数将邻居节点变换后的特征向量归一化后进行求和，但针对社交网络帖子传播的不同关系类型，即转发层次关系r

2)通过门控循环神经单元(Gate Recurrent Unit，GRU)更新节点表示特征，表示为：

具体计算表达式为：

其中，

最终，得到节点v

3、谣言分类检测。

将通过L层图神经网络得到更新后的节点表示特征

再通过一个线性分类器(Classify)预测帖子为谣言的概率：

其中，W

4、模型训练。

本发明实施例提供的以上方法构成一个检测模型，训练阶段的损失函数为交叉熵损失，表示为：

其中，N是训练样本中帖子总数，C为谣言的类别数，y

模型训练优化过程采用Adam作为优化器，学习率设置为1e-4，momentum设置为0.9。

示例性的，数据集使用PHEME。该数据集由来自Twitter平台的推文数据和用户数据组成。数据集包含105354篇与9个事件相关的帖子集，每个帖子集由一个源推文和其的转发推文组成，以及转发结构文件。数据集中谣言的个数为2402，非谣言的个数为4023，每个帖子集被注释为谣言或非谣言。实验的数据集划分情况为，数据集中70％作为训练集，15％作为验证集，15％作为测试集。图神经网络的总层数设置为L＝2。

在应用中，可以直接获取社交媒体平台中帖子的转发图关系，进行信息传播图建模和关系感知的图神经网络处理，最后模型能够输出对检测内容是否为谣言的概率分布。直接应用于实际社交媒体平台时，可以通过建模动态网络传播图，实时进行网络谣言检测，因而具有较强的应用价值。

为了说明本发明实施例上述方案的性能，还进行相关实验。实验评估指标为谣言检测的准确率，即谣言和非谣言正确分类的个数占测试集总数的比例。大量实验结果表明，通过网络信息传播图建模的方式，能够明显有效的提升谣言检测精度，能够较好的体现本专利在社交媒体谣言检测任务上的优势。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：毛震东;张勇东;柳轩;张坤;张铧天;
专利申请人：北京中科研究院;人民网股份有限公司;