掌桥专利:专业的专利平台
掌桥专利
首页

一种基于传播影响力的网络谣言识别系统及方法

文献发布时间:2023-06-19 12:02:28


一种基于传播影响力的网络谣言识别系统及方法

技术领域

本发明属于网络谣言识别技术领域,特别是涉及一种基于传播影 响力的网络谣言识别系统及方法。

背景技术

在线社会网络与我们的生活、工作息息相关,不断丰富的信息对 于信息挖掘十分有利,但也会导致虚假信息泛滥。人们不仅仅能够通 过网络获取各式各样的信息,而且还能够参与到信息内容的创作中 去。凭借参与、公开、交流、对话、社区化的特性,在线社会网络大 大加速了人与人之间信息交流的速度与深度,与此同时,我们还需要 看到:它在为人们提供便利的信息交流、互动的同时,也降低了不实 信息的传播成本。因此,寻找一种有效的虚假消息识别方法来减少虚 假负面消息的影响成为研究人员关注的问题。

目前有许多检测谣言的方法,其中应用最为广范的检测方法大致 分为两种:(1)基于人工特征的方法:该方法主要通过构建相关谣言 微博的特征,使用决策树或支持向量机等机器学习分类器进行事件分 类,通用性较差,这种基于特征工程的方法虽然取得了一定的成效, 但是需要耗费大量资源,并且受限于人工设计的规则。(2)基于深度 神经网络模型:这类模型在语义表示与谣言检测运用方面更具优势; 神经网络模型与机器学习方法相比,能够自动从数据中学习事件特 征,避免了大量的特征工程,在捕获上下文之间复杂的语义关系方面 也有更好的拓展性。但目前神经网络谣言检测模型,并没有很好的充 分利用谣言相关的文本信息和用户节点信息,对于文本信息学习效果 不够好,对于用户节点信息表示单一化不够完善,未利用用户节点间 的影响力。

发明内容

为了解决上述技术问题,提供一种基于传播影响力的网络谣言识 别方法,具体包括如下步骤:

S101:对多个包含谣言信息的文本进行神经网络训练,得到文本 特征矩阵;

S102:基于谣言信息的发布用户,得到第一用户节点信息矩阵;

S103:基于所述第一用户节点信息矩阵和所述发布用户在多个所 述文本之间的转发和评论关系,构建传播图结构;

S104:基于所述传播图结构,构建发布用户传递注意力节点模型, 并将所述第一用户节点信息矩阵输入该模型中,输出更新后的第二用 户节点信息矩阵;

S105:根据所述更新后的第二用户节点信息矩阵和所述文本特征 矩阵来训练神经网络模型,得到谣言识别模型;

S106:根据所述谣言识别模型识别网络谣言。

优选地,所述步骤S101具体为:

S101.1:对多个所述包含谣言信息的文本进行清洗和长度规范 化;

S101.2:对多个所述文本中的单词进行神经网络训练,得到所述 单词的词汇量;

S101.3:基于所述词向量,得到多个所述文本的第一词特征矩阵;

S101.4:将所述第一词特征矩阵通过注意力机制学习所述单词之 间的依赖关系,得到第二词特征矩阵;

S101.5:将所述第二词特征矩阵输入卷积层和最大池化层,得到 所述文本特征矩阵。

优选地,所述神经网络是采用Word2Vec中的Skip-Gram神经网 络模型;所述Skip-Gram神经网络模型使用的窗口大小为5;所述词 向量的嵌入维度为300。

优选地,所述步骤S101.4具体为:

将所述第一词特征矩阵通过相同的h组多头注意力机制进行学 习,得到h组更新后的第一词特征矩阵,h为大于1的正整数;

将h组所述更新后的第一词特征矩阵连接起来,得到第二词特征 矩阵。

优选地,所述步骤S102具体为:

将发布谣言信息的用户作为节点,并将所述节点给予一定顺序; 并对不同用户的节点采用Node2Vec方法进行学习,得到不同用户节点 嵌入信息,将得到的给定顺序中的不同用户节点嵌入信息构成构成第 一用户节点信息矩阵。

优选地,所述步骤S103具体为:

构建传播图结构,所述图结构中的节点为多个所述用户节点嵌入 信息,所述图结构中的邻接矩阵为所述谣言信息的发布用户在多个所 述文本之间的转发和评论关系;将谣言信息对应的用户节点,并根据 所述转发和评论关系,构成传播图结构。

优选地,所述步骤S104具体为:

S104.1:学习相邻用户节点间的注意力系数s

S104.2:对每个用户节点的所有邻居的注意力系数e

S104.3:基于注意力矩阵,构建传递注意力矩阵M′;并通过所 述传递注意力矩阵,学习其他节点做为中间节点在内的节点i和节点 j的影响力系数e′

S104.4:将经过不同注意力矩阵M和M′更新后的第一用户节点 信息

优选地,所述步骤S105具体为:

S105.1:将所述更新后的第二用户节点信息矩阵和所述步骤S101 中的文本特征矩阵输入到全连接层以及Softmax层,得到谣言预测类 别;

S105.2:根据所述谣言预测类别和真实谣言类别反向训练所述神 经网络模型,得到谣言识别模型。

一种基于传播影响力的网络谣言识别系统,包括:

文本特征矩阵获取模块,用于将多个包含谣言信息的文本进行神 经网络训练,得到文本特征矩阵;

用户节点信息获取模块,用于获取谣言信息对应用户的用户节点 信息。

第一构建模块,用于构建传播图结构,所述图结构中的节点为多 个所述用户节点信息,所述图结构中的邻接矩阵为所述谣言信息的发 布用户在多个所述文本之间的转发和评论关系;

第二构建模块,用于构建基于用户传递注意力的节点表示方法来 更新用户节点间的影响力,所述基于用户传递注意力的节点表示方法 的输入为所述第一用户节点信息矩阵,所述基于用户传递注意力的节 点表示方法的输出为更新后的第二用户节点信息矩阵。

训练模块,用于根据所述谣言特征矩阵训练神经网络模型,得到 谣言识别模型。

识别模块,用于根据所述谣言识别模型识别网络谣言。

优选地,所述文本特征矩阵获取模块还包括:

训练单元,用于训练包含谣言信息的多个文本中的单词;

获取单元,用于根据所述词向量获取多个所述文本的第一词特征 矩阵;

学习单元,用于将所述第一词特征矩阵通过注意力机制学习所述 单词之间的依赖关系,得到第二词特征矩阵。

输入单元,用于将所述第二词特征矩阵输入卷积层和最大池化层 得到文本特征矩阵。

本发明的有益效果在于:

(1)本发明结合了节点不同维度的信息,通过转发关系构图, 充分利用了用户节点信息和文本特征内容信息。对比于传统地手工构 造特征地模型,能够自动的提取更高维度的特征表示,减少了人工介 入,更方便于使用,更适用于社交媒体复杂环境。

(2)本发明中利用信息间的转发顺序对用户节点进行构图,区 别于以用户关注关系进行构图,这种方式可以使得图结构更加简洁, 并且这种方式可以避免了依赖大规模的用户信息,因为现实生活中我 们很难获取大量的用户信息。

(3)本发明中构造了一种传递注意力的方法,因为现实生活中 未直接转发或评论的用户之间也存在间接的影响力,本发明通过传递 注意力的方法可以学习到这种影响力关系,更好的捕获用户节点特 征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。

图1为本发明方法流程图;

图2为本发明注意力机制原理图;

图3为本发明文本特征矩阵的卷积层和池化层原理图;

图4为本发明网络谣言识别方法的原理图;

图5为本发明网络谣言识别系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结 合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

参照图1所示,本发明提出一种基于传播影响力的网络谣言识别 方法,包括:

S101:对多个包含谣言信息的文本进行神经网络训练,得到文本 特征矩阵;

S101.1:对多个所述文本进行清洗和长度规范化。

具体为:去除文本中不规则的符号。由于每条文本信息中的文本 长度不同,假设文本长度为L,当文本不足长度L时,在文本前补零, 当文本长度大于L时,截取L长度之后的部分。

S101.2:对多个所述文本中的单词进行神经网络训练,得到所述 单词的词汇量;

具体为:根据Word2Vec中的Skip-Gram神经网络模型训练包含 谣言信息的多个文本中的单词,得到所述单词的词向量;其中,所述 Skip-Gram神经网络模型使用的窗口大小为5,所述词向量的嵌入维 度为300。

S101.3:基于所述词向量,得到多个所述文本的第一词特征矩阵;

第一词特征矩阵用v

S101.4:将所述第一词特征矩阵通过注意力机制学习所述单词之 间的依赖关系,得到第二词特征矩阵;

具体为:将所述第一词特征矩阵通过相同的h组多头注意力机制 进行学习,得到h组更新后的第一词特征矩阵,h为大于1的正整数。 将h组所述更新后的第一词特征矩阵连接起来,得到第二词特征矩 阵。

参照图2所示为注意力机制原理图,多头注意力机制由相同的h 组构成,每组中的缩放点积注意力方法的计算公式如下:

其中,Q,K,V相同,Q∈R

多头自注意力机制通过计算多次来捕获不同子空间上的相关信 息,然后将计算出的h组Z

O=W

其中,W

S101.5:将所述第二词特征矩阵输入卷积层和最大池化层得到文 本特征矩阵;

如图3所示,为本发明实施例1提供的获得文本特征矩阵的卷积 层和池化层原理图。

将所述第二词特征矩阵输入卷积层,得到卷积层特征,公式为:

其中,σ为非线性激活函数,W∈R

将所述卷积层特征输入最大池化层,得到所述文本特征矩阵。

具体为:对e∈R

S102:根据谣言信息的发布用户得到第一用户节点信息矩阵;

将谣言传播过程中的用户作为节点U={u

S103:构建传播图结构,所述图结构中的节点为多个所述用户节 点嵌入信息,所述图结构中的邻接矩阵为所述谣言信息的发布用户在 多个所述文本之间的转发和评论关系;

所述传播图结构G=(U,E),其中,节点信息矩阵U表示和谣言相 关的多个用户节点嵌入信息,边集合E为用户节点是否转发或评论另 一用户节点的微博信息,用邻接矩阵A∈R

S104:构建基于用户传递注意力节点模型;

所述基于用户传递注意力节点模型的输入为所述第一用户节点 信息矩阵,所述基于用户传递注意力节点模型的输出为更新后的第二 用户节点信息矩阵;

S104.1:学习相邻用户节点间的注意力系数S

其中,

S104.2:对每个节点的所有邻居的注意力进行归一化,归一化后 更新节点模型。

其中,影响力系数(注意力系数)归一化公式为:

更新影响力矩阵M(注意力矩阵)下的第一用户节点信息表示为:

其中,N

S104.3:构造注意力矩阵M∈R

其中,影响力系数归一化公式:

e′

更新影响力矩阵M′下的第一用户节点信息表示为:

S104.4:将经过不同注意力矩阵M和M′更新后的第一用户节点 信息

之后将得到的第二用户节点信息

S105:根据所述更新后的第二用户节点信息矩阵和文本特征矩阵 训练神经网络模型,得到谣言识别模型。

S105.1:将所述第二用户节点信息矩阵和步骤101中所获取的文 本特征矩阵输入到全连接层以及Softmax层得到谣言预测类别。具体 为:

参照图4所示,将所述第二用户节点信息矩阵U

S105.2:根据所述谣言预测类别和真实谣言类别反向训练所述神 经网络模型,得到谣言识别模型。具体为:

获取所述谣言预测类别与所述真实谣言类别之间的差值。

判断所述差值是否在预设阈值范围内。

若是,则确定所述神经网络模型为所述谣言识别模型。

若否,则根据所述差值反向训练所述神经网络模型,使所述差值 在所述预设阈值范围内。

其中,神经网络通过反向传播,随机梯度下降法迭代,每次选择 64Batch size做训练样本训练网络,计算出预测输出,将预测输出 与实际类别值进行比较,并将比较结果之间的差值称为误差,使用误 差来表示损失函数loss,并根据误差通过优化方法更新神经网络中 可学习的参数模型权重,以最小化损失函数loss,对每个批次重复 上述过程,直到对整个样本集来说,损失函数最小,并更新模型中的 参数。

S106:根据所述谣言识别模型识别网络谣言。

参照图5所示,本发明还提供一种基于传播影响力的网络谣言识 别系统,包括:文本特征矩阵获取模块、用户节点信息获取模块、第 一构建模块、第二构建模块、训练模块、识别模块;

文本特征矩阵获取模块201,用于将多个包含谣言信息的文本进 行神经网络训练,得到文本特征矩阵;

其中,所述文本特征矩阵获取模块201还包括:

训练单元2011,用于训练包含谣言信息的多个文本中的单词, 得到所述单词的词向量。

获取单元2012,用于根据所述词向量获取多个所述文本的第一 词特征矩阵。

学习单元2013,用于将所述第一词特征矩阵通过注意力机制学 习所述单词之间的依赖关系,得到第二词特征矩阵。

输入单元2014,用于将所述第二词特征矩阵输入卷积层和最大 池化层得到文本特征矩阵。

用户节点信息获取模块202,用于获取谣言信息对应用户的用户 节点信息。

第一构建模块203,用于构建传播图结构,所述图结构中的节点 为多个所述用户节点信息,所述图结构中的邻接矩阵为所述谣言信息 的发布用户在多个所述文本之间的转发和评论关系。

第二构建模块204,用于构建基于用户传递注意力的节点表示方 法来更新用户节点间的影响力,所述基于用户传递注意力的节点表示 方法的输入为所述第一用户节点信息矩阵,所述基于用户传递注意力 的节点表示方法的输出为更新后的第二用户节点信息矩阵。

训练模块205,用于根据所述谣言特征矩阵训练神经网络模型, 得到谣言识别模型。

识别模块206,用于根据所述谣言识别模型识别网络谣言。

综上,本发明结合了节点不同维度的信息,通过转发关系构图, 充分利用了用户节点信息和文本特征内容信息。对比于传统地手工构 造特征地模型,能够自动的提取更高维度的特征表示,减少了人工介 入,更方便于我们的使用,更适用于社交媒体复杂环境;本发明利用 信息间的转发顺序对用户节点进行构图,区别于以用户关注关系进行 构图,这种方式可以使得图结构更加简洁,并且这种方式可以避免了 依赖大规模的用户信息,因为现实生活中我们很难获取大量的用户信 息;本发明构造了一种传递注意力的方法,因为现实生活中未直接转 发或评论的用户之间也存在间接的影响力,我们通过传递注意力的方法可以学习到这种影响力关系,更好的捕获用户节点特征。

以上所述的实施例仅是对本发明的优选方式进行描述,并非对 本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领 域普通技术人员对本发明的技术方案做出的各种变形和改进,均应 落入本发明权利要求书确定的保护范围内。

相关技术
  • 一种基于传播影响力的网络谣言识别系统及方法
  • 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
技术分类

06120113148013