基于多层次融合和注意力机制的多模态虚假新闻检测方法

文献发布时间：2024-04-18 20:01:23

技术领域

本发明属于信息安全和媒体监管领域，具体涉及一种基于多层次的跨模态融合和新型注意力机制的多模态虚假新闻检测方法。更具体地说，本发明在采用新颖的多层次跨模态融合基础架构下，实现了现实场景中细粒度虚假新闻分类，并采用新型的注意力机制提高了在现实训练样本不均衡情况下检测虚假新闻的准确度。

背景技术

随着社交媒体和数字内容的多样化发展，新闻信息出现采用图像、视频等视觉内容与传统文本形式结合的方式进行传播的趋势，隐藏其中的虚假新闻呈现出更具欺骗性和煽动性的传播态势，在近年来对社会造成了日益严重的危害。针对多模态信息中潜在的造假要素，实现对多模态虚假新闻的更加细粒度的检测，已成为当下信息安全和媒体监管领域面临的具有挑战性和紧迫性的问题。

近年来的虚假新闻检测相关研究中，基于深度学习技术催生了自动化检测手段，解决了早期依赖手工设计语言学表征来捕捉文本特征所导致的人力成本昂贵、领域知识依赖性高、模型泛化能力差等问题。此外，随着卷积神经网络(Convolutional NeuralNetworks,CNN)成为处理视觉信息的强大工具，其在虚假新闻检测领域中也取得了显著成效。通过使用卷积神经网络，针对不同模态的新闻数据进行更加精细的建模，能够提高虚假新闻检测的精度和鲁棒性，这使得现有的虚假新闻检测方法形成了两个分支：单模态虚假新闻检测和多模态虚假新闻检测。单模态虚假新闻检测方法完全基于自然语言处理(Natural Language Processing,NLP)方法，仅关注文本信息的特征提取和分类，但在虚假媒体信息越来越倾向于依赖多模态内容传播的当下，文本单模态的检测方法已从根本上无法全面刻画虚假新闻的原始特点与展现场景。相对地，多模态虚假新闻检测方法综合利用文本、图像等多种模态信息，在捕获新闻原始信息的全面性、多模态一致性检测以及更加丰富的特征表示空间等方面具有显著优势，现已成为虚假新闻检测领域主要关注的方向。

现有的多模态虚假新闻检测方法仅针对每种模态新闻信息中的局部信息与局部信息之间的交互，而忽略了每种模态新闻信息中的局部信息与全局信息之间的交互。现有的方法虽然在大量多模态虚假新闻的检测案例中简单而有效，但由于缺乏对于局部信息与全局信息之间交互的考虑，现有方法无法完善地融合不同粒度的特征，而现实多模态新闻造假的一大主要途径便是在原本真实的图文信息中做出微小的篡改，这会导致篡改后的信息在细粒度层次的局部信息产生与粗粒度层次的全局信息之间的语义分歧，因此现有方法难以全面覆盖现实中多模态新闻的各种常见造假类型对应的数据特点，进而无法针对性地检测每种现实新闻造假方式。

此外，近年来的多模态虚假新闻检测方法中常常向模型中引入注意力机制(Attention Mechanism)以提高表现性能。注意力机制是一种在深度学习模型中广泛使用的计算机制，用于模拟人类在信息处理时的选择性集中和加权分配注意力的过程。它通过分析输入数据的不同部分的重要性，为每个部分分配相应的注意力权重。现有的多模态虚假新闻检测方法大多采用注意力机制中较为基础的种类自注意力机制(Self-AttentionMechanism)用于计算不同模态特征之间的关联程度，这虽然使便模型能够一定程度上更加准确地捕捉到虚假新闻中不同信息之间的高关联度信息、提高数据特征中的一致性表征占比，但使模型仅关注不同信息之间的一致性表征也会导致模型对信息之间的不一致性表征不敏感，而现实多模态新闻造假的根本特点便是模态内或模态间的信息不匹配，因此现有的大多数仅采用自注意力机制的多模态虚假新闻检测模型在现实虚假新闻检测任务中难以达到在所有新闻造假类别上的整体更好效果。

发明内容

针对现有技术的不足及发展情况，本发明提出一种基于新颖特征融合方式的多模态虚假新闻检测方法。具体来说，该方法是包含了一种新颖的多层次特征融合方法和一种新型注意力机制的多模态虚假新闻检测方法。与现有方法仅采用模态内局部信息-局部信息的单一层次特征融合方法相比，多层次融合方法同时兼顾了模态内局部信息-局部信息特征融合方法与模态内局部信息-全局信息特征融合方法，使模型充分利用模态内部的全局信息与局部信息之间的关联，从原理上覆盖更多种现实中多模态新闻的常见造假类型对应的数据特点，针对性地提高对多种现实多模态新闻造假类型，尤其是图文不匹配与文本/图像内容篡改两种造假类型的整体检测表现。同时，本发明提出一种全新的注意力机制即逆向注意力机制，相较于现有方法采用的更关注信息间一致性表征的自注意力机制，逆向注意力机制能够显式学习直观体现现实多模态新闻造假所导致的信息不匹配，与现有的方法相比能够明显提高模型对于虚假新闻的整体敏感度，并增强可解释性。

为实现上述目的，本发明提供了如下技术方案：

一种基于多层次融合和注意力机制的多模态虚假新闻检测方法，其特征在于：该方法采用逆向注意力机制，实现模态内的局部特征与局部特征的融合、局部特征与全局特征的融合，同时实现不同模态的局部特征之间的融合，该方法包括以下步骤：

S1、获取多模态新闻输入，即获取一组对应的新闻文本-图像对，并经过预训练的特征提取器获得原始文本特征F

S2、构建多模态虚假新闻检测模型，该模型先经由文本特征提取分支和图像特征提取分支分别处理原始文本特征和原始图像特征，得到多种文本融合特征与图像融合特征，再将这些融合特征进行串联拼接并得到最终结果，其中，文本特征提取分支与图像特征提取分支结构完全相同，均由模态内局部-局部特征融合模块与跨模态特征融合模块串联后，再与模态内局部-全局特征融合模块并联组成，其中每个模块均采用特殊注意力机制，即分别计算自注意力机制矩阵与逆向注意力机制矩阵，然后将两者进行串联拼接，其中，所述的逆向注意力机制是指将自注意力运算得到的查询向量与键向量相乘得到的自注意力权重矩阵，乘以负数权重并与正边界值相加，将得到的新权重矩阵重新与自注意力运算得到的值向量相乘，并进行归一化后再输入Softmax函数；

S3、将原始文本特征F

S4、利用两种模态的模态内局部-全局融合特征

进一步地，步骤S1具体包括：

获取新闻原始数据中的文本数据T和图像数据I，并分别输入文本特征提取器和图像特征提取器，提取原始文本特征和原始图像特征：

其中，BERT表示文本特征提取器采用预训练的BERT模型，ViT表示图像特征提取器采用预训练的Vision Transformer模型，F

进一步地，步骤S2具体包括：

文本特征提取分支和图像特征提取分支各有一个模态内局部-全局特征融合模块，该模块将输入的对应模态的单模态原始特征处理为对应模态的模态内局部-全局特征；对文本模态，文本模态的模态内局部-全局特征融合模块先将输入的原始文本特征分别处理为对应模态的模态内全局特征和模态内局部特征，再将模态内全局特征与模态内局部特征进行元素级乘法操作，再分别利用自注意力机制和所述的逆向注意力机制分别得到自注意力矩阵和逆向注意力矩阵，最后将自注意力矩阵和逆向注意力矩阵与对应的单模态原始特征分别进行元素级乘法并最终串联拼接，得到文本模态的模态内局部-全局融合特征

其中，softmax表示softmax函数，⊙表示元素级乘法操作，

文本特征提取分支和图像特征提取分支各有一个模态内局部-局部特征融合模块，该模块将输入的对应模态的单模态原始特征处理为对应模态的模态内局部-局部特征融合模块；对文本模态，文本模态的模态内局部-局部特征融合模块先将输入的原始文本特征添加位置编码，然后输入6层同时进行自注意力机制运算和所述逆向注意力机制运算的协同注意力Transformer编码器，获取文本模态的模态内局部-局部融合特征

其中，Pos(·)表示对张量计算位置编码，

文本特征提取分支和图像特征提取分支各有一个跨模态特征融合模块，该模块将输入的对应模态的模态内局部-局部特征融合模块处理为对应模态的跨模态融合特征；对文本模态，文本模态的跨模态特征融合模块将输入的文本模态的模态内局部-局部融合特征输入6层同时进行自注意力机制运算和所述逆向注意力机制运算的协同注意力Transformer编码器，Transformer编码器，获取融合了图像特征的跨模态文本特征F

其中，

进一步地，步骤S3具体包括：

将原始文本特征F

通过训练，使模型更好地学习到多模态新闻中的信息特性。

进一步地，步骤S4具体包括：

将两种模态的模态内局部-整体交互特征

R＝MLP(F)

其中，MLP(·)表示多层感知机，由多个映射单元串联组成，每个映射单元由一个线性映射层、一个ReLU激活函数层以及一个Dropout层串联组成；

分类结果R与真实性标签Y构成分类损失L用于约束整个多模态虚假新闻检测模型的训练，所使用的损失为交叉熵损失，具体公式为：

R′＝softmax(R)

L＝-∑Y·logR′

其中，∑(·)表示对所有分类类别进行求和的操作，log(·)表示求取自然对数；该损失用于约束整个网络模型的训练过程。

本发明的优点是：与现有技术相比，本发明具有如下有益效果：

1、与现有技术相比，本发明提出一种新颖的多层次特征融合方法，通过显式计算模态内的局部-整体融合特征，针对性地提高了模型对于单一模态造假所引起的模态内部局部-全局不一致性的检测敏感度，能够提高模型对内容篡改、图文不匹配等常见造假类型的检测表现。

2、与现有技术相比，本发明提出一种新型注意力机制即逆向注意力算法机制，补齐了现有技术完全依赖于传统注意力机制计算多模态信息的一致性，导致难以针对性检测多模态信息的不一致性的设计短板，能够使模型深入学习虚假新闻中存在的信息不一致性，提高模型在预测多种类别虚假新闻时的整体表现。

3、本发明综合模态内的多层次融合、跨模态融合实现了模型对应现实多模态虚假新闻分类的可解释性，能够充分发挥模型显式结构的优越性，并能够结合新颖的注意力机制，实现现有技术大多不具备的细粒度虚假新闻分类能力。

附图说明

图1为本发明的多模态虚假新闻检测方法流程图；

图2为本发明多模态虚假新闻检测模型的整体网络结构图；

图3为本发明多模态虚假新闻检测模型的模态内局部-全局特征融合模块结构图；

图4为本发明多模态虚假新闻检测模型的模态内局部-局部特征融合模块结构图；

图5为本发明多模态虚假新闻检测模型的跨模态特征融合模块结构图；

图6为本发明中模态内局部-全局特征融合模块的引入及每个模块中逆向注意力的引入对多模态虚假新闻检测各性能指标的影响；

图7为本发明中模态内局部-全局特征融合模块的引入及每个模块中逆向注意力的引入对每种细粒度虚假新闻类别检测准确率的影响；

图8为本发明在中英文权威数据集上与现有方法的特征分布对比。

具体实施方式

为了更好地理解本发明所提出的设计方案，该部分将给出具体步骤的实施方式，并展示实验结果附图进行例证。此处所描述的具体实施例仅用于更加清楚地说明本发明，并不能以此限定本发明的保护范围。

参见图1、图2、图3和图4，本发明公开的一种基于多层次融合和新型注意力机制的多模态虚假新闻检测方法，包括以下步骤：

S1、获取多模态新闻输入，即获取一组对应的新闻文本-图像对，并经过预训练的特征提取器获得原始文本特征F

S2、构建多模态虚假新闻检测模型(如图2所示)，该模型由文本特征提取分支和图像特征提取分支并联组成，其中每个分支均由三个模块组成，包括：模态内局部-全局特征融合模块(如图3所示)、模态内局部-局部特征融合模块(如图4所示)、跨模态特征融合模块(如图5所示)；

S3、将原始文本特征F

S4、利用两种模态的模态内局部-全局融合特征

步骤S1具体包括：

获取新闻原始数据中的文本数据f和图像数据I，并分别用文本特征提取器和图像特征提取器进行特征提取，其中文本特征提取器采用预训练的BERT模型，并将输入的每条文本截断或补充空字符至统一长度196；图像特征提取器采用预训练的VisionTransformer模型，并将输入的每幅图像预处理为224×224尺寸，并按照16×16的尺寸划分patch，得到与文本字符长度同样为196的patch数量。将数据集按照9：1的比例划分训练集和测试集。

步骤S2具体包括：

如图3所示，每个模态的特征提取分支中的模态内局部-全局特征融合模块先由局部特征提取分支和全局特征提取分支两个分支并联组成，其中局部特征提取分支包含一个前馈网络，该前馈网络由线性层、ReLU激活层、Dropout层串联组成，Dropout比率为0.5，而全局特征提取分支则是由一个平均池化层与一个前馈网络串联组成，前馈网络结构与局部特征提取分支中的前馈网络相同；之后两个分支得到的结果进行元素级乘法，经过softmax层分别得到注意力矩阵及逆向注意力矩阵，最终将注意力矩阵与逆向注意力矩阵分别与输入的初始单模态特征进行元素级乘法并进行串联拼接得到对应模态的模态内局部-全局融合特征

如图4所示，每个模态的模态内局部-局部特征融合模块先串联了位置编码层与求和层，之后经过6层Transformer编码器，每层Transformer编码器先由三个并联的线性映射层分别得到注意力三元组即查询向量、键向量和值向量，此后依次经过查询向量与键向量的内乘、归一化、值向量的内乘、softmax层分别得到注意力矩阵及逆向注意力矩阵，此后将注意力矩阵和逆向注意力矩阵分别输入并行的前馈网络，每个网络均由线性映射层、ReLU激活层、Dropout层串联并重复两次组成，Dropout比率均为0.5，此后将最终的注意力系数与逆向注意力系数进行张量拼接并进行层归一化和Dropout，再次进入前馈网络得到两种模态的模态内局部-局部自注意力特征

如图5所示，每个模态的跨模态特征融合模块由6层采用多头协同注意力机制的Transformer编码器串联组成，在每个Transformer编码器中，先利用对应模态的模态内局部-局部融合特征计算查询向量，再利用另一种模态的局部-局部融合特征计算键向量和值向量，此后依次经过查询向量与键向量的内乘、归一化、值向量的内乘、softmax层分别得到注意力矩阵及逆向注意力矩阵，此后将注意力矩阵和逆向注意力矩阵分别输入并行的前馈网络，每个前馈网络均由线性映射层、ReLU激活层、Dropout层串联并重复两次组成，Dropout比率均为0.5，此后将最终的注意力系数与逆向注意力系数进行张量拼接并进行层归一化和Dropout，再次进入前馈网络得到两种跨模态协同注意力特征F

步骤S3具体包括：

根据步骤S2构建多模态虚假新闻检测模型，将新闻原始文本特征F

将两种模态的模态内局部-局部融合特征

通过训练，使模型更好地学习到多模态新闻中的信息特性。

步骤S4具体包括：

将步骤S3中得到的两种模态的模态内局部-全局融合特征

R′＝softmax(R)

L＝-∑Y·log R′

其中，∑(·)表示对所有分类类别进行求和的操作，log(·)表示求取自然对数；该损失用于约束整个网络模型的训练过程。

图6展示了本发明提出的模态内局部-全局特征融合模块的引入以及本发明提出的逆向注意力机制的引入对多模态虚假新闻检测各个性能指标的影响。可见去除模态内局部-全局特征融合模块之后模型在真实新闻和虚假新闻上的检测准确率大幅下降，而去除某一模块中的逆向注意力机制之后模型在真实新闻和虚假新闻上的检测准确率也有明显的下降，这验证了本发明的分析，即本发明提出的模态内局部-全局特征融合模块以及逆向注意力机制均能够提升模型在多模态虚假新闻检测任务中的真假新闻上的整体准确率表现。

图7展示了本发明中模态内局部-全局特征融合模块的引入及每个模块中逆向注意力的引入对每种细粒度虚假新闻类别检测准确率的影响。可见去除模态内局部-全局特征融合模块或任一模块中的逆向注意力机制之后，模型在真实新闻上的检测准确率变化并不明显，但在虚假新闻上的整体检测准确率有明显下降，这验证了本发明提出的模态内局部-全局特征融合模块以及逆向注意力机制能够提升模型在虚假新闻上的整体检测准确率。特别地，引入模态内局部-全局特征融合模块以及逆向注意力机制能够使模型在图文不匹配类型与原始内容被篡改类型上获得尤为明显的检测准确率提升，这验证了本发明提出的模态内局部-全局特征融合模块以及逆向注意力机制能够从原理上实现对于新闻内容的模态间不一致性和模态内不一致性。

图8展示了本发明在中英文权威数据集上与现有方法的特征分布对比。可见本发明提出的方法无论在中文数据集还是英文数据集上，都能够获得相较于现有最新方法更高的同类紧凑度与异类离散度，实现了良好的数据聚类效果，并具有明显的类别分离，多模态虚假新闻检测效果更好的同时也更具可解释性。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：山东师范大学;山东警察学院;

上一篇：一种3D打印机耗材驱动装置及驱动方法
下一篇：一种无线通信系统的抗干扰方法、设备及存储介质