掌桥专利:专业的专利平台
掌桥专利
首页

一种多模态假新闻检测方法及装置

文献发布时间:2024-04-18 20:00:50


一种多模态假新闻检测方法及装置

技术领域

本发明涉及数据挖掘领域,更具体的涉及一种多模态假新闻检测方法及装置。

背景技术

在线社交网络的快速发展日益改变了人们传统的沟通交流方式,已经成为人们日常分享新闻的主要平台。当前,社交媒体中传播的虚假新闻已经从单一的文本内容形式转变为图文并茂的多模态形式。多模态虚假新闻凭借更加强大的视觉冲击力与渲染力,导致其传播的更快、更深、更远、更广,对受众造成了更大的破坏性与危害性。因此,如何对多模态虚假新闻进行高效自动地检测,已经成为当前社交媒体分析领域中亟需解决的关键问题。

虚假新闻检测任务已经获得了长足的发展,其主要划分为单模态和多模态两种类型。单模态虚假新闻检测通常是指基于文本内容的虚假新闻检测,其主要从文本内容和元数据两个视角学习可信度特征。具体地,针对第一文本语义视角,现有方法主要学习文本内容的语义、情感、立场、意图等特征;针对元数据视角,大多数方法主要围绕元数据学习其评论语义层次、传播结构、用户画像等特征进行虚假新闻检测,这些方法目前已经获得了比较出色的性能。现有多模态虚假新闻检测方法根据特征学习阶段的不同可划分为多模态特征融合与多模态特征交互两种类型。前者的目标是将文本和视觉信息映射到同一语义空间并进行融合。但由于两者语义空间存在着差异性大的难题,导致当前方法更多地是仅采用传统的融合方式简单地将两者整合在一起,如拼接融合或加性融合。针对多模态特征交互,现有方法主要是通过注意力或交叉注意力形式促进文本和视觉的特征对齐,从而挖掘文本和图像内容之间的公共一致性语义来提升虚假新闻检测能力。

然而,尽管这些方法能够有效提升多模态虚假新闻检测能力,但其仍然存在几个较为严重的问题:1)浅交叉模态特征融合:现有方法借助诸如拼接、加性等简单融合策略不仅难以避免视觉与第一文本语义空间差异性较大的问题,还容易在两者融合之后,导致两者各自内部的语义上下文被破坏。

2)难以捕获不一致信息:现有方法更多是聚焦文本和视觉之间的相似性或一致性语义,其通常难以捕获两者之间的不一致语义。

发明内容

本发明实施例提供一种多模态假新闻检测方法及装置,通过探索多模态新闻中文本和图片之间的不一致语义作为合理的证据,进行可解释虚假新闻检测。

本发明实施例提供一种多模态假新闻检测方法,包括:

基于Transformer编码器和多头注意力机制得到由文本内容和视觉内容组成的多模式新闻的第一文本语义和第一视觉语义;

所述第一文本语义和所述第一视觉语义分别经自注意力机制、渗透交叉注意力机制依次得到文本的上下文语义、视觉的上下文语义、第一多模式融合特征、第二多模式融合特征、文本引导的多模态特征和视觉引导的多模态特征;

基于BiLSTM得到所述视觉引导的多模态特征和所述文本引导的多模态特征对应的整个多模态特征,所述整个多模态特征分别与所述第一文本语义、所述第一视觉语义经对比自注意网络、点积相似性得到文本特征与多模态不一致信息、视觉特征与多模态不一致信息;

基于门控制机制得到与所述文本特征与多模态不一致信息对应的文本特征与多模态不一致语义、与所述视觉特征与多模态不一致信息对应的视觉特征与多模态不一致语义;基于残差共享注意力机制得到所述文本特征与多模态不一致语义和所述视觉特征与多模态不一致语义对应的第一多模态不一致语义;

将所述第一文本语义、所述第一视觉语义分别和所述第一多模态不一致语义投影到多维空间中执行最大池化操作得到第一聚合向量和第二聚合向量;

基于所述第一聚合向量和所述第二聚合向量得到用于解释假新闻检测的合理证据的上下文丰富的多模态不一致语义。

优选地,所述第一视觉语义经自注意力机制、渗透交叉注意力机制得到文本的上下文语义、第二多模式融合特征和视觉引导的多模态特征;所述第一文本语义经自注意力机制、渗透交叉注意力机制得到视觉的上下文语义、第一多模式融合特征和文本引导的多模态特征;

所述第二模式融合特征和第一多模式融合特征通过下列公式确定:

所述视觉引导的多模态特征和文本引导的多模态特征通过下列公式确定:

其中,E

优选地,所述整个多模态特征与所述第一文本语义经对比自注意网络、点积相似性得到文本特征与多模态不一致信息;所述整个多模态特征与所述第一视觉语义经对比自注意网络、点积相似性得到视觉特征与多模态不一致信息;

所述整个多模态特征如下所示:

所述文本特征与多模态不一致信息、所述视觉特征与多模态不一致信息如下所示:

其中,H

优选地,所述基于门控制机制得到与所述文本特征与多模态不一致信息对应的文本特征与多模态不一致语义、与所述视觉特征与多模态不一致信息对应的视觉特征与多模态不一致语义,具体包括:

基于

基于

其中,W

优选地,所述第一多模态不一致语义通过下列公式确定:

H

其中,H

优选地,所述得到文本引导的多模态特征和视觉引导的多模态特征之后,还包括:

所述第一视觉语义和所述视觉引导的多模态特征经过KL差异策略得到视觉级别KL差异,所述第一视觉语义和所述视觉引导的多模态特征经过正交约束策略得到视觉引导的多样性多模态特征;

所述第一文本语义和所述文本引导的多模态特征分别经过KL差异策略得到文本级别KL差异,所述第一文本语义和所述文本引导的多模态特征分别经过正交约束策略得到文本引导的多样性多模态特征;

所述视觉级别KL差异、所述文本级别KL差异、所述视觉引导的多样性多模态特征和文本引导的多样性多模态特征得到最终约束损失;

所述视觉级别KL差异、所述文本级别KL差异通过下列公式确定:

所述文本引导的多样性多模态特征、视觉引导的多样性多模态特征通过下列公式确定:

所述最终约束损失通过下列公式确定:

其中,

优选地,所述将所述第一文本语义、所述第一视觉语义分别和所述第一多模态不一致语义投影到多维空间中执行最大池化操作得到第一聚合向量和第二聚合向量,具体包括:

将所述第一文本语义和所述第一多模态不一致语义投影到d

将所述第一视觉语义和所述第一多模态不一致语义投影到d

本发明实施例还提供一种多模态假新闻检测装置,包括:

第一得到单元,用于基于Transformer编码器和多头注意力机制得到由文本内容和视觉内容组成的多模式新闻的第一文本语义和第一视觉语义;

第二得到单元,用于所述第一文本语义和所述第一视觉语义分别经自注意力机制、渗透交叉注意力机制依次得到文本的上下文语义、视觉的上下文语义、第一多模式融合特征、第二多模式融合特征、文本引导的多模态特征和视觉引导的多模态特征;

第三得到单元,用于基于BiLSTM得到所述视觉引导的多模态特征和所述文本引导的多模态特征对应的整个多模态特征,所述整个多模态特征分别与所述第一文本语义、所述第一视觉语义经对比自注意网络、点积相似性得到文本特征与多模态不一致信息、视觉特征与多模态不一致信息;

第四得到单元,用于基于门控制机制得到与所述文本特征与多模态不一致信息对应的文本特征与多模态不一致语义、与所述视觉特征与多模态不一致信息对应的视觉特征与多模态不一致语义;基于残差共享注意力机制得到所述文本特征与多模态不一致语义和所述视觉特征与多模态不一致语义对应的第一多模态不一致语义;

第五得到单元,用于将所述第一文本语义、所述第一视觉语义分别和所述第一多模态不一致语义投影到多维空间中执行最大池化操作得到第一聚合向量和第二聚合向量;基于所述第一聚合向量和所述第二聚合向量得到用于解释假新闻检测的合理证据的上下文丰富的多模态不一致语义。

本发明实施例还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一项所述的多模态假新闻检测方法。

本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任意一项所述的多模态假新闻检测方法。

本发明实施例提供一种多模态假新闻检测方法及装置,该方法包括:基于Transformer编码器和多头注意力机制得到由文本内容和视觉内容组成的多模式新闻的第一文本语义和第一视觉语义;所述第一文本语义和所述第一视觉语义分别经自注意力机制、渗透交叉注意力机制依次得到文本的上下文语义、视觉的上下文语义、第一多模式融合特征、第二多模式融合特征、文本引导的多模态特征和视觉引导的多模态特征;基于BiLSTM得到所述视觉引导的多模态特征和所述文本引导的多模态特征对应的整个多模态特征,所述整个多模态特征分别与所述第一文本语义、所述第一视觉语义经对比自注意网络、点积相似性得到文本特征与多模态不一致信息、视觉特征与多模态不一致信息;基于门控制机制得到与所述文本特征与多模态不一致信息对应的文本特征与多模态不一致语义、与所述视觉特征与多模态不一致信息对应的视觉特征与多模态不一致语义;基于残差共享注意力机制得到所述文本特征与多模态不一致语义和所述视觉特征与多模态不一致语义对应的第一多模态不一致语义;将所述第一文本语义、所述第一视觉语义分别和所述第一多模态不一致语义投影到多维空间中执行最大池化操作得到第一聚合向量和第二聚合向量;基于所述第一聚合向量和所述第二聚合向量得到用于解释假新闻检测的合理证据的上下文丰富的多模态不一致语义。本发明实施例提出了跨模态不一致语义生成与解释的多模态假新闻检测方法,能够有效感知新闻图片与文本内容之间的不一致信息,提高多模态虚假新闻的检测能力;设计了跨模态渗透融合模块,其通过交互渗透的优势,深层次强化不同模态特征之间的关联融合;设计了多模态不一致学习模块,其首先借助对比学习分别增强视觉视角和文本视角的不一致语义,然后借助重解码机制强化跨模态内容中上下文丰富的不一致语义;在三个针对虚假新闻检测任务的公开数据集上进行大量实验,证实了本发明的整体有效性以及各个模块的不可或缺性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多模态假新闻检测方法流程示意图;

图2为本发明实施例提供的多模态假新闻检测方法架构示意图;

图3为本发明实施例提供的一种多模态假新闻检测装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的一种多模态假新闻检测方法流程示意图,图2为本发明实施例提供的多模态假新闻检测方法架构示意图;以下结合图1和图2为例,详细介绍本发明实施例提供的多模态假新闻检测方法。

具体地,该方法包括以下步骤:

步骤101,基于Transformer编码器和多头注意力机制得到由文本内容和视觉内容组成的多模式新闻的第一文本语义和第一视觉语义;

步骤102,所述第一文本语义和所述第一视觉语义分别经自注意力机制、渗透交叉注意力机制依次得到文本的上下文语义、视觉的上下文语义、第一多模式融合特征、第二多模式融合特征、文本引导的多模态特征和视觉引导的多模态特征;

步骤103,基于BiLSTM得到所述视觉引导的多模态特征和所述文本引导的多模态特征对应的整个多模态特征,所述整个多模态特征分别与所述第一文本语义、所述第一视觉语义经对比自注意网络、点积相似性得到文本特征与多模态不一致信息、视觉特征与多模态不一致信息;

步骤104,基于门控制机制得到与所述文本特征与多模态不一致信息对应的文本特征与多模态不一致语义、与所述视觉特征与多模态不一致信息对应的视觉特征与多模态不一致语义;基于残差共享注意力机制得到所述文本特征与多模态不一致语义和所述视觉特征与多模态不一致语义对应的第一多模态不一致语义;

步骤105,将所述第一文本语义、所述第一视觉语义分别和所述第一多模态不一致语义投影到多维空间中执行最大池化操作得到第一聚合向量和第二聚合向量;

步骤106,基于所述第一聚合向量和所述第二聚合向量得到用于解释假新闻检测的合理证据的上下文丰富的多模态不一致语义。

本发明实施例提供的多模态假新闻检测方法,其适用于社交网络环境,且能够提供大量多模态信息的社交媒体网络环境中。

本发明实施例提出了跨模态不一致语义生成与解释的多模态假新闻检测方法,挖掘多模态新闻中图片新闻与文本新闻之间的不一致语义提升检测能力。具体地,本发明包括了五个模块,如图2所示:

模块1:文本与视觉表示模块:该模块主要是通过预训练模型分别对新闻的文本序列与图像内容进行特征表示学习。

模块2:跨模态渗透融合模块:该模块设计了基于视觉视角和文本视角的跨模态渗透融合层,其由编码块、交互渗透融合块和特征约束机制组成,用来深层次整合多模态新闻内容。为了强化多模态特征深层次融合,跨模态渗透融合模块采用交互指导关联的方式促进一种模态特征向另一种模态特征渗透融合,其借助约束机制能够保证不破坏被融合模态特征语义上下文的前提下,加强两种模态语义深层次关联融合。

模块3:多模态不一致学习模块:该模块由多模态约束增强、门控机制、残差共享注意力机制三种结构组成,其主要探索多模态假新闻中的不一致信息。为了探索多模态特征之间的不一致语义,多模态不一致学习模块借助了局部和全局的思想,通过构建多模态约束增强机制分别发现文本视角和视觉视角的不一致性,然后设计了残差共享注意力机制促进这两类不一致语义的特征交互共享从而捕获多模态全局不一致语义。

模块4:解释推理模块:该模块设计了文本级和视觉级的解释推理层,促进单模态语义和多模态不一致语义之间的交互推理,解释推理模块学习其学习不一致语义周围丰富的上下文特征并将它们整合起来,从而转变为用户可理解的可解释证据。

模块5:任务学习模块:该模块借助上述模块学习到的不一致语义进行虚假新闻检测。

在实际应用中,一条多模式新闻由文本内容和视觉内容组成。

在步骤101之前,对于文本表示,本发明实施例提出学习基于预先训练的语言模型(LM)的标记嵌入来提取语言特征。举例来说,设T=([CLS],t

对于视觉表示,本发明实施例提出使用流行的预训练骨干网络(即预训练的Faster R-CNN)从新闻图像中提取感兴趣区域(RoI)池特征,以获得细粒度的对象感知表示e

进一步地,为了深度整合多模态新闻内容,本发明实施例设计了用于视觉和文本的跨模态渗透融合层,该融合层由编码块、交互式渗透融合块和特征约束机制组成。

具体地,编码块包含文本编码块与视觉编码块。在文本编码块中,本发明实施例借助Transformer编码器作为文本编码块,从而尽可能多地捕捉文本序列的内部长程依赖关系和结构特征,通过公式(1)可以得到文本嵌入和图像嵌入:

其中,Q

在步骤101中,为了提高模型在捕捉文本序列内部依赖关系方面的并行性,多头注意力机制通过不同的线性投影将查询矩阵、键矩阵和值矩阵映射m次,然后并行执行,得到公式(2)和第一文本语义:

Head

E

其中,所有的

进一步地,对于新闻图像的编码,考虑到新闻图像中对象之间的密切关联,本发明实施例利用自注意力机制(Transformer编码器的核心组件)来学习任意两个对象之间的依赖关系,通过公式(4)得到第一视觉语义:

E

其中,

在本发明实施例中,考虑到第一文本语义和第一视觉语义的直接集成很容易导致每个单一模态中上下文语义的显著消失,本发明实施例分别为第一文本语义和第一视觉语义设计了交互式渗透融合块,即文本引导的交互式渗透融合模块和视觉引导的交互式渗透融合模块。本发明实施例的目标是融合另一种模态的语义特征,同时确保当前模态的内部语义依赖性,从而充分增强多模态特征的语义保留和融合适应性。

具体地,交互渗透融合块由自注意力网络和渗透交叉注意力网络组成。其中,自注意力网络捕获当前模态的编码特征的内部上下文语义,而渗透交叉注意力网络促进另一模态中的相关语义渗透到当前模态中,从而增强多模态交互和融合。

在步骤102中,第一视觉语义经自注意力机制、渗透交叉注意力机制依次得到文本的上下文语义、第二多模式融合特征和视觉引导的多模态特征,其中,文本的上下文语义通过公式(5-1)确定:

其中,

在实际应用中,渗透式交叉注意力网络主要从两个角度将另一种模态整合到当前模态中。一种是采用交叉关注的查询矩阵建立渗透交互,另一种是通过加权形式建立渗透融合,新闻文本的学习上下文语义和视觉引导的多模式融合特征,也可以称为第二多模式融合特征通过下列公式(6-1)确定:

进一步地,视觉引导的多模态特征通过下列公式(7-1)确定:

其中,λ是一个调整两者权重的超参数,负责控制多模态特征中相关语义的吸收,以纳入文本上下文语义,

本发明实施例学习了视觉引导的多模态特征

第一文本语义经自注意力机制、渗透交叉注意力机制依次得到视觉的上下文语义、第二多模式融合特征和文本引导的多模态特征,其中,视觉的上下文语义通过公式(5-2)确定:

其中,

在实际应用中,渗透式交叉注意力网络主要从两个角度将另一种模态整合到当前模态中。一种是采用交叉关注的查询矩阵建立渗透交互,另一种是通过加权形式建立渗透融合,新闻视觉的学习上下文语义和文本引导的多模式融合特征,也可以称为第一多模式融合特征通过下列公式(6-2)确定:

进一步地,文本引导的多模态特征通过下列公式(7-2)确定:

其中,λ是一个调整两者权重的超参数,负责控制多模态特征中相关语义的吸收,以纳入文本上下文语义,

本发明实施例中文本引导的交互式渗透融合块可以学习文本引导的多模态特征

进一步地,考虑到跨模态特征融合可能会导致偏离原始的单模态语义,为了缓解这一问题,本发明实施例设计了特征约束机制来联合约束单模态特征(即第一文本语义和第一视觉语义)和多模态特征。这一机制包括两种策略:

第一种策略:KL差异性策略侧重于增强单模态特征和多模态特征之间的分布一致性。具体地,第一视觉语义和视觉引导的多模态特征经过KL差异策略得到视觉级别KL差异,第一文本语义和文本引导的多模态特征分别经过KL差异策略得到文本级别KL差异,其中,文本级别KL差异如公式(8)所示,视觉级别KL差异如公式(9)所示:

公式(8)和公式(9)中,D

第二种策略:正交约束策略主要用于避免单模态特征和多模态特征之间的过度相似,以确保融合后的多模态特征的多样性。本发明之所以确保多模态特征的多样性,是因为KL散度一致地增强了单模态和多模态特征之间的一致性,这可能导致多模态特征收敛到只剩下单模态类型的特征,从而影响多模态特征融合的质量。具体地,所述第一视觉语义和视觉引导的多模态特征经过正交约束策略得到视觉引导的多样性多模态特征;第一文本语义和文本引导的多模态特征分别经过正交约束策略得到文本引导的多样性多模态特征,其中,文本引导的多样性多模态特征如公式(10)所示,视觉引导的多样性多模态特征如公式(11)所示:

公式(10)和公式(11)中,

这样,文本级别和视觉级别的最终约束损失计算通过下列公式确定:

其中,λ

本发明实施例设计了由三种结构组成的多模态不一致性学习层来探索多模态虚假新闻中的不一致信息。首先,提出了两个多模态对比增强块来捕捉局部视图的不一致性,即分别从文本和视觉角度发现不一致的语义。然后,构造了一个门控机制来过滤和净化在这两种类型的局部不一致语义中捕获的噪声。最后,本发明实施例设计了残差共享注意力块,以促进这两种类型的不一致语义之间的相似特征共享和差异语义互补,从而全面挖掘它们的全局多模态不一致语义。

在步骤103中,为了深入捕获单模态和多模态信息之间不一致的语义,本发明实施例为文本和视觉模态构建了多模态对比增强块。实施例本发明首先采用BiLSTM将视觉引导的多模态特征

进一步地,本发明实施例设计了对比自注意力网络,将新闻的整个多模态特征H

F

在实际应用中,给定一个批次集

其中,τ控制不同情况下概率分布的临时超参数。

进一步地,基于上述确定文本特征与多模态不一致信息的过程,也可以确定视觉特征与多模态不一致信息,具体地,视觉特征与多模态不一致信息,可以通过下列公式确定:

进一步地,通过下列公式确定最终的多模态实例对比损失:

在实际应用中,由于单模态和多模态特征之间存在一定数量的差异性特征,因此,可通过这种对比学习来不断加强它们之间的不一致语义,从而分别提取文本和多模态信息之间的鲁棒不一致语义

在步骤104中,为了净化这两种类型的不一致语义,本发明实施例构建了一个单一的门控机制来过滤无用或有噪声的特征。特别地,设计单门机制有两个原因,一个是不一致语义已经通过多个深层网络学习了大量的依赖关系,而设计复杂的门控机制可能会破坏它们固有的依赖结构;另一个是单门控机制不仅可以有效地过滤噪声且更便于训练。

具体地,基于门控制机制得到文本特征与多模态不一致信息对应的文本特征与多模态不一致语义,以

进一步地,基于门控制机制得到视觉特征与多模态不一致信息对应的视觉特征与多模态不一致语义,以

上述公式中,W

进一步地,本发明实施例设计的残差共享注意力块依靠共享交叉注意力来促进相似特征的共享融合,并利用残差机制来加强差异性语义在两类提纯的不一致语义中的互补性。

具体地,基于残差共享注意力机制得到文本特征与多模态不一致语义和视觉特征与多模态不一致语义对应的第一多模态不一致语义。

H

H

其中,H

为了向用户提供可解释的证据来揭示假新闻的虚假部分,本发明实施例不仅需要利用上述层获得的多模态不一致语义,还需要学习这些不一致语义的上下文信息,从而将其整合为更易于理解的证据语义。为此,本发明实施例设计了文本级别和视觉级别的解释推理层,以促进单模语义和多模态不一致语义之间的交互推理,从而学习富含上下文的不一致语义,作为可解释假新闻检测的有效证据。

在步骤105中,考虑到融合的第一文本语义和第一多模态不一致语义位于两个不同的语义空间中,首先将第一文本语义和第一多模态不一致语义投影到d

F

F

其中,F

为了捕获投影文本级别上下文丰富的多模态不一致语义,本发明实施例中,在投影文本级别语义的基础上对齐了投影多模态不一致语义。具体地,本发明实施例之后,将转换多模态不一致语义定义为Q

其中,V

随后,对文本级别上下文丰富的多模态不一致语义执行最大池化操作,获得文本级别上下文丰富的多模态不一致语义对应的第一聚合向量,具体如公式(29-1)所示:

进一步地,将第一视觉语义和第一多模态不一致语义投影到d

F

F

其中,F

为了捕获投影视觉级别上下文丰富的多模态不一致语义,本发明实施例中,在投影视觉级别语义的基础上对齐了投影多模态不一致语义。具体地,本发明实施例之后,将转换多模态不一致语义定义为Q

其中,V

随后,对投影级别上下文丰富的多模态不一致语义执行最大池化操作,获得投影级别上下文丰富的多模态不一致语义对应的第二聚合向量,具体如公式(29-2)所示:

在步骤106中,基于第一聚合向量和第二聚合向量得到公式(30)所示的上下文丰富的多模态不一致语义,在本发明实施例中,公式(30)所示的上下文丰富的多模态不一致语义可以用于解释假新闻检测的合理证据

在步骤106之后,本发明实施例中,使用softmax函数来获得模型训练的概率分布,其中损失驱动模型最小化单个训练实例的交叉熵误差,其中y为标注标签:

l

其中,W和b是可训练的参数。

进一步地,为了保证整个模型各模块的有效协同,本发明实施例中,将上述多个损失整合起来联合训练,具体如公式(33)所示:

其中,λ

综上所述,本发明实施例提供一种多模态假新闻检测方法及装置,本发明实施例提出了跨模态不一致语义生成与解释的多模态假新闻检测方法,能够有效感知新闻图片与文本内容之间的不一致信息,提高多模态虚假新闻的检测能力;设计了跨模态渗透融合模块,其通过交互渗透的优势,深层次强化不同模态特征之间的关联融合;设计了多模态不一致学习模块,其首先借助对比学习分别增强视觉视角和文本视角的不一致语义,然后借助重解码机制强化跨模态内容中上下文丰富的不一致语义;在三个针对虚假新闻检测任务的公开数据集上进行大量实验,证实了本发明的整体有效性以及各个模块的不可或缺性。

表1为本发明实施例提供的在Weibo、Twitter和PHEME三个数据集下的实验性能图;表2为本发明实施例提供的发明的不同模块在Weibo、Twitter和Politifact三个数据集下的分离性能对比图;基于表1和表2可以确定本发明实施例提供的一种多模态假新闻检测方法不仅进行可解释虚假新闻检测,而且和其他方法相比具有较强的优势。

表1为本发明与基线模型的性能比较图

表2为本发明的分离的不同模块的性能比较图

与现有技术相比,本发明具有以下创新:

创新1:本发明实施例提出了跨模态不一致语义生成与解释网络用于多模态假新闻检测,能够有效感知新闻图片与文本内容之间的不一致信息,提高多模态虚假新闻的检测能力。

创新2:为了加强对不同类型的多模态特征的深层次融合,代替传统的直接融合方式,本发明创新性设计了跨模态渗透融合模块,其通过交互渗透的优势,深层次强化不同模态特征之间的关联融合。

创新3:为了探索多模态特征之间的不一致语义,本发明实施例设计了多模态不一致学习模块,其首先借助对比学习分别增强视觉视角和文本视角的不一致语义,然后借助重解码机制强化跨模态内容中上下文丰富的不一致语义。

创新4:本发明实施例在三个针对虚假新闻检测任务的公开数据集上进行大量实验,证实了本发明的整体有效性以及各个模块的不可或缺性。

基于同一发明构思,本发明实施例提供了一种多模态假新闻检测装置,由于该装置解决技术问题的原理与一种多模态假新闻检测方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。

如图3所示,该装置主要包括第一得到单元301,第二得到单元302,第三得到单元303,第四得到单元304和第五得到单元305。

第一得到单元301,用于基于Transformer编码器和多头注意力机制得到由文本内容和视觉内容组成的多模式新闻的第一文本语义和第一视觉语义;

第二得到单元302,用于所述第一文本语义和所述第一视觉语义分别经自注意力机制、渗透交叉注意力机制依次得到文本的上下文语义、视觉的上下文语义、第一多模式融合特征、第二多模式融合特征、文本引导的多模态特征和视觉引导的多模态特征;

第三得到单元303,用于基于BiLSTM得到所述视觉引导的多模态特征和所述文本引导的多模态特征对应的整个多模态特征,所述整个多模态特征分别与所述第一文本语义、所述第一视觉语义经对比自注意网络、点积相似性得到文本特征与多模态不一致信息、视觉特征与多模态不一致信息;

第四得到单元304,用于基于门控制机制得到与所述文本特征与多模态不一致信息对应的文本特征与多模态不一致语义、与所述视觉特征与多模态不一致信息对应的视觉特征与多模态不一致语义;基于残差共享注意力机制得到所述文本特征与多模态不一致语义和所述视觉特征与多模态不一致语义对应的第一多模态不一致语义;

第五得到单元305,用于将所述第一文本语义、所述第一视觉语义分别和所述第一多模态不一致语义投影到多维空间中执行最大池化操作得到第一聚合向量和第二聚合向量;基于所述第一聚合向量和所述第二聚合向量得到用于解释假新闻检测的合理证据的上下文丰富的多模态不一致语义。

应当理解,以上一种多模态假新闻检测装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种多模态假新闻检测装置所实现的功能与上述实施例提供的一种多模态假新闻检测方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。

本发明另一实施例还提供一种计算机设备,计算机设备包括:处理器和存储器;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行上述方法实施例所示的方法流程中一种多模态假新闻检测方法的各个步骤。

本发明另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在计算机设备上运行时,使得计算机设备执行上述方法实施例所示的方法流程中一种多模态假新闻检测方法的各个步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种基于UWB的双基站二维定位方法
  • 基于一体式UWB基站的轻量级二维高精度定位方法
技术分类

06120116543144