掌桥专利:专业的专利平台
掌桥专利
首页

一种基于对比图学习的跨文档虚假信息检测方法

文献发布时间:2024-04-18 20:02:18


一种基于对比图学习的跨文档虚假信息检测方法

技术领域

本发明属于人工智能技术领域,尤其涉及一种基于对比图学习的跨文档虚假信息检测方法。

背景技术

信息化智能化时代的到来使得世界成为“有形空间”与“无形空间”的结合,网络空间的存在极大便利了人们的生活。但不可忽视的是,每个人都能发布其肆意编造、拼接、臆想的信息,导致当前网络空间中充斥着大量的虚假信息,其传播对各行各业都造成了或直接或间接的负面影响。因此,如何有效检测虚假信息成为了学界热议的话题。

现有针对虚假信息检测的研究大体上可分为三类:基于社交媒体的检测方法,主要以用户账户特征和评论等传播行为作为分析起点;基于文本内容的检测方法,主要以虚假信息本身的文本特征作为分析起点;基于多模态信息的检测方法,通过引入与目标文本相关的其他模态信息展开分析。然而,上述工作大都忽视了虚假信息传播时的关键特征,即其在多数时候具备超越客观事实的内容新奇性,迎合了大众对新鲜感的追求,故而受到了广泛关注。

内容新奇性是一个比较的概念,其成立与否立足于虚假信息传播时的整体舆论环境(即与目标信息相关的客观事实或其他虚假信息)。单一信息往往不足以支撑真实性的判断,且许多虚假信息传播源会采取大部分内容为真,仅有事件细节存在谬误的策略,在保留新奇性的同时,尽可能增加虚假信息的隐蔽性。故而,对该特性关注的缺失,导致了以往工作大都孤立地分析判别目标信息的真实性,未能把握舆论环境特征,极大增加了检测难度。

因此,在检测虚假信息时,应将舆论环境同步纳入考虑。而现有研究中,仅有Wu等人注意到舆论环境,提出了一种先基于事件关联性构建跨文档知识图谱,再利用异构图神经网络进行检测的方案。尽管跨文档图谱能够建模不同信息之间的关联性,但其未能针对内容特异性进行定制化设计,导致对舆论环境的使用更类似于外部信息增强。

当前针对虚假信息检测的研究,从主要依据数据源类型的角度出发,可分为三类。

基于社交媒体的虚假信息检测:

与目标相关的社会语境包含丰富的用户资料、社会关系等信息,有助于识别虚假信息。基于立场的模型利用用户的意见来推断信息的真实性。Tacchini等人用“喜欢”立场信息构建了用户和帖子的二分网络,并提出了半监督概率模型来预测帖子是恶作剧的可能性。杨等人从传播特征、用户特征、文本特征等多个维度构建特征向量,将该突发事件看作一个整体,对这一事件中各个类型的虚假信息进行识别。基于传播的虚假信息检测方法基于一个基本假设,即信息事件的可信度与相关社交媒体帖子的可信度高度相关,在同质和异质可信度网络都已经建立了传播过程模型。例如,Zhang等人构建了一个由信息文章、创作者和信息主体组成的异构网络,并提出了一个深度扩散网络模型,将网络结构信息融合起来,同时检测虚假信息文章、创作者和主体。基于文本内容的虚假信息检测:

文本内容中包含着区分虚假和真实信息的关键线索。因此,部分研究提取文本写作的特定风格,如词汇和句法特征和精心炮制标题等。而为避免人工特征工程泛化性不强的问题,神经网络被引入到检测中。Ibrain等人将Bi-LSTM和CNN等深度神经网络应用于虚假信息检测。但是,这些研究没有考虑真实信息和虚假信息之间不同的语句交互模式。Vaibhav等人提出将文档建模为捕捉句子交互的句子图,并应用图自注意力网络来学习文档表示。Pan等人提出从正面和负面信息中构建知识图,并应用TransE学习三元组分数进行虚假信息检测。文本的情感倾向同样有助于检测虚假信息,王等人以预训练语言模型作为基准,集成了两种融合情感特征的模块,增强了检测结果。基于多模态信息的虚假信息检测:

不同模态的信息对比在检测中同样发挥着重要作用。常用的检测多模态融合框架是从预训练VGG19中提取一般视觉特征,然后简单地将其与文本特征拼接。基于此框架,Wang等人引入事件分类作为虚假信息分类的辅助任务,来指导学习事件不变的多模态特征,提高了泛化能力。而Dhruv等人将该框架修改为多模态变分自编码器,以学习用于分类的多模态内容的共享表示;Singhal等人则率先将预先训练语言模型引入多模态框架。此外,Jin等人提出了神经元层面的注意机制,Zhang等人采用注意机制和多通道CNN融合多模态信息,这两个工作侧重于多模态内容的单向增强,即在文本引导下突出图像的重要区域。而Song等人利用协同注意力转换器对文本和图像之间的双向增强进行建模,Wang等人提取图像的对象,并使用GCN建模单词和对象标签之间的相关性。

总结而言,当前针对虚假信息检测的研究,主要依赖社交平台属性以及文本内容,部分涉及多模态信息。但均未关注虚假信息的内容新奇性特征,因而也鲜少考虑利用目标信息当时的舆论环境。

发明内容

有鉴于此,本发明提出一种基于对比图学习的跨文档虚假信息检测方法(

本发明公开地基于对比图学习的跨文档虚假信息检测方法,包括以下步骤:

接收同一主题下的文档族S={d

从每个文档d∈S中,提取事件E(d)={e

在文档级和事件级两个层次上进行虚假信息检测;文档级检测的目的是预测每个文档d∈S是真还是假;事件级检测旨在预测每个事件e∈E(d),d∈S是真还是假;

基于每一文档的内容建立文档内知识图谱,随后再搭建跨文档知识图谱,最后利用图神经网络对知识图谱进行编码,并采用高速公路网络进行进一步信息融合;

基于上一步获得的融合后的表示,进行一次非线性变换,随后在向量空间以扩大正样本之间相似性、正负样本之间差异性为目标引导模型学习,以充分差异化客观事实和虚假信息之间的差异性;

输出虚假信息文档的识别结果。

进一步地,基于同一主题下文档集构建的文档内知识图谱和跨文档知识图谱得到异构图,异构图中包含实体、事件、事件集、句子和文档五种类型的节点;

构建文档内知识图谱时,利用联合信息抽取系统OneIE,并进行实体链接和实体共指消,最后获得一个文档图谱,其中实体和事件是节点,关系是实体之间的边;

构建跨文档知识图谱时,利用跨文档事件共指解析系统;然后,在每个事件节点和相应的主题节点之间添加一条边,以支持跨文档共指事件之间的推理;此外,为了表示每个实体或事件的来源,以融入不同粒度的特征表示,还设置了实体或事件来源句子和文档两个节点,并将其连接到与之对应的相关实体和事件节点上;编码时采用BERT来初始化知识图谱中的节点和边缘表示;

经历上述步骤,获得节点。

进一步地,采用图神经网络对所述节点进行进一步特征编码、传递。

进一步地,异构图上的消息传递通过两个阶段来实现:聚合和合并;聚合阶段旨在从每个节点的邻居中获取聚合信息,合并阶段试图将生成的信息与原始表示相结合;此外,这些阶段迭代进行。

进一步地,定义异构图的聚合和合并公式如下:

其中,f

进一步地,为避免最终获得每个节点的表示相似,应用高速公路网络来有效融合注意力信息,数学形式如下:

其中,

进一步地,针对文档级检测,选取的正样本为当前主题下和目标信息同一类型的其他文档;针对事件级检测,选取的正样本为当前主题下,所有文档中和目标信息同一类型的其他事件。

进一步地,为提高模型的泛化能力,不直接采用获得的融合向量作为输入,而是对其进行一次非线性映射,具体如下:

其中,

进一步地,通过以下方法定义锚及其相关正负样本的损失函数:

其中,L

进一步地,为使得检测更具针对性,使用两个检测器分别进行训练和预测;此外遵循多任务学习框架,以端到端的方式训练所有模块。

本发明的有益效果如下:

在本发明的相关技术领域中,首次以内容新奇性作为解决虚假信息检测任务的切入点,分析了其特征并定制化提出了方案;

本发明所设计的检测方法(CAL),包含两个创新模块:异构图模块和对比学习模块;对比学习模块对两个层次的检测结果均有贡献。这充分说明了,扩大客观事实和虚假信息之间表示差异性这一思路,有效建模了虚假信息的内容新奇性,增强了模型对不同类别文档进行判定的能力。

在文档级别和事件级别两类,三个数据集上的实验均证明了本发明所提方案的优良性。

附图说明

图1本发明的框架图。

具体实施方式

下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。

为更好地应对虚假信息检测任务,本发明聚焦于建模内容特异性,从两个角度出发提出了一种基于对比图学习的跨文档虚假信息检测方法CAL(

一方面,关注客观事实与虚假信息之间的特征差异性。舆论环境中客观事实之间存在逻辑、规律关联性,能够互相补充验证,而其与虚假信息则存在程度不一的差异性。这既是内容特异性的核心,也是虚假信息检测的关键。故而,为促使模型精准捕捉该差异性,本发明引入对比学习的方法,将同一主题下,目标信息之外的客观事实作为样本正例,虚假信息作为样本负例。以引导模型在训练过程中,尽可能扩大这两类信息之间的差异性,更易于发现异常特征。

另一方面,关注特定舆论环境下的语义氛围。在建模舆论环境时,由于文档、段落、事件和实体等不同层面包含不同粒度的语义特征,并可能从不同视角体现内容特异性。因此,为尽可能囊括这些异构信息,本发明采用了异构图构建的方案,将同一主题下不同文档中不同粒度的对象统一建立在一张图中。以为检测提供充分的信息支撑。

给定一组同一主题下的文本文档,跨文档虚假信息检测旨在检测其中包含的虚假信息。

形式上,设S={d

本发明在文档级和事件级两个层次上进行虚假信息检测。文档级检测的目的是预测每个文档d∈S是真还是假。事件级检测是一种更细粒度的任务,旨在预测每个事件e∈E(d),d∈S是真还是假。如前文所言,事件级检测粒度更细,信息更具欺骗性。

本发明所提CAL如图1所示,文档1和文档2代表客观事实,而文档3代表虚假信息。在输入文档后,异构图模块首先基于每一文档的内容建立文档内知识图谱,随后再搭建跨文档知识图谱,最后利用GNN对知识图谱进行编码,并采用高速公路网络(Highwaynetwork)进行进一步信息融合。

对比学习模块基于上一步获得的融合后的表示,进行一次非线性变换,随后在向量空间以扩大正样本之间相似性、正负样本之间差异性为目标引导模型学习,以充分差异化客观事实和虚假信息之间的差异性。

异构图模块

异构图中主要包含实体、事件、事件集、句子和文档五种类型的节点,这些节点来自基于同一主题下文档集构建的文档内知识图谱和跨文档知识图谱。

构建文档内知识图谱时,主要利用联合信息抽取系统OneIE(A Joint NeuralModel for Information Extraction with Global Features,Ying Lin,Heng Ji,http://blender.cs.illinois.edu/software/oneie/),并进行实体链接和实体共指消。最后获得一个文档图谱,其中实体和事件是节点,关系是实体之间的边。构建跨文档知识图谱时,主要利用跨文档事件共指解析系统。然后,在每个事件节点和相应的主题节点之间添加一条边,以支持跨文档共指事件之间的推理。此外,为了表示每个实体或事件的来源,以融入不同粒度的特征表示,还设置了实体或事件来源句子和文档两个节点,并将其连接到与之对应的相关实体和事件节点上。编码时采用BERT来初始化知识图谱中的节点和边缘表示。

经历上述步骤,获得节点后,本发明采用图神经网络(GNN,Graph NeuralNetwork)进行进一步特征编码、传递。

通常,图上的消息传递可以通过两个阶段来实现:聚合和合并。第一阶段旨在从每个节点的邻居中获取聚合信息,第二阶段试图将生成的信息与原始表示相结合。此外,这些阶段可以迭代进行。因此,定义异构图的聚合和组合公式:

其中,f

由于GNN的结构,该过程可能会遇到平滑问题,即最终获得每个节点的表示相似。这个问题会增大模型检测虚假信息的难度,使其无法做出正确的判断。因此,本发明应用高速公路网络来有效融合注意力信息,数学形式如下:

其中,

对比学习模块

对比学习的核心思想在于不引入外部信息/知识的情况下利用数据集原本的特征,针对目标文档构建正负样本集,以在训练过程中引导模型更好地区分不同类别样本之间的差异性。它在知识图谱表示学习、预训练语言模型训练、图像分类等任务中得到了广泛应用,并被证明可以有效地增强表示。本发明旨在探索对比学习的潜在应用,以准确检测出目标信息的真实性。

在对比学习算法中,样本有三种类型:锚点、正样本和负样本。由于本发明致力于应对文档级和事件级的虚假信息检测,故而在构建正样本和负样本时,根据目标任务的不同,选择的方式也不同。具体来说,针对文档级检测,选取的正样本为当前主题下,和目标信息同一类型的其他文档。如图1中所示当目标信息为文档1时,正样本为同样描述客观事实的文档2,负样本为虚假信息的文档3。针对事件级检测,选取的正样本为当前主题下,所有文档中和目标信息同一类型的其他事件。

为提高模型的泛化能力,本发明不直接采用上一模块中获得的融合向量作为输入,而是对其进行一次非线性映射,具体如下:

其中,

本发明通过以下方法定义了锚及其相关正负样本的损失函数:

其中,L

为使得检测更具针对性,分别定制了两个检测器,进行训练和预测。总体而言,CAL遵循多任务学习框架,因此以端到端的方式训练所有模块。

本部分为实验部分,以验证本发明的技术效果。

本发明的实验数据来自Wu等人提出的两个层次(文档级和事件级)三个数据集。IED是一个复杂事件语料库,其中每个复杂事件都指的是一个真实世界的故事,并由多个文档描述。因此,一个复杂事件可以看作一个文档集合。TL17和Crisis是包含多个新闻时间线的两个时间线摘要数据集。每个时间轴包含多个文档,描述了一个不断演变的长期事件,如H1N1流感,因此可以被视为一个文档集合。详细数据集统计如表1所示。

表1数据集统计表

在文档级虚假信息检测任务中,本发明采用了三个基线模型:对句子间依存树进行建模的HDSF,基于Transformer的检测器GROVE,基于事件图神经网络的EGR。

在事件级虚假信息检测任务上,本发明采用了四个基线模型:随机猜测,基于python中Random函数实现;逻辑回归,使用手工设计的特征来表示事件;BERT,对事进行编码预测;EGR,利用异质图神经网络在两个层次上进行检测。

在评估指标选择上,文档级检测采用F1作为标准。而事件级检测,由于存在标签不平衡问题,故使用F1值和ROC曲线下面积(AUC)对结果进行评估。

表2展示了文档级虚假信息检测结果,可以看出,相较现有模型,CAL在三个数据集上均取得了最高的结果。

表2文档级虚假信息检测结果表,指标为F1(%)

CAL在得分上比较HDSF这一基于传统句法分析方法的大幅提升,体现了神经网络在虚假任务检测任务上的优良性能。而相较GROVER的结果提升,则表明GNN在该任务上比序列编码结构的transformer更具优势。

对比EGR的显著提升,进一步证明了本发明定制化设计的对比学习切实捕捉到了该任务的关键特征。更能够捕捉到虚假信息和客观事实之间在特征空间里的差异性,进而准确判定目标信息的真实性。

表3事件级虚假信息检测结果表,指标为F1和AUC(%)

表3展示了事件级虚假信息检测结果,可以看出,随机猜测的表现最差,逻辑回归和BERT取得了相对满意的性能,但CAL明显优于所有基线方法。

不难看出,相较文档级检测,事件级检测的整体结果显著下降。这证明了该任务设定下,模型更难捕捉不同事件间的细微差别,因为真实事件和虚假事件可能仅是个别实体上的差异。而CAL超过其他方法的最终结果,再次证明了对比学习在此类任务下的适配性和优良性。

为了进一步证明所设计模块的优良性,本发明还在删除对比学习模块的基础上进行了消融实验,结果如表4所示。

表4消融实验结果表,指标为F1(%)

从结果不难看出,对比学习模块对两个层次的检测结果均有贡献。这充分说明了,扩大客观事实和虚假信息之间表示差异性这一思路,有效建模了虚假信息的内容新奇性,增强了模型对不同类别文档进行判定的能力。

本发明聚焦于虚假信息的内容新奇性这一关键特征,提出了一种基于对比图学习的跨文档虚假信息检测方法,能够有效利用舆论环境,显著提升模型识别客观事实和虚假信息之间差异性的能力。实验结果表明,CAL在不同层次的不同数据集上均能取得最优效果。

本发明的有益效果如下:

在本发明的相关技术领域中,首次以内容新奇性作为解决虚假信息检测任务的切入点,分析了其特征并定制化提出了方案;

本发明所设计的检测方法(CAL),包含两个创新模块:异构图模块和对比学习模块;对比学习模块对两个层次的检测结果均有贡献。这充分说明了,扩大客观事实和虚假信息之间表示差异性这一思路,有效建模了虚假信息的内容新奇性,增强了模型对不同类别文档进行判定的能力。

在文档级别和事件级别两类,三个数据集上的实验均证明了本发明所提方案的优良性。

本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。

而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。

综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术分类

06120116580863