掌桥专利:专业的专利平台
掌桥专利
首页

基于全局图瓶颈表示的图自监督学习方法

文献发布时间:2024-04-18 19:58:21


基于全局图瓶颈表示的图自监督学习方法

技术领域

本发明涉及计算机图像处理技术,具体涉及一种基于全局图瓶颈表示的图自监督学习方法。

背景技术

传统的深度学习方法被应用在提取欧式空间数据的特征方便取得了巨大的成功,但许多实际应用场景中的数据是从非欧式空间生成的。图神经网络可以对这种非欧式空间生成的数据需要有效的分析。图神经网络同时使用数据的特征和结构,通过聚合邻居节点信息来更新当前的节点特征,获得节点表示后,将其应用于图分类、节点分类、链接预测等下游任务。

传统图神经网络如图卷积网络(GCN)通过卷积操作聚合邻居节点的信息,堆叠多层不断更新自身节点的表示;图注意力网络(GAT)对节点的邻居分配不同的权重,通过多头注意力聚合邻居节点的信息;这种图神经网络的核心是定义确定性传播操作。目前大多图神经网络采用全聚合的策略,即节点接收来自邻居节点的所有属性信息。然而,这种聚合方式考虑的重点放在了网络的局部结构关系(如一阶相似性或二阶相似性),容易遇到优化的不稳定性,如梯度消失和表示过度平滑,从而在表示远距离的依赖关系方面很困难。

图随机神经网络(GRAND)设计了一种随机传播策略来获得图数据增强,利用一致性正则化来优化不同数据增强的节点的预测一致性。GRAND减轻了对节点的过度依赖和非鲁棒性的问题,但对于全局信息关系的构建上仍有不足。近年来,图对比学习受到越来越多的关注,对比学习的主要思想是在适当的变换下使表征彼此一致。对于图数据,试图重建顶点的邻接信息的传统方法可以被视为一种局部对比。而在局部表示和全局表示之间进行对比学习,以更好地捕捉结构信息。图上的对比多视图表示学习(MVGRL),实验证明相比于全局信息-全局信息的对比和多尺度的对比,全局信息-节点的对比效果更好,因此通过池化获得全局信息之后,最大化节点和全局互信息的目标函数来进行对比学习。

综上,现有的图神经网络模型有以下问题:

(1)、传统的图神经网络的聚合操作是全聚合的策略,即确定性传播,当图中节点或者边信息出现噪声时,全聚合的策略就会聚合到错误的信息,因此降低网络的性能。

(2)、现有的随机注意网络,在数据增强后的图数据上进行,每个增强后的图数据包含不同的信息,没有很好的捕获全局依赖关系。

(3)、现有的对比学习的全局信息一般是通过池化来获得,没有通过学习获得。

发明内容

发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于全局图瓶颈表示的图自监督学习方法,用于处理非欧式空间数据(如社交网络、引文网络等),从信息瓶颈的角度利用’cls’学习图的全局瓶颈信息来替代传统的池化操作,同时提高模型的性能。

技术方案:本发明的一种基于全局图瓶颈表示的图自监督学习方法,包括以下步骤:

步骤(1)、输入待分类的原始图数据,包括原始图的邻接矩阵A和节点特征矩阵X;邻接矩阵A的维度为N×N,N是指原始图中节点的个数,节点特征矩阵X的维度为N×d,d是节点的特征维度;

步骤(2)、初始化一个全局共享的cls节点,其向量表示为x

步骤(3)、执行两次不同的图数据增强操作,并分别进行构图以获得两个新视图,然后在新视图数据上进行特征传播;此处经过图数据增强之后,部分节点的特征被删除(即这些节点所有维度的特征值变成0),两次图数据操作的区别为:选中删除特征的节点不同;具体过程为:

步骤(3.1)、两次图数据增强操作分别以不同随机概率对节点特征矩阵进行随机删除,以生成不同的扰动特征矩阵;

步骤(3.2)、构图操作是指将步骤(2)所得cls节点与扰动特征矩阵中所有节点连边得到两个不同的新视图;

步骤(3.3)、对于步骤(3.2)所得新视图分别通过图卷积神经网络进行特征传播,新视图每个节点的特征随机地与其高阶邻居的特征进交互,而cls节点则聚合图中所有节点的信息后回传到每个节点,这样会降低节点对某些特定节点的依赖,同时可以捕获全局信息;

步骤(4)、将步骤(3)输出的特征输入多层感知器分类模块得到最终的输出,也就是得到原始图中每个节点的分类结果;

步骤(5)、计算有标签节点的监督损失,以及一致性正则化,通过多次迭代训练得到最后的分类结果。

进一步地,所述步骤(3)数据增强以及特征传播的具体细节如下:

首先,为每个节点v

然后,为每个图添加cls节点

式(1)中,n表示图中节点的个数,A为n×n的邻接矩阵,A

接着,使用图卷积网络进行特征传播,如公式(2)所示:

式(2)中,I表示单位矩阵;

进一步地,所述步骤(4)多层感知器分类模块包括两层MLP分类器,对每个的图特征进行分类预测的过程如公式(3):

其中,θ

进一步地,所述步骤(5)计算监督、一致性正则化函数定义如下:

其中,公式(4)中n表示图中节点的个数,Y表示训练数据中节点的真值标签,L

L=L

其中,λ是平衡参数。

有益效果:本发明在利用信息瓶颈捕获图的全局信息,同时计算图瓶颈信息与节点之间的一致性,保留图随机网络的鲁棒性优势(降低对特定节点的依赖)的同时,一定程度上增强了网络的表达性能。

与现有技术相比,本发明具有以下优点:

(1)本发明的图信息瓶颈节点cls,能够学习不同的增强后的图数据,同时可以捕获全局的结构信息。

(2)本发明的图信息瓶颈节点cls节点,在高阶混合传播过程中能够包含更多的局部信息,充分利用各个增强图数据之间的局部信息和全局信息。

(3)本发明直接计算信息瓶颈cls节点与各视图中每个节点之间的一致性关系,进一步提升网络的性能。

附图说明

图1为本发明的整体流程示意图;

图2为本发明实施例中的模型框架示意图。

具体实施方式

下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。

如图1所示,本实施例的基于全局图瓶颈表示的图自监督学习方法,包括以下步骤:

步骤(1)、输入待分类的原始图数据,包括原始图的邻接矩阵A和节点特征矩阵X;邻接矩阵A的维度为N×N,N是指原始图中节点的个数,节点特征矩阵X的维度为N×d,d是节点的特征维度。

步骤(2)、初始化一个全局共享的cls节点,其向量表示为x

步骤(3)、执行两次不同的图数据增强操作,并分别进行构图以获得两个新视图,然后在新视图数据上进行特征传播,具体过程为:

步骤(3.1)、两次图数据增强操作分别以不同概率对节点特征矩阵进行随机删除,以生成不同的扰动特征矩阵;每个节点v

步骤(3.2)、构图操作是指将步骤(2)所得cls节点与扰动特征矩阵中所有节点连边得到两个不同的新视图;

为每个图添加cls节点

步骤(3.3)、对于步骤(3.2)所得新视图分别通过图卷积神经网络进行特征传播,每个节点的特征随机地与其高阶邻居的特征进交互,而cls节点则聚合图中所有节点的信息后回传到每个节点;

步骤(4)、将步骤(3)输出的特征借助多层感知器分类模块得到最终的输出;

其中θ

步骤(5)、计算有标签节点的监督损失,以及一致性正则化,通过多次迭代训练得到最后的分类结果;计算监督、一致性正则化函数定义如下:

其中,公式(4)中n表示图中节点的个数,Y表示训练数据中节点的真值标签,L

L=L

其中,λ是平衡参数。

相关技术
  • 一种支持时序社交网络图的无监督表示学习方法和装置
  • 一种基于图注意力自编码器的网络表示学习方法
技术分类

06120116480990