一种基于多尺度图对比学习的图神经网络方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及一种神经网络技术，尤其涉及一种基于多尺度图对比学习的图神经网络方法。

背景技术

图结构数据已被证明可以有效地表示各种数据，例如社交网络、金融网络和化学分子图等，具有广泛的应用价值。伴随着图数据在现实世界的场景中越来越普遍，学习图数据的表示也变得越来越重要。

图表示学习即从图中提取出高维的结构和属性信息，并将其编码为低维的表示向量，已被广泛地应用于诸多图数据分析和处理任务中。在信息化时代下，数据量的增加导致标记数据越来越稀缺，导致收集数据标签需要大量的人力资源和时间。因此，越来越多的研究人员开始关注无监督或自监督图表示学习。

传统的方法例如矩阵分解和随机游走都无法扩展到较大规模的图上，且不能很好地利用节点的属性信息，因此，不依赖于图的标签信息的情况下来学习到图的表示则变得至关重要。

目前，基于对比学习的图表示学习方法是一种可行方法，许多相关的研究也已经取得了令人期待的成果。然而，目前绝大多数研究都未曾考虑到图数据的多尺度信息，即从一个单一的尺度来进行对比学习，忽略了更加丰富的全局信息或是更加细致的局部信息。

发明内容

为解决上述问题，本发明提供一种基于多尺度图对比学习的图神经网络方法，克服了以前的方法中对于多尺度信息的缺乏，通过控制随机游走节点数量的方式提出了全局视图和局部视图的概念，同时制定不同的对比学习策略，从而对于不同的视图间执行不同的策略，从而可挖掘图数据中丰富的多尺度信息，并执行不同的对比学习策略，有效地提高了学习到的图表示的质量。

为实现上述目的，本发明提供了一种基于多尺度图对比学习的图神经网络方法，包括以下步骤：

S1、收集原始图数据，并对收集到的原始图数据进行标记；

S2、对收集到的原始图数据通过随机游走的方式进行数据增强，并控制生成子图的规模，进而生成不同尺度的全局视图和局部视图；

S3、通过图神经网络学习原始图数据的全局信息潜在表示和局部信息潜在表示；

S4、针对图神经网络学习到的全局信息潜在表示和局部信息潜在表示，分别执行不同的对比学习策略；

S5、通过最小化目标函数，改善不同视图在表征空间中的距离，提高网络所学习到的表征质量。

优选的，在步骤S1中，根据不同的数据类型，标记从网络中收集到的原始图结构数据为对应的标签文件。

优选的，在步骤S1中，定义一个图数据集D，该数据集由N个图数据

因此，图数据存在一个邻接矩阵A，其维度为V×V，若e

此外，图数据的每个节点还具有特征向量x

优选的，在步骤S2中，给定一个G∈{G

优选的，步骤S3中，通过使用对于全局视图和局部视图之间共享模型参数的五层图同构网络来学习视图的潜在表示。

优选的，步骤S4中，对于全局视图之间及全局和局部视图之间选择噪声对比估计函数，而对于局部视图之间选择使用一个回归器度量，该回归器的实现是一个拥有批次归一化和RELU激活函数的多层感知机。

优选的，在步骤S4中，图神经网络主要遵循消息传递机制，每个节点通过消息传递机制获取邻居节点的属性和结构信息，进而更新自身的节点表示，通过k层迭代，节点捕获到其k跳邻居的信息，即：

AGGREGATE(·)和COMBINE(·)分别为聚合邻域节点的信息和更新自身节点信息；即通过图同构神经网络来获取上述经过数据增强后的全局和局部视图的节点潜在表示；

而后通过池化来获取整个图的潜在表示，即：

READOUT(·)为图池化，为求和池化机制；

最后对获得图级表示通过一个非线性变换，即：

z＝g(f(G))

g(·)为非线性变换，其为一个拥有RELU激活函数的二层感知机；

从而获得了图数据的全局和局部表示，即

优选的，步骤S5中，通过为三个不同的损失项目分配不同的权重系数，来优化图神经网络，使其能够学习到良好的图级表征，进而用于不同的下游任务。

优选的，步骤S5具体包括以下步骤：

S51、同时考虑全局表示和局部表示，并对其实施不同的对比学习策略，进而考虑不同尺度信息来提高性能，定义噪声对比估计损失

τ为温度系数，z

S52、考虑最大化同一个原始图的全局表示，最小化不同原始图的全局表示的相似度，损失函数l

其中，N为批次内的样本数量；

S53、为了建立局部和全局的关联，定义一个损失函数，即：

S54、通过一种带有可学习参数的度量方式来给出局部和全局的相似度，其为一个具有RELU激活函数的五层感知机f

S55、通过最大化ψ(θ

S56、定义总体损失函数为如下形式：

S57、通过Adam梯度下降算法的方式，最小化总体损失

与现有技术相比，本发明具有以下有益效果：

1、考虑了图对比学习中的多尺度信息，并对于不同尺度信息执行不同的对比学习策略，所学习到的表征质量更优，可更好地用于一系列下游任务。

2、可用于图数据分析、图表示学习等场景，能够辅助人们更好地分析并使用图数据。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的框架示意图；

图2为本发明的算法原理图；

图3为本发明的回归器设计图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

图1为本发明的框架示意图；图2为本发明的算法原理图；图3为本发明的回归器设计图，如图1-图3所示，一种基于多尺度图对比学习的图神经网络方法，包括以下步骤：

S1、收集原始图数据，并对收集到的原始图数据进行标记；

优选的，在步骤S1中，根据不同的数据类型，标记从网络中收集到的原始图结构数据为对应的标签文件。

优选的，在步骤S1中，定义一个图数据集D，该数据集由N个图数据

因此，图数据存在一个邻接矩阵A，其维度为V×V，若e

此外，图数据的每个节点还具有特征向量x

S2、图数据增强对于本文所采用的对比学习来说非常重要，若缺乏数据增强的情况下，会导致模型比未经训练的模型效果更差。数据增强的目的就在于尽可能不影响原始数据语义信息的情况下，对数据进行一定地转换，创造出一些新颖的数据。

故在本实施例中，对收集到的原始图数据通过随机游走的方式进行数据增强，并控制生成子图的规模，进而生成不同尺度的全局视图和局部视图；

优选的，在步骤S2中，给定一个G∈{G

S3、由于图神经网络是一种拥有强大表达能力的图数据分析方法，故通过图神经网络学习原始图数据的全局信息潜在表示和局部信息潜在表示；

优选的，步骤S3中，通过使用对于全局视图和局部视图之间共享模型参数的五层图同构网络来学习视图的潜在表示。

S4、针对图神经网络学习到的全局信息潜在表示和局部信息潜在表示，分别执行不同的对比学习策略；

需要说明的是，在对比学习阶段，由于全局视图包含了图数据的大部分信息，且有着较高的语义相似度，所以期望缩小它们在表征空间的距离；由于全局视图较大的尺寸，很大程度上包含了局部视图的内容，所以也期望缩小它们在表征空间的距离；而对于局部视图之间，由于其描述的内容总是不同，语义相似度较低，反而需要拉远它们在表征空间的距离，即鼓励它们的不相似性。

而后通过池化来获取整个图的潜在表示，即：

READOUT(·)为图池化，为求和池化机制；

最后对获得图级表示通过一个非线性变换，即：

z＝g(f(G))

g(·)为非线性变换，其为一个拥有RELU激活函数的二层感知机；

从而获得了图数据的全局和局部表示，即

S5、通过最小化目标函数，改善不同视图在表征空间中的距离，提高网络所学习到的表征质量。

优选的，步骤S5中，通过为三个不同的损失项目分配不同的权重系数，来优化图神经网络，使其能够学习到良好的图级表征，进而用于不同的下游任务。

优选的，步骤S5具体包括以下步骤：

S51、同时考虑全局表示和局部表示，并对其实施不同的对比学习策略，进而考虑不同尺度信息来提高性能，定义噪声对比估计损失

τ为温度系数，z

S52、由于全局视图通常包含了图的大部分内容，因此全局视图对之前拥有着极为相似的语义信息，因此，考虑最大化同一个原始图的全局表示，最小化不同原始图的全局表示的相似度，损失函数l

其中，N为批次内的样本数量；

S53、由于全局视图的尺寸较大，其很大程度上包含了局部视图的内容，可以确保它们之间共享一部分语义内容，因此，为了建立局部和全局的关联，定义一个损失函数，即：

S54、由于来自同一个原始图的局部视图通常描述了不同的内容，因此它们之间的语义相似性较低，因此，不再像之前一样缩小它们潜在表示的距离，而是去鼓励它们的不相似性。但是，鉴于其之间仍然存在一定的语义相似性，不再直接地通过噪声对比估计损失来拉远它们的距离，故通过一种带有可学习参数的度量方式来给出局部和全局的相似度，其为一个具有RELU激活函数的五层感知机f

S55、通过最大化ψ(θ

S56、定义总体损失函数为如下形式：

S57、通过Adam梯度下降算法的方式，最小化总体损失

因此，本发明采用上述基于多尺度图对比学习的图神经网络方法，可在不依赖数据标签信息的情况下，仅利用数据自身抽取出的自监督信号学习得到良好的图级表示，可广泛地应用于化学分子性质预测、生物蛋白质功能预测、社交网络分析等技术领域。

实验例

表1为数据集的图数量、节点数量和边数量的统计信息表

由表1可知，引用了TUDataset系列数据集进行实验，包括四个化学分子数据集和四个为社交网络数据集。其中，NCI1是有美国癌症研究所(NCI)提供的化合物数据集，包含4100个图样本，节点特征维度为37。DD是一个包含1178个蛋白质结构的数据集，每种蛋白质由一个图来表示，每个节点表示氨基酸。MUTAG数据集有188种化合物组成，根据它们对细菌的诱变作用分类两类。PROTEINS中的图数据节点是二级元素结构，并且如果两个节点在氨基酸序列或三维空间中是相邻的，那么它们之间就有一条边。REDDIT-BINARY数据集中每个图对应一个在线讨论线程，其中节点对应用户，两个节点间有相互响应则存在边。REDDIT-M5K则在REDDIT-BINARY的基础上将数据采集范围扩大到了五个不同的子社区。COLLAB是一个科学协作数据集，数据采自3个领域，即高能物理、凝聚态物理和天体物理。IMDB-BINARY是一个电影协作数据集，对于每个图，节点表示演员，如果两个演员出现在同一部电影则他们之间存在一条边。由于上述数据集不存在官方划分，因此采用随机划分，并执行10折交叉验证。

将本发明的方法与以下方法进行了对比：

WL：以WL算法为基础与图核相结合，提出WL图核方法，将图分解为子树，通过度量子树相似度来获取图相似度；

DGK：将图分解为子结构，并通过子结构来度量图相似性；

Node2vec：基于DeepWalk算法的变体，考虑了深度优先和广度优先算法；

Sub2vec：通过进行子图截断的随机游走方法来学习子图特征表示；

Graph2vec：将自然语言处理的中doc2vec扩展到图数据中，通过生成有根子图及负样本来进行无监督表示学习。

GAE：通过将图编码为潜在特征表示再将其复原为原始图来训练编码器。

DGI：将互信息最大化的思想引入图数据，实现了节点和图的互信息最大化。

ContexPred：通过最大化中心节点的表示与上下文节点的表示的相似度来训练编码器模型。

InfoGraph：与DGI类似，同样基于互信息最大化思想，但其只要关注图级的表示学习。

GraphCL：提出了四种不同的数据增强方法，并使用对比学习来优化增强视图的一致性。

JOAO：在GraphCL的基础上能够自适应、动态的选择数据增强方案。

SimGRACE：通过直接对编码器扰动来避免数据增强对于语义信息的破坏。

在实验例中进行了两个任务的实验来验证所提方法的有效性，分为无监督分类任务和半监督分类任务。对于无监督分类，采用了提出的多尺度对比学习来预训练编码器，之后再将与训练后的编码器输出的表示送入下游的线性SVM分类器。对于半监督分类，采用了在无监督基础上将表示送入下游的多层感知机进行分类，并给予一定比例的标签信息来微调模型。在两个任务中均采用Acc作为评估指标。

表2为无监督分类实验结果表

表2展示了本发明方法在八个下游任务数据集中的性能表现，由表2可知，本发明提出的方法(MSSGCL)分类性能表现最好，优于其他所有基线模型，与鼓励小尺寸视图相似度的GraphCL相比，本发明所取得的平均Acc提升能够达到2％以上。

表3为半监督分类实验结果表

表3展示了本发明方法在半监督设定下对于八个数据集的性能表现，由表3可知，报告了标签率为1％和10％的子任务。在标签率为1％设定时，本发明所提的方法高于所有基线模型，即使是与之前的最佳模型SimGRACE相比仍有提升。在标签率为10％设定时，本发明所提的方法则大大优于之前的极限模型，并在7个数据集中的6个都实现了最佳性能，与GraphCL相比，平均Acc提升达到了2％。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王波;刘彦北;李志胜;徐振宇;国英龙;王伟;贾智洋;杨铭锴;
专利申请人：思腾合力(天津)科技有限公司;

上一篇：一种深埋花岗岩隧道塌方风险评价方法
下一篇：具有用于增强热导率的各种填充材料的芯壳