掌桥专利:专业的专利平台
掌桥专利
首页

基于语义信息的多通道图池化方法

文献发布时间:2023-06-19 19:28:50


基于语义信息的多通道图池化方法

技术领域

本发明涉及图神经网络中的池化和图分类技术领域,具体是基于语义信息的多通道图池化方法。

背景技术

图结构数据是现实生活中广泛存在的一类数据形式,它可以形象地表示复合对象及其对象之间的复杂关系,如社交网络中用户及其交互信息,引文网络中文献间引用与被引用的关系,生物信息学中蛋白质的相互作用,化学分子结构中化学键的构造等。与排列规则的欧几里得数据不同,图数据结构复杂,且包含大量的信息。因此,基于图数据的相关研究成为近年来的热点问题。

图卷积网络(Graph Convolutional Network,简称GCN)利用节点之间的信息传播学习节点的特征向量,它在基于图数据的下游分析任务中取得了优异的性能。根据主体对象的不同,图分析任务主要分为节点级别任务和图级别任务。在节点级别任务中,GCN通过图卷积在节点之间传播信息,结合下游任务生成节点级特征向量;而在图级别任务中,对于大小和拓扑不同的图结构,GCN需要利用池化算子将所有节点的信息集成在一起,生成整个图的特征向量。池化算子可以将GCN学习到的图下采样为较小尺寸的图或单个向量。因此,对于图级别任务,池化机制是必不可少的组成部分。最近已经有一些工作开始关注图的分层池化,主要通过迭代将图逐渐粗化为更小尺寸的图来保留图中重要的结构和特征信息。根据粗化图的方式不同,分层池化可以分为节点聚类池化和节点选择池化。节点聚类池化通过设计软分配矩阵将节点分配到不同簇中,每个簇作为池化结果中的一个节点,从而收缩图的规模,生成池化图的特征向量;而节点选择池化,利用节点特征和结构信息计算节点的重要性,然后选择部分重要的节点形成新的池化图。与节点聚类池化相比,节点选择池化计算效率更高,更适用于大规模的图。

作为一种经典的图级别任务,图分类在利用GCN对图中节点特征和结构信息进行汇总后,需要通过池化操作生成图级别的特征向量,然后学习图与对应标签的映射模型,从而实现对未知图的标签预测。例如在化学信息学中,将化合物构建为图结构数据,利用GCN和池化操作生成化合物的向量表示,然后训练MLP模型判断该化合物是否具有某种属性。由此可见,节点特征学习和池化方法的研究对于图分类具有非常重要的意义。

经过调研,现有的基于GCN的图分类方法存在两方面不足。第一,模型输入以标签图为主,即图中的节点仅包含标签信息,而标签信息采用one-hot编码生成节点的初始特征,这种编码方式存在特征稀疏且无语义信息的缺点,导致整个分类任务的精确度下降。第二,节点聚类池化生成图的层次表示仅考虑了图的全局结构信息但没有考虑局部结构信息;而节点选择池化保留原始图中的部分节点考虑了图的局部结构信息但没有考虑全局结构信息,因此,池化过程中仅使用单一池化方式会造成有用节点的信息丢失,降低分类精确度。

发明内容

本发明的目的是针对输入数据特征稀疏且语义信息匮乏、图池化过程仅采用单一的池化方法会造成判别信息丢失等问题,提出了一种基于语义信息的多通道图池化方法,这种方法通过增强节点特征的语义性,从而降低特征的稀疏性,然后利用多通道机制从多个角度池化图的结构和特征,通过通道之间的互补和融合保留原始图的综合性特征,从而提升图分类任务的准确性。

实现本发明目的的技术方案是:

基于语义信息的多通道图池化方法,包括如下步骤:

1)图数据预处理阶段:

1.1)构造语料库集合:

利用WL子树模式迭代,提取图中不同高度的子树模式构造语料库集合CS;

给定一个图数据集G和任意的图g∈G,对g进行WL子树模式迭代,提取g中不同高度的子树模式,每经过一次迭代就聚合一次邻居信息更新自身节点信息,其中第i次迭代得到第i阶子树模式,图数据集G中所有图对应的第i阶子树模式的排列构成了语料库C

1.2)学习节点多尺度特征向量:

使用Doc2Vec模型分别训练语料库集合CS中的每个语料库,得到图中节点的多尺度特征向量;

给定图数据集G的子树模式语料库C

M

其中ω

其中d表示多尺度特征矩阵M的特征维度;

2)GCN卷积阶段:

2.1)利用步骤1.2)中得到的多尺度特征矩阵M和图的邻接矩阵A,执行图卷积操作,更新每个节点的特征向量;

给定初始图g(M,A),其中邻接矩阵A∈R

其中

3)多通道图池化阶段:

利用图池化操作提高图神经网络的泛化能力;

图中节点具有不同方面的特征和角色,且若两个非同构图具有相同的粗粒度结构,则经过池化之后无法区分,为了弥补单通道池化丢失的节点信息、区分易混淆的结构信息,提出一种多通道的图池化模块MCP:首先,设计三个通道分别独立的从不同角度进行图池化;然后,执行跨通道卷积操作,融合不同通道的池化图;最后,对池化结果进行汇总,得到经本层MCP模块池化后的图特征矩阵和邻接矩阵;

3.1)多通道池化:

采用三个独立的通道分别对图进行池化,从不同的角度捕获图的特征;

给定图g(X,丑),通道一依据特征向量中心性度量局部区域内节点的重要性,基于节点选择的池化方法选出局部区域内最重要的节点,从而捕获图的局部拓扑信息;通道二基于节点聚类的池化方法将图划分为不同的簇,具有相似特征的节点分配到同一个簇中,从而捕获图的全局拓扑信息;通道三利用携带语义信息的节点特征计算节点重要性得分,基于节点选择的池化方法选出得分更高的节点,从而捕获节点的语义信息,具体通道设置如下:

3.1.1)通道一考虑局部拓扑结构:采用特征向量中心性作为节点重要性的衡量指标,该指标度量的是节点影响的传递性,综合考虑了节点本身重要性和邻居节点重要性,若一个节点所连接的节点中心性值越高,则该节点的中心性值就越高,具体实现如下:对图g的邻接矩阵A进行特征分解,则有AP=λP,其中λ为矩阵A的特征值,P为λ对应的特征矩阵,取λ中最大的特征值对应的特征向量η,记η=[η

3.1.2)通道二考虑全局拓扑结构:参考DiffPool节点聚类池化方法,将节点逐层聚类成簇,每个簇作为粗化图中的一个节点,其中簇分配矩阵生成器定义为S=softmax(GNN

X

A

X

3.1.3)通道三考虑节点语义信息:首先使用readout()函数获取当前图的整体表示F=readout(X)∈R

令θ=(θ

3.2)跨通道卷积:

使用跨通道卷积操作融合步骤3.1)得到的三个池化图FP

3.2.1)融合通道一和通道二:首先利用通道二的分配矩阵S和通道一所选择的节点索引集Idx

3.2.2)融合通道二和通道三:首先利用通道二的分配矩阵S和通道三所选择的节点索引集Idx

3.3)池化聚合:

为了获得包含步骤3.2)中两个增强通道的判别性信息的池化图,对步骤3.2)中得到的两个池化图进行如下聚合:

3.3.1)合并步骤3.1)中得到的索引集Idx=Idx

3.3.2)按照索引集Idx对应的节点从原始图中提取生成子图,该子图对应的邻接矩阵为A

3.3.3)利用以下公式计算最终的聚合池化图的特征矩阵X′

X′

X′

3.4)将步骤3.3)得到的池化图的特征矩阵输入readout()函数,执行按列均值池化操作汇总本层的特征向量,得到的特征向量作为本层MCP模块学习到的图特征向量;

4)图分类阶段:

4.1)将GCN模块和MCP模块视为统一的模块单元MGCN,重复3次步骤2.1)-3.4),进而堆叠3个MGCN模块实现分层池化,将这三层学习到的图特征向量按位相加可以得到最终的图级别的特征向量,该特征向量具有丰富的语义信息且包含了不同角度的判别性图特征;

4.2)使用具有softmax层的多层感知机(Multilayer Perceptron,简称MLP)作为图分类模型,将图数据集中所有图的特征向量和类别标签输入多层感知机训练图分类模型。

与现有技术相比,本技术方案具有如下有益效果:

在数据预处理阶段,本技术方案提取图中不同高度的WL子树模式构造语料库,在语料库上训练Doc2Vec模型学习携带语义信息的节点特征向量,从而解决了节点语义信息匮乏及特征稀疏的问题;在池化阶段,本技术方案将多通道机制应用于池化图,利用三个更加精准的通道分别从局部拓扑结构、全局拓扑结构和节点语义信息的角度出发,不断池化聚合,学习到一种精细且具有综合性判别信息的图结构,从而解决了单一池化造成的特征丢失问题。综上所述,本技术方案可以更好的提升图分类任务的准确性和全面性。

这种方法通过增强节点特征的语义性,降低特征的稀疏性,然后利用多通道机制从多个角度池化图的结构和特征,通过通道之间的互补和融合保留原始图的综合特性,从而提升图分类任务的准确性。

附图说明

图1为实施例中语料库集合构造示意图;

图2为实施例中MCP整体架构图;

图3为实施例中MGCN分层池化框架图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。

实施例:

基于语义信息的多通道图池化方法,包括如下步骤:

1)图数据预处理阶段:

1.1)构造语料库集合:

利用WL子树模式迭代,提取图中不同高度的子树模式构造语料库集合CS;

给定一个图数据集G和任意的图g∈G,对g进行WL子树模式迭代,提取g中不同高度的子树模式,每经过一次迭代就聚合一次邻居信息更新自身节点信息,其中第i次迭代得到第i阶子树模式,图数据集G中所有图对应的第i阶子树模式的排列构成了语料库C

图1列举了一个构造子树模式语料库的简单案例,以此详细说明构造语料库集合的过程:

假设输入的图数据集包含图g

1.1.1)按照输入图数据集中节点标签初始化子树模式标号,g

1.1.2)进行第一次WL子树模式迭代:遍历g

1.1.3)进行第二次WL迭代:遍历更新标号后图中节点的一阶邻居,构建二阶(2-hop)子树模式,得到语料库C

1.1.4)以此类推,第三次WL迭代得到语料库C

1.2)学习节点多尺度特征向量:

使用Doc2Vec模型分别训练语料库集合CS中的每个语料库,得到图中节点的多尺度特征向量;

给定图数据集G的子树模式语料库C

M

其中ω

其中d=3h表示多尺度特征矩阵M的特征维度;

2)GCN卷积阶段:

2.1)利用步骤1.2)中得到的多尺度特征矩阵M和图的邻接矩阵A,执行图卷积操作,更新每个节点的特征向量;

给定初始图g(M,A),其中邻接矩阵A∈R

其中

3)多通道图池化阶段:

利用图池化操作提高图神经网络的泛化能力;

如图2所示,图中节点具有不同方面的特征和角色,且若两个非同构图具有相同的粗粒度结构,则经过池化之后无法区分,为了弥补单通道池化丢失的节点信息、区分易混淆的结构信息,提出一种多通道的图池化模块MCP:首先,设计三个通道分别独立的从不同角度进行图池化;然后,执行跨通道卷积操作,融合不同通道的池化图;最后,对池化结果进行汇总,得到经本层MCP模块池化后的图特征矩阵和邻接矩阵;

3.1)多通道池化:

采用三个独立的通道分别对图进行池化,从不同的角度捕获图的特征;

给定图g(X,A),通道一依据特征向量中心性度量局部区域内节点的重要性,基于节点选择的池化方法选出局部区域内最重要的节点,从而捕获图的局部拓扑信息;通道二基于节点聚类的池化方法将图划分为不同的簇,具有相似特征的节点分配到同一个簇中,从而捕获图的全局拓扑信息;通道三利用携带语义信息的节点特征计算节点重要性得分,基于节点选择的池化方法选出得分更高的节点,从而捕获节点的语义信息,具体通道设置如下:

3.1.1)通道一考虑局部拓扑结构:在Du等人提出的MuchPool方法中,使用节点的度数作为局部拓扑重要性衡量指标,度数越大的节点重要性越高,越容易被选择,但在例如交通道路预测场景中,某些唯一路径处的节点度数反而更小,如果节点选择时忽略这些度数较小的节点,反而会导致选择池化过程忽略了重要节点,因此本例采用特征向量中心性作为节点重要性的衡量指标,该指标度量的是节点影响的传递性,综合考虑了节点本身重要性和邻居节点重要性,若一个节点所连接的节点中心度值越高,则该节点的中心度值就越高,具体实现如下:

对图g的邻接矩阵A进行特征分解,则有AP=λP,其中λ为矩阵A的特征值,P为λ对应的特征矩阵,取λ中最大的特征值对应的特征向量η,记η=[η

3.1.2)通道二考虑全局拓扑结构:参考Ying等人提出的DiffPool节点聚类池化方法,将节点逐层聚类成簇,每个簇作为粗化图中的一个节点,其中簇分配矩阵生成器定义为S=softmax(GNN

X

A

X

3.1.3)通道三考虑节点语义信息:首先使用readout()函数获取当前图的整体表示F=readout(X)∈R

令θ=(θ

3.2)跨通道卷积:

使用跨通道卷积操作融合步骤3.1)得到的三个池化图FP

3.2.1)融合通道一和通道二:首先利用通道二的分配矩阵S和通道一所选择的节点索引集Idx

3.2.2)融合通道二和通道三:与通道一、二的融合类似,首先利用通道二的分配矩阵S和通道三所选择的节点索引集Idx

3.3)池化聚合:

为了获得包含步骤3.2)中两个增强通道的判别性信息的池化图,对步骤3.2)中得到的两个池化图进行如下聚合:

3.3.1)合并步骤3.1)中得到的索引集Idx=Idx

3.3.2)按照索引集Idx对应的节点从原始图中提取生成子图,该子图对应的邻接矩阵为A

3.3.3)利用以下公式计算最终的聚合池化图的特征矩阵X′

X′

X′

3.4)将步骤3.3)得到的池化图的特征矩阵输入readout()函数,执行按列均值池化操作汇总本层的特征向量,得到的特征向量作为本层MCP模块学习到的图特征向量,如图3所示;

4)图分类阶段:

4.1)将GCN模块和MCP模块视为统一的模块单元MGCN,重复3次步骤2.1)-3.4),进而堆叠3个MGCN模块实现分层池化,将这三层学习到的图特征向量按位相加可以得到最终的图级别的特征向量,如图3所示,该特征向量具有丰富的语义信息且包含了不同角度的判别性图特征;

4.2)使用具有softmax层的多层感知机即MLP作为图分类模型,将图数据集中所有图的特征向量和类别标签输入多层感知机训练图分类模型。

相关技术
  • 一种基于多通道机制的图池化方法
  • 基于三分图视觉Transformer语义信息解码器的抠图方法与装置
技术分类

06120115923640