掌桥专利:专业的专利平台
掌桥专利
首页

一种基于注意力加权图神经网络的不平衡节点分类方法

文献发布时间:2023-06-19 18:25:54


一种基于注意力加权图神经网络的不平衡节点分类方法

技术领域

本发明涉及机器学习领域,特别涉及一种基于注意力加权图神经网络的不平衡节点分类方法。

背景技术

随着图神经网络的发展,基于图结构数据的半监督节点分类任务在社交、金融和生物工程等领域有了广泛的应用。图神经网络的主要思想是研究通过神经网络从局部图领域迭代并聚合特征信息的有效方法。同时,节点的特征信息可以通过转换和聚合后的图进行传播,用于下游的分类器进行训练,并在测试集中用于对其它节点进行分类。现有的大多数图神经网络算法主要集中在节点类别分布相对平衡的基础上。然而在许多实际的应用中,由于抽样偏差和一些客观原因,节点类别在图中的分布可能是不平衡的。在输入的图结构数据中只有一部分节点是带有标注信息的,也就是某些类别的训练样本数量明显少于其他类。比如在社交平台中绝大多数用户是良性用户,其中只有一小部分是机器人。同样地,网站页面的主题分类也会受到样本类别分布不平衡的影响,因为与流行的主题相比,某些冷门、小众主题的材料非常稀少。由此可见,不平衡的节点分类是实际应用中经常面临的问题之一。由于多数类样本在数量上占有优势,在计算图神经网络的损失函数时,模型会偏向于多数类。这使得训练的模型会对多数类进行过度分类,无法准确识别少数类样本。

在机器学习领域,传统的处理不平衡分类问题的方法可以归纳为三类:数据级方法、算法级方法和混合方法。数据级方法试图使用过采样或欠采样技术使数据集中各个类别的样本数量分布更加平衡;算法级方法通常是为不同的类别引入不同的误分类惩罚或先验概率;混合方法是将两者结合。然而,将上述方法直接应用于图结构数据可能并不会取得预期的效果。传统的方法是基于每个节点相互独立的假设,忽略了图结构数据中节点与节点之间的连接关系。而连接关系是图结构数据中需要挖掘的关键信息,少数类样本表示不足不仅会影响其嵌入效果,还会影响相邻节点之间的交互过程。一些基于图神经网络的分类模型如GraphSage、GraphSmote等有效地解决了这一问题,这些模型侧重于聚合来自领域节点的特征信息。但在这个过程中,它们无法区分少数类样本和多数类样本的重要性,这使得可能包含重要信息的少数类样本无法被准确地识别到。此外,一些深层的图神经网络模型在聚合特征信息的过程中会造成不同类型节点的特征不可区分的问题。因此,基于图神经网络改善分布不平衡节点的分类效果,尤其是提高少数类样本的识别精度具有重要意义。

发明内容

为了克服现有技术中的不足,本发明提供一种基于注意力加权图神经网络的不平衡节点分类方法,利用注意力网络为多数类和少数类样本分配个性化的聚合权重,缓解了少数类样本不被重视的问题。同时引入代价敏感因子提高少数类样本的错分代价,从而提升不平衡数据的分类效果。

为了达到上述发明目的,解决其技术问题所采用的技术方案如下:

一种基于注意力加权图神经网络的不平衡节点分类方法,包括以下步骤:

步骤1:针对输入的图结构数据中的未标注节点,对其邻域内标注节点的特征信息进行采样;

步骤2:在嵌入空间中引入关系嵌入向量,通过多层感知机将关系嵌入向量与邻域内标注节点的特征信息融合得到未标注节点与其邻域内标注节点的相关度表示;

步骤3:在聚合特征信息的过程中,利用注意力网络并结合相关度表示为不同类型的标注节点分配个性化的聚合权重;

步骤4:将构造的聚合权重矩阵与图神经网络相结合进行节点分类,并在损失函数中引入代价敏感因子。

进一步的,步骤1中,针对输入的图结构数据中的未标注节点,采用Graphsage作为基础模型对其领域内的标注节点的特征信息进行采样,采样公式如下:

其中,

进一步的,步骤2中,所述的关系嵌入向量是将图中未标注节点与邻域内标注节点的连接关系、信息交互的过程表征为密集向量表示。

进一步的,步骤2中,通过多层感知机将关系嵌入向量与领域内标注节点的特征信息融合得到未标注节点与其领域内的标注节点的相关度表示,相关度表示如下:

其中,R

其中,

进一步的,步骤3中,所述的为不同类型的标注节点赋予个性化的聚合权重是通过将注意力网络与相关度表示R

其中,α

进一步的,注意力权重α

其中,exp(·)为指数函数。

进一步的,注意力得分

其中,

进一步的,步骤4中,采用两层的Graphsage作为图神经网络的基础模型,并且引入代价敏感因子,代价敏感因子表示如下:

其中,W

进一步的,将代价敏感因子引入损失函数中进行优化,整个模型的损失函数可以写成:

其中,s

本发明由于采用以上技术方案,使之与现有技术相比,具有以下的优点和积极效果:

本发明一种基于注意力加权图神经网络的不平衡节点分类方法,在聚合信息特征的过程中为少数类和多数类样本赋予个性化的聚合权重,同时在分类过程中加大了少数类节点的错分代价,进一步提高了少数类节点的识别精度,改善了基于图神经网络的不平衡分类效果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图中:

图1是本发明一种基于注意力加权图神经网络的不平衡节点分类方法的流程示意图;

图2是本发明一种基于注意力加权图神经网络的不平衡节点分类方法中不同的基于图神经网络的分类方法在真实数据集上不同评价指标下的实验结果图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本实施例公开了一种基于注意力加权图神经网络的不平衡节点分类方法,包括以下步骤:

步骤1:针对输入的图结构数据中的未标注节点,对其邻域内标注节点的特征信息进行采样;

具体的,步骤1中,针对输入的图结构数据中的未标注节点,本实施例采用Graphsage作为基础模型对其领域内的标注节点的特征信息进行采样,采样公式如下:

其中,

表1

步骤2:在嵌入空间中引入关系嵌入向量,通过多层感知机将关系嵌入向量与邻域内标注节点的特征信息融合得到未标注节点与其邻域内标注节点的相关度表示;

进一步的,步骤2中,所述的关系嵌入向量是将图中未标注节点与邻域内标注节点的连接关系、信息交互的过程表征为密集向量表示。

进一步的,步骤2中,通过多层感知机将关系嵌入向量与领域内标注节点的特征信息融合得到未标注节点与其领域内的标注节点的相关度表示,相关度表示如下:

其中,R

其中,

步骤3:在聚合特征信息的过程中,利用注意力网络并结合相关度表示为不同类型的标注节点分配个性化的聚合权重;

具体的,步骤3中,所述的为不同类型的标注节点赋予个性化的聚合权重是通过将注意力网络与相关度表示R

其中,α

进一步的,注意力权重α

其中,exp(·)为指数函数。

进一步的,注意力得分

其中,

步骤4:将构造的聚合权重矩阵与图神经网络相结合进行节点分类,并在损失函数中引入代价敏感因子。

具体的,步骤4中,采用两层的Graphsage作为图神经网络的基础模型,并且引入代价敏感因子,代价敏感因子表示如下:

其中,W

进一步的,将代价敏感因子引入损失函数中进行优化,整个模型的损失函数可以写成:

其中,s

图2表示了不同不平衡分类算法在两种不同指标下的表现情况,分类效果越好得分越高,ACSGNN为本发明提出的方法,可以看出,本发明提出的方法在两个评价指标上都取得了较高的分数。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

技术分类

06120115565053