掌桥专利:专业的专利平台
掌桥专利
首页

一种可信图数据节点分类方法、系统、计算机设备及应用

文献发布时间:2023-06-19 10:48:02


一种可信图数据节点分类方法、系统、计算机设备及应用

技术领域

本发明属于深度学习应用之网络分析技术领域,尤其涉及一种可信图数据节点分类方法、系统、计算机设备及应用。

背景技术

目前:随着计算机硬件设备的进步和计算能力的爆炸式发展,深度学习和神经网络技术也不断实现突破,而GNN(GraphNeuralNetwork,图神经网络) 的出现将深度学习和神经网络引入了图这种非欧式数据分析中,研究者们基于图信号处理中对频谱的定义,使用图拉普拉斯算子解决了CNN (ConvolutionalNeuralNetwork,卷积神经网络)从图片文本领域移植到图数据领域时,局部卷积算子和汇聚算子难以定义的问题。自此GNN飞速发展,在科研和工业应用上都取得了令人瞩目的成果。

但是,深度学习在图片和文本领域面临的对抗样本攻击的安全性问题,在图数据领域同样不可避免。以应用最广泛的GCN(GraphNeuralNetwork)为例,通过在拓扑图中添加或删除一些边,造成微小扰动,就能够是分类系统性能出现大幅下降。比如使用mettack对抗样本生成模型在原始图书数据中添加5%的扰动,就能够导致GCN的分类准确率下降13%以上。而其他的对抗样本技术,比如nettack这种有目标攻击,则是通过对目标节点添加扰动,让模型对指定节点产生错误判别。对抗样本的存在,严重阻碍了GNN在一些对安全性和稳定性要求较高的领域应用,比如在银行的信用预测系统中,一些信用度低的人可以通过添加一些信用度高的好友来伪装自己,在推荐系统中,一些垃圾邮件发送者可能创建虚假关注者以增加虚假新闻的影响范围。

目前对于图数据对抗样本的防御研究或者可信图神经网络系统的研究仍处于起步阶段,现有技术方案如下:现有技术一,利用节点的特征相似度,对输入的图数据拓扑进行清洗。通过去除相似度低的节点之间的边,构建新的拓扑结构,随后输入到已有的GNN模型进行训练和预测。现有技术二,采用奇异值分解的方式提取拓扑信息,利用对抗样本的高阶特性,使用低阶奇异值对分类结果进行低阶近似,以避开对抗样本的攻击。现有技术三,使用注意力机制和概率论模型,将高斯分布表示GNN的隐藏层节点特征,依靠注意力机制为邻居节点分配权重。现有技术四,利用天然图数据的低阶性和稀疏特性,在堆拓扑结构进行训练,学习出一个新的拓扑代替原有受到攻击的拓扑。现有技术五,利用大量的对抗样本对模型进行对抗训练。

综上所述,现有技术存在的问题如下:1)现有的数据清洗技术(现有技术一、现有技术四),利用节点特征相似度或者图数据的低阶特性,导致两个问题:首先对于某些只含拓扑结构的图数据分析任务,基于节点特征相似度的分类系统完全不可用。其次利用图数据的低阶特性对含有对抗样本进行清洗的同时可能会引入新的干扰,造成对数据的二次污染,使得模型在较低干扰率下的性能得不到保障。2)现有的可信图数据分类系统和对抗训练技术(现有技术二、现有技术四、现有技术五),需要事先了解对抗样本的技术细节,或者需要生成大量的对抗样本进行有针对性的进行鲁棒性提升,由于对抗样本生成算法复杂度高,其在数据构建阶段会浪费大量时间,其次这种有针对的提升不能很好地抵抗未知干扰。3)现有技术三,在这种利用概率论模型的方案中,GNN对于高比例的对抗样本攻击产生了一定的抵抗效果,但是在干扰率较低的环境下,分类系统的性能不稳定,甚至低于最基本的GNN分类系统。

通过上述分析,现有技术存在的问题及缺陷为:

(1)现有的数据清洗技术利用节点特征相似度或者图数据的低阶特性导致对于某些只含拓扑结构的图数据分析任务,基于节点特征相似度的分类系统完全不可用;利用图数据的低阶特性对含有对抗样本进行清洗的同时可能会引入新的干扰,造成对数据的二次污染,使得模型在较低干扰率下的性能得不到保障。

(2)现有的可信图数据分类系统和对抗训练技术对抗样本生成算法复杂度高,其在数据构建阶段会浪费大量时间,其次这种有针对的提升不能很好地抵抗未知干扰。

(3)现有在利用概率论模型的方案中,GNN对于高比例的对抗样本攻击产生了一定的抵抗效果,在干扰率较低的环境下,分类系统的性能不稳定,甚至低于最基本的GNN分类系统。

解决以上问题及缺陷的难度为:如何在无需了解对抗样本技术细节的情况下提高系统鲁棒性;如何降低数据准备阶段的处理时间,提高系统效率;如何提高系统的适用性,避免对图数据某一特征的过分依赖;如何保证系统鲁棒性的同时,使得系统在贴近真实环境的较低干扰率或者无对抗样本数据上保持较高的准确率。

解决以上问题及缺陷的意义为:提高分类系统鲁棒性和安全性,能够加快图神经网络在工业领域的推广和应用,尤其是在一些对安全性要求较高的领域。另外能够提升已有应用的稳定性可靠性,充分利用图神经网络强大的表达能力促进生产进步。提高系统的适用性降低图神经网络的应用限制,有利于发掘图神经网络的应用潜力,扩大图神经网络的应用范围。

发明内容

针对现有技术存在的问题,本发明提供了一种可信图数据节点分类方法、系统、计算机设备及应用。

本发明是这样实现的,一种可信图数据节点分类方法,所述可信图数据节点分类方法包括:

输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息,相比特征相似度、注意力机制等机制,离散里奇曲率能够更加明显的对抗样本进行区分,由于曲率模型不依赖特征,所以曲率驱动网络能够运行在一些不含特征的图数据中,适用范围更广;

对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理,以便后需进行特征重构和聚合,利用残差网络重构特征能够降低模型子拟合过程的中的过平滑问题;

使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行特征重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。提取并聚合节点特征;

利用节点分类模型对图数据中的节点完成分类预测。

进一步,所述可信图数据节点分类方法的离散里奇曲率计算,使用 Ricci–Ollivier curvature曲率计算公式,具体计算公式如下:

其中x,y表示拓扑图中的节点,k

其中α为超参数且α∈[0,1],一般将α设为0.5,

计算x节点与y节点之间瓦瑟斯坦距离的方式为求解如下线性规划:

min∑

进一步,所述可信图数据节点分类方法的曲率预处理,通过对数值较低的曲率进行预处理,具体计算公式入下:

其中p为一个超参数,表示一个百分比,percentile(K,p)计算出的是所有曲率值按升序排列后的第p%个数值。

进一步,所述可信图数据节点分类方法的原始特征矩阵进行归一化处理,具体处理方式为对于每一行特征向量求和并对每个特征值除以这个值,使得处理后的特征矩阵中每个特征向量特征值和为1;

基于残差网络的节点特征特征重构模块,具体方案为对于每一个节点特征

其中sum函数表示对其中的矩阵按列求和。

进一步,所述可信图数据节点分类方法的曲率映射模块,其为一个偏置量为1的多层感知机,使用α=0.2的LeakyRule激活函数,并对最终的曲率矩阵进行按行归一化处理,最终得到映射后的曲率矩阵ψ;

曲率聚合模块,基于曲率的隐藏层节点特征聚合模块,使用映射后的曲率值代替传统GCN中的拉普拉斯矩阵,层间聚合公式为:

GNN模型中各模块的网络参数在半监督学习训练过程中使用反向传播算法同步更新。

进一步,所述可信图数据节点分类方法的节点预测模型,使用最后一层网络的输出的节点特征向量通过一个全连接层网络,使用softmax作为激活函数,得到到节点的概率分布,取预测概率最大类别作为节点的预测结果。

本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:

输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;

对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;

使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行特征重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。提取并聚合节点特征;

利用节点分类模型对图数据中的节点完成分类预测。

本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:

输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;

对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;

使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。提取并聚合节点特征;

利用节点分类模型对图数据中的节点完成分类预测。

本发明的另一目的在于提供一种实施所述可信图数据节点分类方法的可信图数据节点分类系统,所述可信图数据节点分类系统包括:

拓扑信息提取模块,用于输入拓扑图和节点特征,计算散拓扑图的离散里奇曲率提取拓扑信息;

归一化预处理模块,用于对曲率和节点特征进行归一化预处理;

半监督训练模块,用于在利用曲率和残差网络模型在存在包含对抗样本的图数据上进行半监督训练;

分类预测模块,用于对没有标记的节点进行分类预测。

本发明的另一目的在于提供一种计算机硬件设备,所述计算机硬件设备用于实现所述的可信图数据节点分类方法。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明无需了解对抗样本技术细节,无需对原始拓扑清洗,也不许要大量的对抗样本进行对抗训练,系统适用性强,精确度高。

表1 对比实验结果

本发明使用经过映射的曲率矩阵代替卷积图神经网络中的拉普拉斯矩阵,并使用MLP学习每个特征的重要程度,在原始特征矩阵上对特征进行特征重构,在避免对原始拓扑信息清洗造成二次污染的同时充分利用图数据节点特征和拓扑信息提高模型鲁棒性,这种多维度聚合方式有效提高了系统的适应性和准确率。上表为在四个数据集上使用nettack对抗样本生成模型的实验结果,我们和七个主流方案进行对比,本发明的准确率均高于其他方案。

本发明对于无对抗样本的图数据,本系统相比其他方法平均高出了1.33%到5.41%的准确率,在含有对抗样本的图数据上使用本系统得到准确率较其他方法均有大幅度提升。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的可信图数据节点分类方法流程图。

图2是本发明实施例提供的可信图数据节点分类系统的结构示意图;

图2中:1、拓扑信息提取模块;2、归一化预处理模块;3、半监督训练模块;4、分类预测模块。

图3是本发明实施例提供的可信图数据节点分类方法的各模块及整体系统结构示意图。

图4是本发明实施例提供的实验效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种可信图数据节点分类方法、系统、计算机设备及应用,下面结合附图对本发明作详细的描述。

如图1所示,本发明提供的可信图数据节点分类方法包括以下步骤:

S101:输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;

S102:对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;

S103:使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行特征重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。

提取并聚合节点特征;

S104:利用节点分类模型对图数据中的节点完成分类预测。

本发明提供的可信图数据节点分类方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的可信图数据节点分类方法仅仅是一个具体实施例而已。

如图2所示,本发明提供的可信图数据节点分类系统包括:

拓扑信息提取模块1,用于输入拓扑图和节点特征,计算散拓扑图的离散里奇曲率提取拓扑信息;

归一化预处理模块2,用于对曲率和节点特征进行归一化预处理;

半监督训练模块3,用于在利用曲率和残差网络模型在存在包含对抗样本的图数据上进行半监督训练;

分类预测模块4,用于对没有标记的节点进行分类预测。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示,本发明将离散曲率引入图神经网络,并在原始特征上进行特征重构。充分合理的利用了图数据的拓扑信息和节点原始特征,提高了分类模型的适用性和稳定性。

离散里奇曲率计算,本发明使用Ricci–Ollivier curvature曲率计算公式,具体计算公式如下:

其中x,y表示拓扑图中的节点,k

其中α为超参数且α∈[0,1],一般将α设为0.5,

计算x节点与y节点之间瓦瑟斯坦距离的方式为求解如下线性规划:

min∑

曲率预处理,通过对一些数值较低的曲率进行预处理,降低对抗样本的影响力,具体计算公式入下:

其中p为一个超参数,表示一个百分比,percentile(K,p)计算出的是所有曲率值按升序排列后的第p%个数值。

原始特征矩阵进行归一化处理,具体处理方式为对于每一行特征向量求和并对每个特征值除以这个值,使得处理后的特征矩阵中每个特征向量特征值和为1。

基于残差网络的节点特征特征重构模块,具体方案为。对于每一个节点特征

其中sum函数表示对其中的矩阵按列求和。

曲率映射模块,其为一个偏置量为1的多层感知机,使用α=0.2的 LeakyRule激活函数,并对最终的曲率矩阵进行按行归一化处理。最终得到映射后的曲率矩阵ψ。

曲率聚合模块,基于曲率的隐藏层节点特征聚合模块,使用映射后的曲率值代替传统GCN中的拉普拉斯矩阵。层间聚合公式为:

GNN模型中各模块的网络参数在半监督学习训练过程中使用反向传播算法同步更新。

节点预测模型,使用最后一层网络的输出的节点特征向量通过一个全连接层网络,使用softmax作为激活函数,得到到节点的概率分布,取预测概率最大类别作为节点的预测结果。

下面结合实验对本发明的技术效果作详细的描述。

如图4所示,本实验通过知名开源深度学习平台Pytorch以及其衍生的图神经网络框架Torch_geometric、曲率计算相关的开源库GraphRicciCurvature以及网络分析开源库networkx实现了该模型,硬件平台基于NVIDIARTX2080。使用了四组真实数据集Cora、Citeseer、Polblogs、Pumbed和四种主流的对抗样本生成模型来验证和评估模型以及现有方法的性能,并根据模型的精准度作为评估指标对数据集和现有方法进行评估。在半监督训练中训练集、验证集、测试集的比例为0.1:0.1:0.8,所有方法训练迭代次数均为200次。

使用有目标攻击Nettack对抗样本生成模型对数据进行干扰测试时,结果显示在含有不同程度的对抗样本的数据中模型精准度相比现有方法至少提高了 1.87%-20.41%,尤其是在Polblogs数据集上,模型在最高干扰率下保持了90%以上的准确率。

使用无目标攻击Mettack和Dice对抗样本生成模型对数据进行干扰测试时,结果显示在整个数据集中含有5%、10%、15%、20%、25%、30%的对抗样本时,模型相比现有方法分别提高了至少2.98%、7.64%、13.71%、17.86、23.27%的准确率。

使用无目标攻击Random随机对抗样本生成模型对数据进行干扰测试时,结果显示在整个数据集中含有5%、10%、15%、20%、25%、30%的对抗样本时,模型相比现有方法分别提高了至少1.45%、3.66%、5.77%、8.45%、9.91%的准确率。

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种可信图数据节点分类方法、系统、计算机设备及应用
  • 一种图数据节点分类方法及装置
技术分类

06120112684579