掌桥专利:专业的专利平台
掌桥专利
首页

一种基于标签感知聚合的异构图节点表征学习方法

文献发布时间:2024-04-18 19:58:30


一种基于标签感知聚合的异构图节点表征学习方法

技术领域

本文件涉及节点表征技术领域,尤其涉及一种基于标签感知聚合的异构图节点表征学习方法。

背景技术

异构图广泛地存在于真实世界的应用场景,例如,大型的社交软件、购物软件。异构图中由于各种具有不同标签或属性的节点相连,所以在异构图上学习节点的表征一直是一个开放且棘手的问题。图神经网络(GNN)因其处理结构数据的强大能力而受到越来越多的关注,并在各种实际应用中取得巨大的成功,如节点分类、链接预测、推荐系统。传统的GNN是基于同质性假设来设计的,即每条边通常连接具有类似标签或属性的两个节点,通过迭代地聚集领域的表征,GNN在同质图上保持了显著的性能。但是,在异构图上,由于不断收到来自不同领域的特征信息,特征聚合严重地过渡平滑了不同类的节点的表示,因此在异构图上性能不佳,因此,为异构图设计GNN引起广泛的关注和研究。

近几年,各种专门为异构图设计的GNN研究日新月异,为异构图设计的GNNs可以分为以下两种方法:捕捉高阶或潜在领域节点信息的方法、重构GNN架构的方法:在捕捉高阶或潜在领域节点信息的方法中,H2GCN是一种有代表性的方法,它提出了三种有效的设计,即自我和领域嵌入分离、高阶领域,以及中间表示的组合,来提高GNN在异构图上的性能;在重构GNN架构的方法中,CPGNN是其中的一个代表性方法,它使用兼容性矩阵初始化GNN来学习不同类的节点之间连接的可能性,以此来增强GNN捕获异构性的能力。同时注意到,GCNH是为每个中心节点及其领域学习单独的嵌入,然后通过平衡每个节点及其领域之间的贡献,以生成最终的表示。

上述这些方法在一定程度上可以捕获高阶拓扑信息,但它们通常会带来较高的模型复杂度,同时虽然可以区分每个中心节点及其领域的表征,但是它们都把所有的领域视为同等重要,这就不能探索相似/不相似领域的独特贡献,特别是它们对在不同同质率下对异构图的影响。

发明内容

本说明书一个或多个实施例提供了一种基于标签感知聚合的异构图节点表征学习方法,包括:

S1.获取真实数据集和合成数据集,打包后进行数据处理,提取数据集特征信息,构建模型训练数据集;其中,所述特征信息包括表征信息、标签信息、数据集的索引和邻居信息;

S2.构建异构图标签感知聚合模型LAAH;

S3.通过训练集对构建的LAAH模型进行训练,拟合学习节点的表征信息,并通过测试集和验证集对模型进行评估;

S4.通过训练好的LAAH模型,对异构图上的节点分类进行预测。

本说明书一个或多个实施例提供了一种电子设备,包括:

处理器;以及,

被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述基于标签感知聚合的异构图节点表征学习方法的步骤。

本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述基于标签感知聚合的异构图节点表征学习方法的步骤。

本发明可以便捷的采用现有的公开异构数据集以及深度学习框架进行模型的构建和预测;考虑节点模型具有较低的复杂度,设计了标签感知聚合策略,有效地利用了每个节点的相似/不相似的邻居表征信息,平衡了领域与中心节点的贡献;通过训练拟合学习节点表征信息,利用模型对异构性数据集进行节点分类预测,具有较高的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种基于标签感知聚合的异构图节点表征学习方法的流程图;

图2为本说明书一个或多个实施例提供的一种基于标签感知聚合的异构图节点表征学习方法的LAAH模型的流程图;

图3为本说明书一个或多个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。

方法实施例

根据本发明实施例,提供了一种基于标签感知聚合的异构图节点表征学习方法,图1为本说明书一个或多个实施例提供的一种基于标签感知聚合的异构图节点表征学习方法的流程图,如图1所示,根据本发明实施例的基于标签感知聚合的异构图节点表征学习方法具体包括:

S1.获取真实数据集和合成数据集,打包后进行数据处理,提取数据集特征信息,构建模型训练数据集;其中,所述特征信息包括表征信息、标签信息、数据集的索引和邻居信息。

从https://github.com/smartdata-polito/gcnh和https://github.com/smartdata-polito/gcnh分别下载获取8个真实世界的异构性数据集与其对应的10个分割和一个具有不同同质性比例,每个比例下有三个分割的合成数据集;8个真实世界的异构性数据集包括cornell、cora、citeseer、wisconsin、chamleon、squirrel、film和texas,合成数据集为syn-cora;

对获取的数据集进行清洗,去除数据集中的首行,同时将数据集表征信息中的逗号去除;

对清理好的数据集进行特征提取,得到其中节点的表征信息feature、标签信息label、根据10个分割的文件分别加载其中的训练集索引、验证集索引和测试集索引;其中真实数据集中训练集索引、验证集索引和测试集索引的比例被划分为48%/32%/20%,合成数据集中训练集索引、验证集索引和测试集索引的比例被划分为50%/20%/30%;

对于数据集中的边的文件,根据数据集的节点数量n生成对应维度的n x n大小的邻接矩阵A,根据边的文件对应的两个节点的索引,分别在邻接矩阵A中对应索引设置1,其余为0,以此得到邻接矩阵A,对邻接矩阵A进行深拷贝得到alpha_A。

S2.构建异构图标签感知聚合模型LAAH。

搭建深度学习环境,在服务器上安装anaconda,并创建一个虚拟环境,在虚拟环境中搭建Pytorch-GPU,再安装pytotch库以及scipy、numpy、networkx等所需的库包;

图2为LAAH模型的流程图,如图2所示根据所述数据集构建异质图G,对于每个中心节点v∈G,得到其邻居信息A

将v与其邻居节点N

采用多层感知器MLP分别生成中心节点v和邻居节点N

对于中心节点v,将其输入第一多层感知器MLP,其中,第一多层感知器由一个线性层和LeakyReLU构成;线性层的维度由中心节点v的初始化特征F

对于邻居节点N

为节点与邻居节点分别赋予权重alpha,1-alpha;具体的:

设置一个值的范围在[0,1]之间的alpha权重;

顺序检索邻接矩阵alpha_A,对于邻接矩阵的每一行,反映的是当前中心节点与其邻域之间的连接关系,对于其中为1的值,根据其索引值在便签信息label中判定两个节点是否是相同的类别;

对于类别相同的节点,在alpha_A对应位置赋予alpha权重,对于类别不相同的节点,在alpha_A对应位置赋予1-alpha的权重;

将邻居矩阵与邻居节点N

基于获得的节点特征和领域特征,为了平衡它们之间对最终节点表征的贡献,采用可学习参数β来更新节点v的表示,对于节点特征赋予β,对于其领域特征赋予1-β,β的值在多层LAAH模型训练中进行更新,被sigmoid函数归一化;

在LAAH模型训练时引入Dropout方法,在模型训练阶段的前向传播过程中,让某些神经元的激活值以一定的概率停止工作,避免模型过拟合。

S3.通过训练集对构建的LAAH模型进行训练,拟合学习节点的表征信息,并通过测试集和验证集对模型进行评估。

将数据集得到的节点表征feature、根据标签信息赋予alpha/1-alpha的邻居矩阵alpha_A输入模型进行训练拟合;

选择交叉熵函数L作为LAAH分类模型的损失函数,交叉熵函数L如下所示:

其中|G|表示数据集中图G的节点数,y

通过主客观方式评价LAAH模型,客观方式根据损失函数曲线收敛时,验证损失函数最小的迭代次数epoch,取该epoch对应的模型;

通过构建的LAAH模型进行训练拟合,具体步骤如下:

初始化迭代次数epoch=0,针对不同数据集,epoch取值范围为300-1500;

批次大小batchsize针对不同的数据集取值范围为50-300;

初始化学习率lr=0.005,权重衰减weight_decay取值为0.005;

使用pytorch框架构建LAAH模型,参数设置损失函数loss为交叉熵损失函数L,优化器optimizer为Adam算法;

通过pytorch内置函数来评估LAAH模型,在每个epoch训练结束后,采用测试集对当前模型进行测试,采用验证集对当前训练模型进行验证,验证集邻接矩阵采用A,如果验证集准确率高于训练集,且损失函数值小于训练集损失函数值则保存当前模型的参数信息,循环验证,直到保存最优的结果为最终LAAH模型。

S4.通过训练好的LAAH模型,对异构图上的节点分类进行预测。

通过训练阶段保存好的最优模型参数信息初始化LAAH模型;

通过用于测试LAAH模型的测试集索引,以及邻接矩阵A和节点表征信息feature对LAAH模型进行测试;

统计模型的测试率以及标准差。

本发明有益效果如下:

本发明可以便捷的采用现有的公开异构数据集以及深度学习框架进行模型的构建和预测;考虑节点模型具有较低的复杂度,设计了标签感知聚合策略,有效地利用了每个节点的相似/不相似的邻居表征信息,平衡了领域与中心节点的贡献;通过训练拟合学习节点表征信息,利用模型对异构性数据集进行节点分类预测,具有较高的准确性。

装置实施例一

本发明实施例提供一种电子设备,如图3所示,包括:存储器30、处理器32及存储在所述存储器30上并可在所述处理器32上运行的计算机程序,所述计算机程序被所述处理器32执行时实现如下方法步骤:

S1.获取真实数据集和合成数据集,打包后进行数据处理,提取数据集特征信息,构建模型训练数据集;其中,所述特征信息包括表征信息、标签信息、数据集的索引和邻居信息。

S2.构建异构图标签感知聚合模型LAAH。

S3.通过训练集对构建的LAAH模型进行训练,拟合学习节点的表征信息,并通过测试集和验证集对模型进行评估。

S4.通过训练好的LAAH模型,对异构图上的节点分类进行预测。

装置实施例二

本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器32执行时实现如下方法步骤:

S1.获取真实数据集和合成数据集,打包后进行数据处理,提取数据集特征信息,构建模型训练数据集;其中,所述特征信息包括表征信息、标签信息、数据集的索引和邻居信息。

S2.构建异构图标签感知聚合模型LAAH。

S3.通过训练集对构建的LAAH模型进行训练,拟合学习节点的表征信息,并通过测试集和验证集对模型进行评估。

S4.通过训练好的LAAH模型,对异构图上的节点分类进行预测。

本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种基于频次分布校正的低维词表征学习方法
  • 一种基于语义元语的词向量表征学习方法及系统
  • 一种基于病变类别感知的数字病理图像的表征学习方法
  • 一种基于帧率感知的自监督视频时-空表征学习方法
技术分类

06120116497799