掌桥专利:专业的专利平台
掌桥专利
首页

多语义异质图的通用嵌入框架的构建方法

文献发布时间:2023-06-19 11:29:13


多语义异质图的通用嵌入框架的构建方法

技术领域

本发明涉及图神经网络领域,尤其涉及一种多语义异质图的通用嵌入框架的构建方法。

背景技术

图嵌入工作通过提取图中节点的深度特征表示,来实现拓扑图上的节点分类、链接预测等应用,随着各类网络结构的多模态化,最新的图嵌入方法已经逐步抛弃同质信息网络的建模方法,而关注于将这些互联的图数据建模为由不同类型节点和边构成的异质信息网络,并利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现。相较于同质网络,异质网络中多类型对象和关系共存,包含丰富的结构和语义信息,从而为发现隐含模式提供了精准可解释的新途径。例如,推荐系统的异质网络中不再只有用户和商品这两种对象,而是包含店铺、品牌等更全面的内容,关系也不再只有购买,而是含有收藏、喜爱等更精细的交互。基于这些信息,利用元路径和元图以及属性异质网络等语义挖掘方法,可以产生更精细的知识发现,如提高推荐系统的可解释性及准确率等。

异质图包含了两种以上类型的节点或边。由于异质网络的特殊性,早期的许多同质网络的表示学习方法并不能直接应用于异质网络,其主要存在两点挑战:

(1)节点和边的异质性。不同类型的节点和边代表不同的语义,因此异质网络的表示学习需要将不同类型的对象映射到不同的空间中。此外,如何保存每个节点的异质邻居及如何处理异质的节点序列也是值得探究的问题。

(2)异质网络中丰富信息所带来的多语义刻画问题。异质网络从多个维度刻画节点的语义,如何有效抽取和利用多维度信息并将其抽象成为赋予节点的语义信息,从而得到全面的节点表示也是巨大的挑战。

多语义异质图(Multi-Semantic Heterogeneous Graphs)较普通异质图更为复杂,其多语义异质图在具有多重边属性/节点属性的基础上,每个节点同时蕴含着多重的语义信息,由此可见节点所参与的不同链路信息很有可能代表着节点所包含的多重语义,但是这种考量有两个缺点:其一,这种思想弱化了图嵌入工作最基础的一个要素:我们是在复杂的图上进行工作,而不是在一组链路上。其二,即使基于链接路径进行网络嵌入的模型在某个图结构上取得了优异的效果,也很难保证他会在另一个图结构上运行良好,更糟糕的是,如果面对一个难以建立有效链路的图结构,那么无论如何调整参数,这类基于具体链路的方法也无法取得良好的效果。

近些年,深度神经网络在计算机视觉和自然语言处理等领域取得了巨大成功。一些工作也开始尝试利用深度模型来对同质/异质网络中不同类型的数据进行建模。相对于浅层模型,深度模型可以更好地捕捉非线性关系,从而抽取节点所蕴含的复杂语义信息。

图卷积网络通过执行邻域卷积操作逐层传播图的结构信息,并使图嵌入方法摆脱链接指导学习的困扰;但是都侧重于改进基础的图神经网络模型,例如引入自编码器,或改进节点的采样工作,这些工作取得了一定的进展,但同时表明了一点:元路径在异质图表示学习中是一个难以取舍的要素,总的来说,元路径割裂了图的原始结构,却在很大程度上简化了多重语义信息的刻画,这导致当前的多语义异质网络嵌入模型无法兼顾图结构捕捉与多语义捕捉。

发明内容

本发明的目的在于克服现有技术的不足,提供一种多语义异质图的通用嵌入框架的构建方法。

本发明的目的是通过以下技术方案来实现的:

多语义异质图的通用嵌入框架的构建方法,包括以下步骤:

步骤1:构建一种邻域探索策略α-exploration,平滑的将DFS与BFS两种探索策略进行拼接,以适应不同的异质网络结构,并实现对特定语义邻居的捕捉;

步骤2:基于α-exploration,构建HNSE模型,包括α-exploration邻域探索层、多语义学习层和节点分类层,在保留节点的异构信息与语义信息的同时,学习节点的低维嵌入;

步骤3:以残差的形式实现多层HNSE模型,并在多层HNSE模型后接全连接输出层;

步骤4:构建HNSE的三种扩展策略,包括共享型注意力机制、多头语义注意力分歧正则化和多语义自注意力层,以满足不同类型的异质网络对嵌入框架的要求。

进一步的,所述邻域探索策略α-exploration包括步骤:

步骤101:定义一个用于指导探索方向的参数α;

步骤102:在给定的异质图ɡ与元路径Φ中,对于节点V

步骤103:以α的概率,将直接邻居加入邻居集合;以1-α的概率,将元路径邻居加入邻居集合。

进一步的,所述多语义学习层包括特定语义学习和多重语义合并;所述特定语义学习和所述多重语义分别应用在框架的不同位置;对于节点的某一种特殊语义,利用α-exploration对节点的邻域进行探索,并使用注意力机制对得到的邻居信息进行聚合;在整体的框架视图上,使用多头机制来结合节点的不同语义。

进一步的,所述特定语义学习以元路径作为指导,来学习节点的特定语义;

对于节点以及其基于元路径求得的邻居节点集合,并为每一个与该节点的节点类型不同的元路径邻居应用一层线性映射,以将不同类型的节点映射到统一的特征空间;

之后再计算每个邻居与V

最后,将注意力系数进行加权聚合。

进一步的,所述多重语义合并具体为:在得到节点在特定语义下的特征表示之后,使用多头机制合并多种语义信息,以完成节点多语义特征表示的合并;所述多头机制中的每一个注意力头分配了不同的语义学习任务。

进一步的,所述注意力头的数量等于元路径的种类数,若多头注意力机制在网络的最终层上执行,则采用求平均的方式聚合各个注意力头上的语义信息。

进一步的,所述步骤3还包括模型训练;所述模型训练具体为:在得到节点的最终嵌入之后,将其应用于不同的下游任务,并设计不同的损失函数;对于半监督的节点分类任务,将最终嵌入送入softmax功能的全连接层以进行节点分类标签;在标记数据的指导下,使交叉熵损失最小。

进一步的,所述共享型注意力机制具体为:为相同类型的邻居节点施加共享的注意力权重。

进一步的,所述多语义自注意力层通过改进多头注意力的聚合操作,计算不同的注意力头所代表的特定语义的重要性差异,以了解每种语义在任务中的重要性。

本发明的有益效果:通过聚合不同类型的相邻/元路径邻居节点来嵌入多语义异质图的每个顶点,并为HNSE设计了一种结合元路径邻居与直接邻居的节点聚合采样策略,以指导HNSE中的多头注意力机制;同时,针对HNSE提出了3种变体,即共享型注意力机制、多头语义注意力分歧正则化和多语义自注意力层,HNSE在三个流行的数据集上的综合实验表明,本方案所提出的方法在多语义异质图上的节点分类精度全面优于最新方法,并利用元路径改善节点多语义信息的捕捉。

附图说明

图1是本发明的方法流程图。

图2是本发明的HNSE的架构图。

图3是各个数据集上HNSE的分类性能对比图。

图4是M_HSNE中的注意力头数对其在IMDB与Aminer数据集上的Mic F1的影响图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。

本实施例中,如图1所示,多语义异质图的通用嵌入框架的构建方法,包括以下步骤:

步骤1:构建一种邻域探索策略α-exploration,平滑的将DFS与BFS两种探索策略进行拼接,以适应不同的异质网络结构,并实现对特定语义邻居的捕捉;

步骤2:基于α-exploration,构建HNSE模型,包括α-exploration邻域探索层、多语义学习层和节点分类层,在保留节点的异构信息与语义信息的同时,学习节点的低维嵌入;

步骤3:以残差的形式实现多层HNSE模型,并在多层HNSE模型后接全连接输出层;

步骤4:构建HNSE的三种扩展策略,包括共享型注意力机制、多头语义注意力分歧正则化和多语义自注意力层,以满足不同类型的异质网络对嵌入框架的要求。

1、框架

本方案首先定义多语义异质图的基础概念与问题定义,随后,将HNSE框架分为2部分:邻域探索与多语义学习框架,最后,所述框架可以拼接任意的下游任务学习框架。

1.1问题定义:

异质图:ɡ=(V,ε)由一组顶点V与一组边ε构成,异质图同时包含一组节点类型A与一组边类型R,并满足|A|+|R|>2。每一个v∈V都属于A中的一种节点类型,用映射函数φ:V→A表示;每一条e∈ε都属于R中的一种边类型,用映射函数

1.2邻域探索策略

1.2.1节点的邻居定义

如果将节点的邻域聚合采样类比于随机游走采样,则可定义异质图上的2种邻居探索策略:基于元路径的邻域探索:元路径是异质图网络中的基本结构,重点强调元路径与语义信息之间的关联;一种元路径通常对应一种语义,而一张异质图可能包含多种元路径,我们用Φ表示一条元路径。对于某一个节点和异质图上的一条元路径Φ,由元路径Φ所确定的一组邻居称为该节点的关于元路径Φ的元路径邻居。给定一个节点i和一个异构图中的一个元路径Φ,将节点i的基于元路径的邻居

直接邻域探索:直接邻域Ni是图中节点i的某个邻域,为了使直接邻居与元路径邻居之间没有交集,与之前的设置不同,这里不将节点本身加入其直接邻居集合中。直接邻域探索策略对异质图上的节点附近的局部信息进行特别关注,基于图卷积或图注意力网络,这种邻域探索策略可以对网络结构进行完整且有效的表示学习,但仅限于该节点的局部邻域,如果想探索更大的区域,则需要加深网络的层数或增加单层的参数(增加聚合邻居的阶数),这会大大增加模型的复杂度,同时带来过度平滑等问题。

直接邻居更好的保留了节点周围的图结构信息,而元路径邻居则对节点所携带的语义信息进行了更加明确的区分。我们可以认为基于元路径的邻域探索更偏向于DFS(深度优先探索),关注于节点的宏观试图;而基于直接邻居的邻域探索更偏向于BFS(广度优先探索),关注于节点的微观视图。基于此,平滑的将两种邻域探索策略进行拼接,以适应不同的异质网络。通过一个参数α来决定以更偏向DFS的方式来探索异质图,还是以偏向BFS的方式来探索异质图。

1.2.2α-exploration策略

给定异质图ɡ=(V,ε)与元路径

其中

其中

算法:

输入:异质图ɡ,元路径Φ,节点v

输出:节点的邻居集合

例如利用α-exploration探索节点A

可以清晰地发现,随着α的变化,邻域探索策略遵循从DFS到BFS的模式渐变。因此α数值的变化深刻的影响着下游嵌入框架的预测性能,如果在不同的数据集上使用相同的α。将在不同的数据集上看到这种差异。因此,对于一些拥有合理且完全的元路径设计方案的数据集,α应该设置为较小的值,使邻域探索策略偏向DFS;而对于一些元路径较少或不完备的数据集,α应该设置为较大的值,使邻域探索策略偏向BFS。

1.3HNSE

如图2所示,为本方案优选的HNSE的模型架构图,模型旨在保留节点的异构信息与语义信息的同时,学习节点的低维嵌入表示

为了学习节点的多语义信息,本方案提出2种方法,一种是利用元路径来分离学习语义信息,另一种是利用多头机制合并不同的语义信息;并在模型的不同位置分别应用这两种方法:对于节点的某一种特殊语义,我们利用α-exploration对节点的邻域进行探索,并使用注意力机制对得到的邻居信息进行聚合,以帮助模型更灵活、更有效的建模节点的邻居信息;在整体的模型视图上,使用多头机制来结合节点的不同语义。

特定语义学习:以元路径Φ

特别的,针对节点本身以及与节点类型相同的邻居节点,我们用

其中,[·||·]表示向量拼接,

多重语义合并:在得到节点在特定语义下的特征表示之后,使用多头机制合并多种语义信息,以完成节点多语义特征表示的合并;需要注意的是,本方案为每一个注意力头分配了不同的语义学习任务,因此模型中的注意力头数等于元路径的种类,这使得该模型在利用多头机制自我稳定的基础上,还能学习到不同语义之间的特征差异。具体来说,使用拼接的方式聚合每个注意力头上的特征表示:

特别的,如果在网络的最终(预测)层上执行多头注意力机制,则采用求平均的方式聚各个注意力头上的语义信息:

至此,我们已经得到了v

多层HNSE模型后接全连接输出层(通常是用于分类问题的softmax或logisticsigmoid)。整体上,模型类似多头图注意力网络。

1.4模型训练

在得到节点的最终嵌入表示

其中,V

算法:

INPUT:异质图G,节点特征{h

OUTPUT:节点多语义嵌入

For attention head 0to K do:

2、扩展策略

2.1共享型注意力机制

一种能极大程度减少模型参数的方法是为相同类型的邻居节点施加共享的注意力权重,本方案将节点v

其中,r表示节点v

2.2多头语义注意力分歧正则化

Disagreement on Inputs:输入分歧正则项旨在通过差异化每个注意力头的输入向量来实现注意力头之间的分歧。本方案通过计算不同注意力头上的输入节点特征向量之间的余弦相似度,并使所有成对的注意力头之间的平均余弦距离最大来实现注意力输入上的分歧,施加的正则项如下:

其中,

Disagreement on Outputs:输出分歧类似于Disagreement on Inputs,我们通过最大化每一对注意力头上的z

2.3多语义自注意力层

本节考虑语义之间的重要性差异,这在某些异质图结构上体现的尤为重要,而由于每个注意力头代表一种特定的语义,现有输出的K个特定语义嵌入

其中,v为可训练的语义注意力向量,W为参数矩阵,b为偏置,在归一化之前将含有特定语义的节点嵌入的注意力分数进行平均化。最后,将K个语义嵌入进行注意力加权求和:

3、实验

本实验用于多语义异质图嵌入表示学习的框架的有效性和效率。

3.1数据集

IMDB:数据集中的实体包括演员、电影、导演,其中,电影所参与的链接类型包括电影-演员、电影-导演(即电影类型节点的直接邻居类型包括演员与导演),电影根据类型标签分为三类:动作,喜剧或戏剧。电影的特征定义为其关键词集合。最后,本节设置了MAM和MDM两种元路径方案,执行电影分类任务。

DBLP:构建DBLP数据集的子集,数据集中的实体包括论文、作者、会议、术语,其中,每个作者又属于四个研究领域中的一个:数据库,数据挖掘,机器学习和信息检索,作者所参与的链接类型只有作者-论文,这些论文由20个不同的会议发表,每位作者均根据其论文的研究领域进行标签标记,作者的特征定义为其所发表的论文的关键词集合。这里将APA、APCPA和APTPA设置为元路径方案,执行作者分类任务。

AMiner:我们构建了AMiner数据集的子集,数据集中的实体包括论文、作者,作者所参与的链接类型包括作者-作者、作者-论文。与DBLP相似,AMiner中的每篇论文都以关键词袋为特征,论文和作者均被标记为四个研究领域:数据库,数据挖掘,自然语言处理和计算机视觉,这里将APA和APCPA作为元路径方案,执行作者分类任务。

3.2对比实验

这里将与一些最新的基线方法在以上三个数据集上进行了比较,包括(异构)网络嵌入方法和基于图神经网络的方法,以验证所提出的HNSE框架的有效性。

metapath2vec设计了元路径,以指导异构图中的随机游动,然后遵循跳跃语法模型来学习顶点的潜在空间表示。

GCN是为同质图设计的半监督图卷积网络。我们通过忽略节点和链接的类型,将同构图嵌入方法(GCN和GAT)转换为用于异构图嵌入学习的模型,GCN层数设置为3。

GAT向GNN框架引入了一种注意力策略,通过聚合直接邻居的特征以丰富节点的特征表示。我们在对比实验中将GAT层数设置为3,每层注意力网络节点数设为8*8。

HAN向GNN引入了两级分层注意,其中节点级注意捕获由一个元路径方案生成的相邻节点之间的关系,而语义级注意聚集多元路径方案对于图中的每个节点,注意力网络节点数设为8*8。

HetSANN通过应用图神经网络,以注意力机制聚合投影邻域的多关系信息来学习异质节点的特征表示。我们在对比实验中采用3层注意力机制,每个注意力层均由8个关注头组成。

此外,我们还测试了HNSE的三个扩展版本,已验证其中分别包含的嵌入学习方法的有效性。

Satt-HNSE在HNSE的基础上,为相同类型的邻居节点施加共享的注意力权重。

DI-HNSE在HNSE的基础上,执行注意力头输入的分歧正则化。

DO-HNSE在HNSE的基础上,执行注意力头输出的分歧正则化。

M-HNSE在HNSE的多语义学习层改为自注意力层,以学习不同的注意力头所代表的特定语义的重要性差异。

3.3超参数设定

对于提出的HNSE框架,随机初始化参数并使用Adam优化模型,本方案将学习率设置为0.005,将正则化参数设置为0.001,初始节点嵌入尺寸设为64,特定语义注意力层的隐藏单元数设为8,另外,如果验证损失连续100个周期都没有减少,将停止训练。

注意头K:我们统一设置为8,但其在不同的数据集上组成方式不同,例如,AMiner数据集只有一种元路径(即只有一种基于元路径的语义信息),因此只最少只需要一个注意力头即可学习全部的元路径语义,在这种情况下,这里将这个注意力头重复8次;而对于DBLP数据集,其拥有三种元路径,因此最少需要三个注意力头,这里将这三个注意力头分别重复3次,舍去最后一个注意力头,以使得注意力头总和相同。

α-exploration策略中的调节参数:为了验证HNSE的灵活性——即在不同数据集上调整的能力,本实验为不同的数据集赋予不同的调节参数,α

3.4评价指标

评价指标:这里将3个数据集均按0.8:0.1:0.1的比例随机分为训练集,验证集和测试集。然后,在每个比较模型的验证集中选择最佳组合,然后在测试集中通过Micro F1和Macro F1对其进行评估。对于每个模型,将报告10次重复过程的平均性能,对比实验如表1所示。

表1各模型性能对比实验表

3.5模型分析

在所有的分类任务中HNSE及其变体模型都取得了最好的效果,这也验证了模型在不同数据集上的可用性与灵活性。其中,在IMDB的电影分类任务中,M-HNSE比最优的基线算法—HetSANN在Mic F1与Mac F1上分别提高了4.6%与3.7%,而在AMiner的作者分类任务中,M-HNSE要比最佳的基线方法—GAT分别高4.0%与5.9%,由于在α趋近于1时,执行一阶邻域聚合的GAT与HNSE相似,与M-HNSE的区别也仅为一层自注意机制(施加在多个注意力头上),验证了语义之间也存在着可学习的重要性差异,且可以通过多头注意力之间的自注意力机制进行学习;在DBLP的作者分类任务中,DI-HNSE与DO-HNSE基于使用较为完善的元路径设计方案以及分歧的多头注意力机制,达到了通过差异化不同元路径的特征学习过程来学习特定语义的目的,其中DO-HNSE取得了最好的效果,比最优的基线模型HAN在Mic F1与Mac F1上分别提高了3.6%与3%;在这一任务上M-HNSE作为最复杂的HNSE变体却未取得最优的精度,这是因为DBLP数据集中,节点邻域所包含的多种语义已被元路径进行了明确分割,在将注意力头定义为元路径的基础上,此时再施加一层注意力机制对语义间的差异进行学习的效果几乎等同于对注意头施加分歧正则化,但增加了模型复杂度。

虽在在三个数据集上,Satt-HNSE的分类性能均不同程度低于基础的HNSE模型,到考虑到其降低模型复杂度的能力(在IMDB数据集上,当与HNSE比较时,Satt-HNSE的模型每轮迭代时间下降了37%);因此,可以认为在一些拥有极多节点数量与类型而导致注意力权重训练困难的复杂异质图上,仍然需要通过共享注意力权重来在某些场景下降低模型的训练消耗。

3.6参数分析

通过研究一些基础HNSE的参数,了解其在模型中的工作原理以及变化范围。

α-exploration策略中的调节参数:本方案通过固定其他的参数,在三个数据集上变化α的取值,同时报告各个数据集上HNSE的分类性能。结果如图3所示,可以看到,随着α的增大,DBLP数据集上的F1 Score率先来到峰值,其次是IMDB,最后是Aminer,这符合α-exploration策略的采样原理,即α的取值,决定于数据集的元路径构建是否完善,或在不同的元路径上体现出的多语义信息是否足够丰富,比如当在Aminer数据集中使用较大α时,HNSE只能从APA这一条元路径中获取到“共同创作过同一篇论文”这一类语义信息,而忽略了大部分直接邻域的语义信息,导致其预测准确度十分糟糕;本方案在图中选择了GAT与HAN作为对比,这是因为在两种极端的α取值情况下,HNSE的模型结构会非常接近这两种方法,这是图中的精度曲线的两端会一定程度上接近GAT与HAN的精度的原因。

注意头数K:通常来说,注意头越多,模型的性能越好。但是,由于HNSE中的多头注意力机制与训练集数据(元路径个数)有着更加紧密的联系,这里测试了M_HNSE中的注意力头数K对其在IMDB与Aminer数据集上的Mic F1的影响,如图4所示,在Aminer数据集上,多头注意力机制更多承担的是提升模型稳定性的任务,而对模型精度的提升收效甚微,但在IMDB数据集上,随着K的指数增长,模型的Mic F1 Score增长较为明显,这是因为相较于Aminer,IMDB拥有更为复杂的元路径种类,导致其更依赖多个注意力头来分别进行不同的语义学习任务—以元路径进行任务划分,不过当K增长到一定程度时,模型仍会呈现出过拟合的趋势。当数据集中隐含的元路径在2到4种时,我们建议K取8,可以兼顾模型的精度与复杂度,当然,在面对蕴含更复杂语义的异质图时,可能需要适当增大K的取值。

本发明通过聚合不同类型的相邻/元路径邻居节点来嵌入多语义异质图的每个顶点,并为HNSE设计了一种结合元路径邻居与直接邻居的节点聚合采样策略,以指导HNSE中的多头注意力机制;同时,针对HNSE提出了3种变体,即共享型注意力机制、多头语义注意力分歧正则化和多语义自注意力层,HNSE在三个流行的数据集上的综合实验表明,本方案所提出的方法在多语义异质图上的节点分类精度全面优于最新方法。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

相关技术
  • 多语义异质图的通用嵌入框架的构建方法
  • 复杂地理实体快速查询的空间语义模式图构建及搜索方法
技术分类

06120112940707