掌桥专利:专业的专利平台
掌桥专利
首页

一种图数据节点分类方法及装置

文献发布时间:2023-06-19 11:29:13


一种图数据节点分类方法及装置

技术领域

本发明涉及人工智能领域,具体涉及处理图数据的机器学习技术,尤其是基于节点相似性的图数据节点分类方法及装置。

背景技术

节点分类任务即给定图中某些节点对应的类别,从而预测出没有标签的类别属于哪一个类别。现有的技术方法可以大致分为以下几种:

一、概率关系分类

概率关系分类器的核心思想是某节点的标签是其邻居节点的对应标签的概率的均值。首先,初始化已经存在标签的节点的分布概率,正例是1,负例是0,对于没有标签的节点概率全部设置为0.5,然后对所有没有标签的节点进行概率更新,直至收敛或者更新到最大的迭代次数。

二、迭代分类

迭代分类实质上就是考虑节点关系的同时也考虑节点的属性。首先,对于每个节点创建一个特征向量,然后利用节点的特征向量来训练分类器,如果一个节点有多个邻居节点,则需要做一个聚合操作,计算其数量、众数、比例、均值以及是否存在邻居等。训练分类器的方式和概率分类相似,不停的迭代更新每一个节点的标签,在更新节点标签的同时节点对应的特征向量也需要更新,直到生成的标签稳定或者达到最大的迭代次数。

三、图卷积网络分类

受传统的深度学习方法启发,图卷积网络是一类在处理非欧几里得数据上取得优良效果。图卷积网络致力于在一个低纬向量空间进行网络节点表示,同时保护网络拓扑结构和节点信息,能够使用简单现成的机器学习算法等作用于下游任务。Kipf和Welling等人提出了标准的GCN[1]用于节点的半监督分类。对于无向图

此时,

上述三种现有的图节点分类技术存在以下缺点:

(1)概率关系分类忽略了图节点的属性信息,不同的节点包含的属性信息不同,忽略图节点的属性信息而只考虑图的拓扑信息必然导致图分类的不准确。

(2)概率关系分类和迭代分类都不能保证算法收敛,模型可能陷入局部最优解中。

(3)现有的图卷积网络模型不能充分利用图的连接信息。图的连接信息反映了节点对的相似关系。理想情况下,连接的节点需要有相似的表征,但是现有的图卷积网络模型在节点特征聚合过程中往往会破坏节点相似性,这降低了图的节点分类的正确率。

发明内容

针对现有技术存在的问题,本发明的目的在于解决用于图数据的机器学习方法无法精确的挖掘节点之间的相似关系的问题。本发明提出一种结合图神经网络、聚类算法和最优化模型的方法和装置对图数据进行建模,深挖节点之间的相似性,得到节点的精确表征,利用得到的节点表征,可以为在图数据执行节点分类,提高了图节点分类的正确率。

根据本发明的基于节点相似性的图数据节点分类方法,包括以下步骤:

S1,获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;

S2,以聚类的方式学习图节点的隐藏层表征,针对图节点的隐藏层表征构建最优化模型;

S3,求解最优化模型,得到图节点的新表征;

S4,根据节点的新表征执行图节点分类,构建新的神经网络结构。

进一步,在步骤S2中,聚类算法对图节点在

在PRM中,如果

进一步,构建计算公式如下:

此处,DRM包含三种元素:

零元素:

正元素:

负元素:

进一步,零元素表示节点

进一步,步骤S2中,针对节点的隐藏层表征构建最优化模型

其中

进一步,步骤S3中,求解最优化模型,得到节点

进一步,构建新的神经网络结构,命名为Cluster Layer,定义如下:

Cluster Layer:

本发明还提出一种图数据节点分类装置,包括保留节点相似性模块和类似最大期望计算模块;其中,

保留节点相似性模块用于获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;以聚类的方式学习图节点的隐藏层表征;针对聚类学习得到的图节点的隐藏层表征构建最优化模型,求解最优化模型,得到图节点的新表征;根据节点的新表征执行图节点分类;

所述类似最大期望计算模块用于图神经网络的训练。

进一步,所述保留节点相似性模块包括第一处理器和第二处理器,第一处理器用于根据聚类划分节点子图,第二处理器用于构造最优化模型,捕捉节点相似性;

所述类似最大期望计算模块的训练包括两个步骤,E步和M步,其中E步执行图神经网络的初始训练;M步根据训练过程中的分类结果选择保留最合适的模型参数;交替执行E步和M步以实现图神经网络的训练。

进一步,所述保留节点相似性模块使用聚类算法对图节点在

在PRM中,如果

构建计算公式如下:

此处,DRM包含三种元素:

零元素:

正元素:

负元素:

零元素表示节点

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现根据本发明的基于节点相似性的图数据节点分类方法。

本发明还提供一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据本发明的基于节点相似性的图数据节点分类方法。

根据本发明提出的基于节点相似性的图数据节点分类方法和装置,基于保留节点相似性的图卷积网络算法,可以自动化的挖掘图数据中的隐藏信息。通过聚类算法可以自动分析节点的隐藏层特征,在聚类算法得到的结果上利用最优化模式来识别节点对之间的相似性。所述算法可以理论上保证得到最优的解。根据发明的基于节点相似性的图数据节点分类方法和装置极大提高了图节点分类的正确率。

附图说明

图1示出了根据本发明的图数据节点分类方法的图卷积网络流程图。

图2示出了根据本发明的保留节点相似性模块包含的组件以及各组件对应的功能。

图3示出了根据本发明的类似最大期望计算模块中针对图神经网络训练的计算流程。

图4示出了根据本发明的图数据节点分类方法的电子设备结构示意图。

具体实施方式

下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

本发明提出一种结合图神经网络、聚类算法和最优化模型的方法对图数据进行建模,深挖节点之间的相似性,得到节点的精确表征,利用得到的节点表征,可以为在图数据执行节点分类。

其中,图神经网络(Graph Neural Networks)用来处理图结构数据。

关于图神经网络:

图的定义如下:

关于聚类:

聚类作为一种无监督的数据挖掘方法,被广泛应用于图像处理、医学、 生物分类、考古等众多不同领域。聚类是通过一定的准则将一个数据集划分成不同的类或簇, 使相同簇内的对象之间相似度高,而不同簇的对象间的相似性尽可能小。在数据科学领域,通过聚类分析可以从数据中获得一些有价值的信息。

迄今为止,已经提出的聚类方法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。具体来说,基于划分的方法是将数据对象集合划分为若干个无交集的子集,使得每个对象仅属于一个子集。基于层次的方法是将数据对象构建成一组具有树状结构的嵌套簇,除了叶子节点的每个簇都是由其子节点的并集构成,根节点包含所有的数据对象。基于密度的聚类方法是根据单元集密度的大小将数据集分类成簇,密度高的区域聚类成簇,密度低的区域作为噪声或者孤立点处理。基于网格的方法把原数据对象空间划分成独立于输入对象分布的单元。通过构建父子级网格单元关系形成一种多分辨率的网络数据结构,将连续空间离散化成有限数目的单元,利用所形成的网格结构进行聚类。基于模型的方法需要为数据对象中的可能存在的每一簇构建一个分布模型,并假设数据对象均独立分布,通过数据对象的真实分布计算模型参数,最后利用所选模型完成聚类。

关于最优化模型:

最优化模型在经济管理工作中运用线性规划、非线性规划、动态规划、整数规划以及系统科学方法所确定的表示最优方案的模型。它能反映经济活动中的条件极值问题,即在既定目标下,如何最有效地利用各种资源,或者在资源有限制的条件下,如何取得最好的效果。最优化模型方法常用来解决资源的最佳分配问题、最优部门结构问题、生产力合理布局问题、最优积累率问题、物资合理调运问题、最低成本问题等。

最优化问题根据有无约束条件可以分为无约束条件的最优化问题和有约束条件的最优化问题。无约束条件的最优化问题就是在资源无限的情况下求解最佳目标,而有约束条件的最优化问题则是在资源限定的情况下求解最佳目标。

最优化问题根据决策变量在目标函数与约束条件中出现的形式可分为线性规划问题和非线性规划问题。如果决策变量在目标函数与约束条件中只出现一次方的形式,则称该规划问题为线性规划问题。如果决策变量在目标函数或者约束条件中出现了一次方以外( 二次方、三次方、指数、对数、三角函数等)的形式,则称该规划问题为非线性规划问题。

本发明的重点技术改进如下:

根据附图1,其示出了根据本发明的图卷积网络流程图。本发明所提出的基于节点相似性的图数据节点分类方法包括基于保留节点相似性的图卷积网络算法,其主要包含两个部分:保留节点相似性模块和类似最大期望计算模块。保留节点相似性模块主要是以聚类的方式来学习图节点的隐藏层表征,然后基于聚类的结果用最优化模型修正节点的表征。具体来说,用聚类算法对图节点在

在PRM中,如果

此处,DRM包含三种元素:

零元素:

正元素:

负元素:

零元素表示节点

其中

通过上述讨论,本发现构建新的神经网络结构,取名为Cluster Layer,定义如下:

Cluster Layer:

本发明还提供一种基于节点相似性的图数据节点分类装置,包括保留节点相似性模块和类似最大期望计算模块。

如图2所示,保留节点相似性模块用于获取图结构数据,所述图结构数据包括特征信息和拓扑结构信息;以聚类的方式学习图节点的隐藏层表征;针对聚类学习得到的图节点的隐藏层表征构建最优化模型,求解最优化模型,得到图节点的新表征;根据节点的新表征执行图节点分类。在结构上,保留节点相似性模块包括第一处理器和第二处理器,第一处理器用于根据聚类划分节点子图,第二处理器用于构造最优化模型,捕捉节点相似性。

如图3所示,类似最大期望计算模块用于图神经网络的训练。所述训练包括两个步骤,E步和M步,其中E步执行图神经网络的初始训练;M步根据训练过程中的分类结果选择保留最合适的模型参数;交替执行E步和M步以实现图神经网络的训练。

此外,如图4所示,本发明还提供一种电子设备,包括如下部件:处理器301、存储器302、通信接口303和通信总线304;其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;所述通信接口303用于实现各设备之间的信息传输;所述处理器301用于调用所述存储器302中的计算机程序,所述处理器执行所述计算机程序时实现上述基于节点相似性的图数据节点分类方法的全部步骤。

基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于节点相似性的图数据节点分类方法的全部步骤。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的基于节点相似性的图数据节点分类方法。

本发明针对基于聚类算法提出了新的图卷积网络算法,有效解决了之前技术方案中存在的弊端,图节点分类的正确率大大提高,并且在真实的数据集Yoochoose上面进行了验证,具体的评价指标数据如下表所示:

表1基准数据集上图节点分类准确率

Cora、Citeseer和Pubmed数据集是来自在论文引用的真实数据,表中的数据反映节点分类的正确率,正确率的值越高越好。其余对比方法是主流的图节点分类算法。由上述实验结果可以得知,本发明提出的方法,在图节点分类方面相比于之前的技术方案有较大提升。

本发明用一种无监督的方式学习图卷积网络的节点隐藏层表征,利用最优化模型来修正节点的隐藏层表征。本发明结合对比学习思想,利用了图节点的先验信息,从而提高图卷积网络对图节点分类的正确率。

相关技术
  • 一种图数据节点分类方法及装置
  • 一种可信图数据节点分类方法、系统、计算机设备及应用
技术分类

06120112940185