掌桥专利:专业的专利平台
掌桥专利
首页

一种深度图聚类方法、系统、设备、介质及终端

文献发布时间:2024-04-18 19:58:30


一种深度图聚类方法、系统、设备、介质及终端

技术领域

本发明涉及深度无监督图聚类技术领域,特别涉及一种深度图聚类方法、系统、设备、介质及终端。

背景技术

深度图聚类根据训练过程是否为端到端,将深度图聚类分为单阶段(端到端)训练图聚类模型和两阶段训练图聚类模型;单阶段(端到端)训练聚类模型将网络参数和聚类结果联合训练,端到端的得到聚类结果;经典的端到端的深度图聚类算法有图池化谱聚类(Spectral Clustering with Graph Neural Networks for Graph Pooling,MinCutPool)、基于邻域感知的深度属性图嵌入聚类(Deep Neighbor-aware Embeddingfor Node Clustering in attributed graphs,DNENC)、基于互信息最大化的图谱预训练模型(Deep Graph Infomax,DGI)等,MinCutPool利用最小分割的思想设计损失函数,直接利用模型端到端的得到类别分布,DNENC基于KL(Kullback-Leibler)散度设计损失函数,联合训练网络参数和聚类结果,DGI通过设计损失函数,捕捉数据样本的局部信息特征,端到端的获得聚类标签;两阶段聚类模型首先根据深度图神经网络模块的损失函数训练网络参数,然后利用深度图神经网络得到具有代表性的特征表示,最后利用传统的聚类算法作用于特征表示上得到最终的聚类结果,代表性的两阶段深度图聚类模型有图自动编码器(Graph Auto-Encoder,GAE)、深度线性快速图聚类(Deep Linear Coding for Fast GraphClustering,DLC)等,GAE利用图自动编码器获取原始数据的特征表示,然后将传统聚类算法K-means作用于特征表示得到最终的聚类标签;DLC利用核方法和线性变换得到原始数据的特征表示,然后通过K-means算法得到最终的聚类结果。

自动编码器通过最小化重构损失训练网络参数,重构损失最小化可以最大程度的保证提取样本特征的全面性,但该方法存在两个不足:第一,重构损失并不能最大程度的保证特征的可识别性,如猫狗分类问题,编码器提取猫和狗的特征,要想能够较好的重构猫和狗的大致形态,编码器提取到的特征就需要尽可能地全面,但这些特征并不一定都是能够识别猫和狗的最具识别性的特征;第二,自动编码器常用来无监督的提取样本特征,但并不能无监督的端到端对样本进行聚类。

公开号CN115905903A的专利申请,公开了一种基于图注意力自动编码器的多视图聚类方法及系统,包括:从同一组节点的不同视图中选择信息量最大的视图;基于信息量最大的视图和节点内容信息,利用训练好的图注意力编码器,学习图结构和节点内容,得到节点特征表示;采用l1,2-范数惩罚对节点特征表示进行特异性约束,得到约束后的节点特征表示;将约束后的节点特征表示输入到自优化聚类模块中进行聚类,得到最终的聚类结果;但由于该网络基于信息量最大的视图和节点的内容信息训练神经网络,在提取特征的时候会过分重视一些小众特征,如对于存在大量小众词汇的文本数据集,导致特征表示的代表性降低,进而导致聚类效果变差。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种深度图聚类方法、系统、设备、介质及终端,通过对原始图的重构构建重构损失进行网络预训练,构建信息损失,设计聚类损失,联合训练聚类损失、信息损失和重构损失对整个数据集进行特征提取,得出聚类结果,本发明具有特征信息挖掘充分,适用范围广,聚类效果好,样本信息识别度高以及特征表示可分性强的优点。

为了实现上述目的,本发明采用的技术方案是:

一种深度图聚类方法,包括以下步骤:

步骤1、输入原始图,利用扰动函数对其进行处理,得到扰动图;

步骤2、将步骤1中输入的原始图和得到的扰动图输入到图卷积自动编码器中,得到原始图的图重构和扰动图的图重构;

步骤3、利用步骤1中的原始图以及步骤2中原始图的图重构,构建重构损失,对自动编码器网络进行预训练;

步骤4、待步骤3中的自动编码器网络预训练完成后,将重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失;

步骤5、构建聚类损失,并利用聚类损失、步骤4中构建的信息损失以及步骤3中构建的重构损失联合训练编码器网络参数,训练结束后对整个数据集进行特征提取,基于聚类软标签得出聚类结果。

所述步骤1中,利用扰动函数对原始图进行处理,得到扰动图,具体为:

设输入的原始图为G=(X,A),其中,X={x

式(1)中,扰动函数f

所述步骤2中,将步骤1中输入的原始图和得到的扰动图输入到图卷积自动编码器中,得到原始图的图重构和扰动图的图重构,具体为:

利用图卷积网络GCN构造图自动编码器GAE,将原始数据G=(X,A)和扰动数据

所述步骤3中,利用步骤1中的原始图以及步骤2中原始图的图重构,构建重构损失,进行网络的预训练,具体为:

利用步骤2中得出原始数据的特征表示Z、原始数据的重构G

所述步骤4中,待步骤3中的网络预训练完成后,将重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失,具体为:

待预训练结束后得到编码Z,将重构原始图与原始图作为正样本对,重构扰动样本与原始图作为负样本对,构建信息损失,如式(4)所示:

式(4)中,N表示原始图的个数,M表示扰动样本的个数。

所述步骤5中,构建聚类损失,并利用聚类损失、步骤4中构建的信息损失以及步骤3中构建的重构损失联合训练网络参数,训练结束后对整个数据集进行特征提取,基于聚类软标签得出聚类结果,具体为:

设计聚类损失如式(5)所示:

L

式(5)中,

为了避免出现平凡解,则有d(z

综上所述,得出深度图聚类模型最终损失函数如式(7)所示:

L

其中,β

一种深度图聚类系统,包括:

扰动函数处理模块,用于对输入的原始图利用扰动函数进行处理,得到扰动图;

图重构模块,用于对输入的原始图和扰动函数处理模块得到的扰动图进行图重构,得出原始图的图重构和扰动图的图重构;

网络预训练模块,用于对输入的原始图以及图重构模块得出的原始图的图重构构建重构损失,进行网络预训练;

信息损失构建模块,用于将网络预训练模块得出的重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失;

聚类损失构建模块,用于构建聚类损失;

聚类训练模块,用于利用聚类损失构建模块中构建的聚类损失、信息损失构建模块中构建的信息损失以及网络预训练模块中构建的重构损失对网络参数进行联合训练;

特征提取模块,用于对聚类训练模块联合训练结束后得出的数据集进行特征提取,并给予聚类软标签得出聚类结果。

一种深度图聚类设备,包括:

存储器,用于存储实现所述的一种深度图聚类方法的计算机程序;

处理器,用于执行所述计算机程序时实现所述的一种深度图聚类方法。

一种计算机可读介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现所述的一种深度图聚类方法。

一种信息数据处理终端,所述信息数据处理终端用于实现所述的一种深度图聚类系统。

相对于现有技术,本发明的有益效果在于:

1.本发明通过步骤3中利用原始图构建深度图聚类损失,可以在不显著增加计算量的情况下,该自编码器将图结构数据作为输入,可以在不局限于传统自编码器逐个提取样本特征的同时,完全可以得到所有样本点的特征表示,挖掘样本的特征信息充分,适用范围广。

2.本发明通过步骤4中将原始数据与其重构作为正样本对,原始数据与扰动数据的重构作为负样本对,通过最小化两个图自动编码器的重构损失和聚类损失、最大化正样本对之间的互信息训练网络,从而最大限度地保证特征编码的可分性,进一步提高聚类效果。

3.本发明基于信息量最大的视图和节点内容信息,利用训练好的图注意力编码器,学习图结构和节点内容,得到节点特征表示,可以最大程度的捕捉样本中最具识别度的信息,提高特征表示的可分性。

综上所述,本发明通过对原始图的重构构建重构损失进行网络预训练,构建信息损失,设计聚类损失,联合训练聚类损失、信息损失和重构损失对整个数据集进行特征提取,得出聚类结果,本发明具有特征信息挖掘充分,适用范围广,聚类效果好,样本信息识别度高以及特征表示可分性强的优点。

附图说明

图1为本发明的方法流程图。

图2为本发明的方法原理示意图。

图3为本发明的系统结构示意图。

具体实施方式

下面结合附图对本发明做详细叙述。

本发明提供了一种实施例。

参考图1以及图2,一种深度图聚类方法,包括以下步骤:

步骤1、输入一幅原始图,利用扰动函数对该原始图进行处理,得到其扰动图,具体为:

设输入的原始图为G=(X,A),其中,X={x

式(1)中,扰动函数f

步骤2、将步骤1中输入的原始图和得到的扰动图,输入到图卷积自动编码器中,得到原始图的图重构和扰动图的图重构,具体为:

利用图卷积网络GCN构造图自动编码器GAE,将原始数据G=(X,A)和扰动数据

步骤3、利用步骤1中的原始图以及步骤2中原始图的图重构,构建重构损失,进行自动编码器网络的预训练,具体为:

利用步骤2中得出原始数据的特征表示Z、原始数据的重构G

在本实施例中,训练时使用Adam优化器,batch_size为256,无学习率衰减策略;

步骤4、待步骤3中的自动编码器网络预训练完成后,将重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失,具体为:

待预训练结束后得到编码Z,将重构原始图与原始图作为正样本对,重构扰动样本与原始图作为负样本对,构建信息损失,如式(4)所示:

式(4)中,N表示原始图的个数,M表示扰动样本的个数;在本实施例中,函数用来衡量样本和样本之间的信息依赖程度;最小化损失函数可以保证原始图与重构原始图之间的互信息最大化,使得特征表示最大程度的依赖原始图,提取最具识别性的特征信息;

通过将原始数据与其重构作为正样本对,原始数据与扰动数据的重构作为负样本对,通过最小化两个图自动编码器的重构损失和聚类损失、最大化正样本对之间的互信息训练网络,从而最大限度地保证特征编码的可分性,进一步提高聚类效果;

步骤5、本着相似度越高的数据被分到同一类的概率越大的基本原则,构建聚类损失,并利用聚类损失、步骤4中构建的信息损失以及步骤3中构建的重构损失联合训练网络参数,训练结束后对整个数据集进行特征提取,基于聚类软标签得出聚类结果,具体为:

若样本和样本被分到同一类,那么该模型使得样本和样本的特征表示和尽可能地相互靠近,设计聚类损失如式(5)所示:

L

其中,

为了避免出现平凡解,则有d(z

综上所述,得出深度图聚类模型最终损失函数如式(7)所示:

L

其中,β

参考图3,一种深度图聚类系统,包括:

扰动函数处理模块,用于对输入的原始图利用扰动函数进行处理,得到扰动图;

图重构模块,用于对输入的原始图和扰动函数处理模块得到的扰动图进行图重构,得出原始图的图重构和扰动图的图重构;

网络预训练模块,用于对输入的原始图以及图重构模块得出的原始图的图重构构建重构损失,进行网络预训练;

信息损失构建模块,用于将网络预训练模块得出的重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失;

聚类损失构建模块,用于构建聚类损失;

聚类训练模块,用于利用聚类损失构建模块中构建的聚类损失、信息损失构建模块中构建的信息损失以及网络预训练模块中构建的重构损失对网络参数进行联合训练;

特征提取模块,用于对聚类训练模块联合训练结束后得出的数据集进行特征提取,并给予聚类软标签得出聚类结果。

一种深度图聚类设备,包括:

存储器,用于存储实现一种深度图聚类方法的计算机程序;

处理器,用于执行所述计算机程序时实现所述的一种深度图聚类方法。

一种计算机可读介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现所述的一种深度图聚类方法。

一种信息数据处理终端,所述信息数据处理终端用于实现所述的一种深度图聚类系统。

本发明基于图自动编码器和对比学习的核心思想,提出了一个深度图聚类模型,该模型包含特征提取和聚类训练两个模块,在特征提取模块,利用图自动编码器的重构损失和基于互信息最大化的信息损失反向监督网络参数,使得原始图的特征表示最大限度地保证原始图的有效信息和独特信息,从而保证特征表示的有效性和可识别性,利于聚类。

除此之外,还利用相似的原始数据样本的特征表示在特征空间中也应该相似的核心思想设计了基于概率的聚类损失函数,最终将两个模块的损失函数总和作为最终的目标函数无监督的训练网络参数,使得模型的聚类性能最优;为了验证该模型的聚类性能,在三个标准的图数据集上使用该模型进行聚类,并与现有的聚类方法进行比较,证明该模型可以有效提升聚类性能,对比了本发明相比与已有技术方案的实际效果,详细数据如表1所示:

表1

从表1中可以看出,通过在Core,Citeseer和Pumbed三个公开数据集上进行聚类操作,通过本发明方法得到的聚类结果在聚类精度(ACC)和归一化互信息(NMI)两个指标上与其它方法得出的聚类结果相比具有明显提升。

本发明与大部分现有深度无监督聚类模型相比,聚类性能有很大提升,这是由于与其他无监督聚类模型相比,本模型在提取原始图特征时,不仅考虑了特征表示保留原始图信息的全面性,还考虑了特征表示保留原始图信息的独特性,使得特征表示在保证信息有效性的前提下最大程度的依赖原始图,较好的提升了特征表示的可识别性,从而提升聚类性能。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令;在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置;所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输),所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备,所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种终端设备的充电方法、终端设备及计算机存储介质
  • 一种基于智能终端的定位方法、系统、存储介质及设备
  • 一种系统容量预测方法、计算机可读存储介质及终端设备
  • 一种移动终端系统界面设置方法、装置、介质和设备
  • 一种图像白平衡方法及系统、存储介质及终端设备
  • 一种深度图像聚类方法、系统、设备、介质及终端
  • 深度图卷积短时客流预测方法、系统、介质、设备及终端
技术分类

06120116502897