掌桥专利:专业的专利平台
掌桥专利
首页

一种基于图结构学习的结构化深度聚类网络及方法

文献发布时间:2023-06-19 18:35:48


一种基于图结构学习的结构化深度聚类网络及方法

技术领域

本发明涉及信息处理技术领域,具体涉及一种基于图结构学习的机器学习技术。

背景技术

在信息检索、模式识别、数据分析等领域,聚类是一种重要的无监督识别过程,既可以作为其他数据挖掘算法的预处理步骤,又可以单独用于挖掘数据中的有效信息。随着数据量的与日俱增,传统的聚类算法已经无法在海量高维数据上取得良好的效果。因此深度聚类成为了研究的重点。深度聚类的基本思想是将聚类的目标与深度学习的强大表示能力相结合,因此,数据特征的充分学习和表示是深度聚类的关键先决条件。

目前的深度聚类算法,如自编码器、聚类深度神经网络等通常只关注数据本身的特征,而很少考虑数据的结构特征。但实际上,数据样本之间的结构特征能够揭示样本之间潜在的相似性,从一个新的角度为学习数据的特征表示提供了监督信息。为了充分利用数据本身的特征和数据之间的结构化特征,一些基于图卷积网络(GCN)、图自编码器等的聚类算法被陆续提出,但这些算法的前提都是假设图结构是正确的,而对于图形可能存在噪声和错误的问题没有给出解决方案,甚至可能放大图结构的质量对聚类效果的影响程度,导致在进行信息检索、模式识别、数据分析等应用时,信息提取、分析效率降低甚至出现错误。

发明内容

针对基于图卷积网络的深度聚类算法中未能考虑图结构本身的质量对聚类效果的影响这一问题,本公开提供了一种基于图结构学习的结构化深度聚类网络和方法,其能够实现对图结构的学习,纠正初始图形可能存在的噪声和错误,优化数据特征的提取过程,提升对大规模数据的聚类处理效果。

本公开提供的基于图结构学习的结构化深度聚类网络,包括:

节点特征学习模块,用于提取数据节点自身的特征;

结构化数据特征学习模块,用于学习结构化数据特征;

图结构学习模块,用于根据数据特征,包括节点特征和结构化数据特征,对图结构进行学习,并将学习到的图结构用于数据特征的进一步学习;

自监督聚类模块,对各学习模块的聚类效果进行监督,用于对整个聚类网络的数据特征提取过程进行优化。

进一步地,所述图结构学习模块捕获数据的结构信息,将节点之间的边的权值表示为这两个节点之间的距离度量,通过度量函数的学习实现图结构的学习。

进一步地,所述图结构学习模块按照以下定义对图的学习进行限制,包括:

图的平滑性限制函数:

其中,X为原始数据,一行为一条数据,列表示数据的维度,x

图的连通性和稀疏性之间的对抗平衡函数:

其中,β,γ≥0,此处的1代表元素均为1的列向量,A1代表了矩阵A和列向量1的乘积,‖A‖

进一步地,所述结构化特征学习模块采用多层的图卷积网络,通过传递算子的传送操作将所述节点特征学习模块学习到的节点特征送到对应的GCN层,学习结构化数据特征。

进一步地,所述图结构学习模块以所述图卷积网络提取到的结构化数据特征为输入,并将其输出与初始构造的图结合起来,作为所述图卷积网络的输入。

进一步地,所述节点特征学习模块使用通用的基础自编码器,或根据数据类型使用相应的自编码器,包括:针对图像数据使用卷积自编码器,针对时间序列数据使用LSTM自编码器。

本公开还提供了一种基于图结构学习的结构化深度聚类方法,包括以下步骤:

提取数据节点自身的特征;

学习数据之间的结构化特征;

根据所述节点自身的特征和数据之间的结构化特征,对图结构进行学习;

将学习到的所述图结构进一步用于所述节点自身的特征和数据之间的结构化特征的学习;

对所述提取数据节点自身的特征、学习数据之间的结构化特征、以及图结构学习的聚类效果进行监督。

进一步地,所述对图结构进行学习的步骤具体包括:

捕获数据的结构信息,将节点之间的边的权值表示为这两个节点之间的距离度量,通过度量函数的学习实现图结构的学习。

可见,本公开通过在应用自编码器和图卷积网络等提取数据的节点特征、结构化特征的基础上,加入图结构学习模块,克服初始图结构可能存在的噪声和错误,提升聚类的效果;进而构建了自监督聚类模块,用以优化整个网络面向聚类的数据表示。

与现有技术相比,本公开的有益效果是:①由于实际应用场景中初始图结构很难保证完全正确,提出了将图结构学习引入聚类过程,对数据之间的实际拓扑关系,即实际的图结构,进行了分析和构建,提高了对大规模数据进行信息分析提取的准确性和效率;②定义了图结构学习的正则化约束条件,对学习到的图结构进行限制,保证构建的图结构更加符合实际;③图结构学习,与节点特征学习及结构化数据特征学习之间进行迭代更新,能够不断优化图结构与数据表示,在存在噪声和错误的初始图结构上应用本公开能够逐步得到更为准确的图结构;④使用自监督聚类模块将各个学习模块统一在一个训练目标下,有利于对整个聚类网络的参数进行优化,提升聚类效果;⑤由于整个模型最终统一于自监督模块中,图结构学习模块能够学习到针对聚类任务优化的图结构,进而提升结构化数据特征的质量。

附图说明

图1为根据本公开的示例性实施例结构示意图。

具体实施方式

下面结合附图并举实施例,对本发明进行详细描述。

本发明提供了一种基于图结构学习的结构化深度聚类网络GSLCN。示例性实施例模型框架如附图1所示,包括:节点特征学习模块、结构化数据特征学习模块和图结构学习模块。其中:

节点特征学习模块,通常使用自编码器,提取数据节点自身的特征。自编码器由编码器和解码器组成,用于得到数据的潜在表示。

结构化特征学习模块,使用多层的图卷积网络,每层网络在执行传统的图卷积操作的同时,还通过传递算子的传送操作将自编码器学习到的节点特征送到对应的GCN层,使得图卷积网络学习到的结构化数据特征拥有更强的表示能力;

图结构学习模块主要用于捕获数据的结构信息,将节点之间的边的权值表示为这两个节点之间的距离度量,通过度量函数的学习实现图结构的学习,进而将学习到的图结构用于数据节点特征和结构化特征等的学习。

作为优选,该实施例还包括自监督聚类模块,该模块将自编码器和图卷积网络两个模块统一在一个框架之中,有效的对两个模块进行面向聚类的端到端的训练,以优化这两个模块的特征表示。

其中:

(1)节点特征学习模块

节点特征学习包括两个阶段:预训练阶段和正式训练阶段。其中,预训练阶段,是为自监督聚类模块中的聚类中心的计算提供一种较为准确的特征;正式训练阶段,则是将自身作为结构化数据特征的一部分,并作为自监督聚类模块的输入来优化聚类分配。

本实施例选择使用基础的自编码器,也可以根据数据类型换用其他类型的自编码器,如针对图像数据使用卷积自编码器,针对时间序列数据使用LSTM自编码器。

本实施例中,整个自编码器共有L层,由编码器和解码器两部分构成,其编码器部分的第l层的特征可由如下公式计算:

其中,l的取值范围为{l|1≤l≤L},

特别的,规定H

编码器模块后接的是解码器模块。为了保证提取特征的有效性,编码器模块和解码器模块的维度是严格对称的。解码器部分第l层的特征可由如下公式计算得出。

其中,l的取值范围与编码器部分相同,

最后,为了确保自编码器学习到的特征是有效的,需要使得解码器的输出R

其中,

(2)结构化数据特征学习模块

将自编码器模块学习到的所有节点特征通过传递算子整合到图卷积网络中,图卷积网络就可以有效集成数据自身特征和结构特征。

图卷积网络的单层图卷积公式如下所示。

上式中,σ为激活函数,

其中,I为单位矩阵;A为图的邻接矩阵,在本实施例中为图结构学习模块学习得到的优化后的邻接矩阵。

GSLCN中为了实现传递算子的传递操作,所用多层图卷积网络的层数与自编码器的层数一致,且对应层的特征空间的维度一致。图卷积网络第l层的计算方式如下公式所示。

Z

即,将原始数据作为图卷积网络第一层的输入。当l>1时,执行如下式所示的传递算子操作:

其中,H

Z=softmax(Z

该公式中,Z

(3)图结构学习模块

本实施例使用加权余弦相似度作为相似性度量方式。为了稳定学习过程并增强相似性度量过程的表达能力,使用m个不同的权重矩阵代表m个不同的视角,进而计算出m个独立的相似度矩阵,再取其平均值作为最终的相似度:

上式中,v是节点的特征表示,⊙代表两向量的哈达玛积。本实施例中,使用图卷积网络的提取的结构化数据特征Z

图的邻接矩阵应当是一个非负实对称矩阵,然而根据余弦相似度计算得出的相似度矩阵的元素在[-1,1]之间。此外,具有实际意义的潜在图结构应当比全连接图稀疏的多,直接使用相似度矩阵计算开销大,而且会引入大量不重要的边成为图结构的噪声。因此,对于每个节点,只考虑它的ε邻域,如下式所示。

S是由上文公式计算得出的相似度矩阵,A

另一方面,尽管通过传统的KNN算法直接构造的初始图结构带有噪声,但它仍然带有大量的关于数据的图拓扑结构的有效信息,而学习到的邻接矩阵A

A=λA

其中,λ∈(0,1)。这种方式对于Epsilon方法构造的初始图结构,也同样适用。通过这种方式计算出的矩阵A即为图卷积网络中输入的邻接矩阵A。而由于A

考虑到图神经网络对于图结构的要求,从以下三个角度对学习到的图进行约束:

约束一:平滑性。即具有相似特征的节点之间的联系应当更加紧密,即如果数据点i和数据点j相似,那么邻接矩阵中对应的值A

其中,X为原始数据,tr代表矩阵的迹(即对角线元素之和),L=D-A是图的拉普拉斯矩阵,D代表了图中节点的度。

约束二:连通性。即图中应当尽可能不存在孤立的或联系极少的节点。

约束三:稀疏性。要求图中的边的数量应当较少。图的连通性和稀疏性存在着互斥的关系。这种互斥关系并不代表着理论之间的矛盾;相反,在这种对抗中图的结构得到了进一步的优化。

本实施例中定义如下的函数来均衡这种对抗:

其中,β,γ≥0。式中前半部分要求邻接矩阵A的每个节点的度都尽可能多来增强图的连通性,后半部分则要求整个邻接矩阵的元素的平方和尽可能少来增强图的稀疏性。综合以上两个公式,得到图结构学习模块的损失函数:

L

其中α≥0。

(4)自监督聚类模块

对于已经经过了预训练的自编码器,可以在GSLCN模型初始化时,在其特征空间中应用传统聚类算法(如KMeans算法、DPC算法)来寻找聚类中心(用μ

在获得分布Q之后,计算一种更加可信的目标分布P:

使用KL散度损失函数,以目标分布P来优化从自编码器中直接获得的概率分布Q:

而图卷积网络提取的结构化数据特征也能够得到一种聚类概率分布Z,上式计算出的更加可信的分布P同样可以用于监督概率分布Z,以:

用4个超参数将这全部4个损失函数结合起来,得到本实施例最终的损失函数:

其中,

可见,自监督聚类模块从神经网络得到的聚类概率分布中得到一种可信度更高的分布,把这个更加可信的分布作为优化目标,即可利用神经网络的反向传播机制调整网络参数,让图神经网络的输出趋近于这个可信的分布,优化前面几个模块的特征提取过程。

根据该聚类网络,也可得到一种基于图结构学习的结构化深度聚类方法,包括以下步骤:

节点特征学习;

结构化数据特征学习;

利用数据特征,包括节点特征和结构化数据特征,学习图结构,并利用学习到的图结构进一步用于数据特征的学习。

其中,所述学习图结构的具体方法包括:

捕获数据的结构信息,将节点之间的边的权值表示为这两个节点之间的距离度量,通过度量函数的学习实现图结构的学习。

该深度聚类方法,还包括自监督聚类的步骤,即对所述节点特征学习和结构化数据特征学习的聚类效果进行监督,用于对整个网络的数据特征提取过程进行优化。

应用示例

在HHAR数据集上进行效果验证,HHAR是一个人类异质活动识别数据集。数据收集自多个志愿者携带传感器设备进行六种不同活动(包括了坐、站、躺、行走、上楼梯和下楼梯)时传感器返回的时序数据,包括了设备的加速度、陀螺仪角速度等信息。

利用本公开所述深度聚类网络和方法进行人类异质活动自动识别的具体过程为:

首先,根据这些基础数据计算得到总共561维的特征向量,其中每个向量代表了一次活动;

然后将该特征向量作为算法的输入X,其中初始图结构使用的是KNN图并将K值设置为10,执行本公开所述方法,依次执行节点特征学习模块、结构化数据特征学习模块、图结构学习模块和自监督聚类模块,将此过程迭代执行200次,得到每个特征向量的标签;

最后将得到的标签与真实的标签进行对比,计算聚类任务的准确率。

最终结果显示,本专利提出的方法在这个任务上的准确率达到了72.50%,作为对比,传统的KMeans算法的准确率为60%、使用了深度学习的聚类算法AE(自编码器)模型的准确率为66%。可见应用本公开进行异质活动自动识别能够取得良好的识别效果。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115628786