掌桥专利:专业的专利平台
掌桥专利
首页

基于可信邻居信息聚合的多视图数据无标签聚类方法

文献发布时间:2024-04-29 00:47:01


基于可信邻居信息聚合的多视图数据无标签聚类方法

技术领域

本发明属于人工智能研究领域,是一种基于可信邻居信息聚合的聚类信息学习方法,用于无监督学习、多视图聚类等人工智能领域任务。

背景技术

得益于多媒体技术的快速发展和广泛应用,一个对象可以从各种角度进行描述,并以多种模态形式呈现。对于站立,可以从不同角度描述3D对象;一个新闻事件是从不同的来源报道的;并且图像可以由不同类型的特征集来表征,例如,SIFT、LBP和HoG。通过组合来自这些不同视图的信息,可以获得对对象更全面、更完整的描述,形成多视图(模态)数据。由于许多真实世界的多视图数据集缺乏标记。利用可用的多视图资源将未标记的多视图数据聚类到不同的组中,即无监督地融合多视图数据以帮助区分关键分组,是数据挖掘、模式识别等领域的一项基本任务,同时也引起了众多领域的广泛关注。例如,推荐系统、疾病诊断和分析和图像识别。

现有的多视图聚类任务在实际应用领域中还存在一些共性问题:(1)原始数据具有丰富的语义信息,但现有的方法倾向于对原始数据进行无差别的处理,并且没有关注或明确原始空间数据中的哪些信息在聚类任务中起主要作用。相反,他们专注于在求解过程中寻求多视图数据的一致表示。这可能受到原始数据中对聚类任务不重要的不相关信息(如视觉图片中对象的背景和细节,以及与聚类目标无关的文本描述)的影响。(2)在构建的K最近邻图中,将与它们自身具有最大相似性的K个数据视为同一类进行处理可能会导致蔟级信息的不一致。(3)许多方法在最终的一致性表示或相似性图上使用k-means或谱聚类来获得最终的聚类结果,这要求聚类表示具有高质量(在同一蔟内紧凑,在不同蔟之间分离,并且具有较少的异常值)。当前的多视图聚类方法可以归为一下几类:

基于非负矩阵分解的多视图聚类方法。非负矩阵分解方法使用低秩近似策略将数据因子分解为低维因子矩阵的乘积,其中一个矩阵表示样本在共享的隐空间中的表示,另一个矩阵表示每个视图上的特征权重。通过非负矩阵分解构建深层结构融合多个视图的信息来提高聚类的准确性和鲁棒性,以寻求特征一致的潜在表示。

基于子空间的多视图聚类方法。多视图子空间聚类的目的是将每个数据点处理为由其他数据点线性组合的表示。这是基于样本通常由潜在的低维子空间得到而不是从实体空间得到的这一流行假设。此方法侧重于学习多视图系数表示。然后,由学习的多视图表示构建合并为亲和矩阵,并对亲和矩阵执行谱聚类以获得聚类标签。利用子空间聚类的自表达性,多视图数据的子空间聚类性能具有有效性和噪声鲁棒性。

基于核k-means的多视图聚类方法。k-measns聚类方法只能发现线性可分的蔟,在线性不可分的情况下不能起到很好的效果。核k-means算法可以通过核函数将输入的数据映射到非线性高维特征空间来解决这一问题的限制。通过对每个视图的核矩阵进行加权组合,得到最终的聚类表示矩阵,进行k-means聚类后得到最终的聚类结果。

基于神经网络的多视图聚类方法。如自编码器、变分自编码器等深度学习模型。通过优化预先设定的由网络得到的潜在表示之间的关系函数作为损失函数进行网络的优化,进而得到更合理的潜在表示。相比于以上方法,神经网络由于有很强的泛化能力和一定的容错能力,因此神经网络在应用的时候适用范围更广。

现有多视图聚类方法大多是直接在原始数据上寻求多视图之间的一致表示。然而,特征空间中的原始多视图数据往往包含与聚类任务无关的信息,使用现有方法很难将其分离。这种不相关的信息与聚类信息被同等地处理,从而对最终的聚类性能产生负面影响。

发明内容

针对现有技术存在的问题,根据本申请一些实施例的无标签多视图数据聚类方法,包括

S110.对各视图的实例矩阵X

S120.将第一潜在表示矩阵H

S130.对各视图的标签矩阵分布P

根据本申请一些实施例的无标签多视图数据聚类方法,对比学习分析,包括

S131.计算任意两个视图的标签矩阵分布P

S132.根据相似度度量s,计算对比学习损失函数

式中,

根据本申请一些实施例的无标签多视图数据聚类方法,对比学习损失函数

式中,

根据本申请一些实施例的无标签多视图数据聚类方法,对比学习损失函数

通过将第一潜在表示矩阵H

计算损失函数

损失函数

式中,

根据本申请一些实施例的无标签多视图数据聚类方法,还包括

S210.对各视图的实例

S220.将聚类信息

S230.将第二潜在表示

S240.根据第一潜在表示矩阵H

S250.根据图G

S260.根据实例

S270.根据第二可信邻居

S280.将实例

根据本申请一些实施例的无标签多视图数据聚类方法,步骤SS210中对各视图的实例

式中,

步骤S240中根据第一潜在表示矩阵H

式中,

根据本申请一些实施例的无标签多视图数据聚类方法,步骤S260中根据实例

式中,t

表示第一可信邻居,由公式表示:

式中,

步骤S270中根据第二可信邻居

式中,

式中,C

根据本申请一些实施例的无标签多视图数据聚类方法,还包括通过KL散度最小化实例

式中,

根据本申请一些实施例的无标签多视图数据聚类方法,还包括

S310.对于两个不同的视图,计算混合信息分布M;

S320.根据混合信息分布M,计算第损失

S330.计算损失

根据本申请一些实施例的无标签多视图数据聚类方法,损失

式中,

损失

表示损失,/>

有益效果:

本发明用于提取和识别聚类信息,将聚类分布矩阵的列抽象为不同聚类的特征,以进行对比学习,使得聚类分布层具有实际的聚类意义。

在进一步的方案中,利用从模糊映射层提取的聚类信息分布,通过拟合归一化图中受信任邻居信息去偏聚合后的倾向分布,归一化图考虑了视图内的全局结构和视图之间的聚类级别一致信息。

在进一步的方案中,本发明还增强了视图之间聚类信息分布的耦合以及对聚类信息进行重构,自适应地确定信息提取的质量。

实验例通过在四个公开数据集上进行的大量实验表明本发明优越的性能。

附图说明

图1是本发明基本框架。

图2是本发明工作流程图。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

实施例:本发明是一种无标签多视图数据聚类方法,方法通过对比学习对聚类分布层赋予了实际的聚类意义。然后,对归一化图的可信邻居实例分布进行去偏聚合,形成聚类信息倾向分布,并使聚类信息分布拟合该分布。此外,对同一样本上不同视图中聚类信息分布的耦合度进行提高。通过上述策略,将原始数据模糊映射为聚类信息,增强了网络识别聚类信息的能力。根据上述构思,本发明具体是一种基于自监督学习、对比学习和可信邻居信息聚合的多视图数据无标签聚类方法,包括:

首先,利用深度编码器将不同视图的数据映射到潜在空间得到相应的潜在表示后,将每个视图的列表示抽象为蔟级表示进行对比学习。

其次,使用模糊映射进行聚类信息的预测,根据不同视图间的蔟级一致性和语义一致性构建可信邻居,利用去偏聚合可信邻居信息得到聚类信息倾向分布,将聚类信息分布与聚类信息倾向分布进行拟合,得到聚类信息。

最后,可选地,使用不同视图间的混合聚类信息分布,进行聚类信息的优化,并评估聚类信息提取质量。

本发明以聚类分布矩阵的列作为蔟的抽象表示进行对比学习,使聚类分布层的输出可以像分类任务一样直接输出聚类标签。这减缓了现有的聚类方法如k-means、谱聚类等对聚类表示质量有着较高的要求的问题。

本发明考虑到视图内的结构信息和视图间的蔟级一致性信息,从构建的归一化图中选取可信邻居。并且通过去偏聚合的策略可靠的估计了聚类信息分布。

本发明了从两个具有相关的分布中计算他们的混合分布,以估计这两个分布之间的一致性分布。

本发明聚类信息提取策略提取的聚类信息可以很好的应用到其他多视图聚类模型上。

根据上述构思,在本实施例中,各步骤具体如下:

给定一个多视图数据集

S1:使用深度编码器以及聚类分布层将不同视图的数据映射到潜在空间得到相应的聚类标签分布后,将每个视图的列表示抽象为蔟级表示,然后进行对比学习。此步骤可有效解决现有多视图聚类方法对聚类表示的质量要求过高的问题,并通过对比学习使聚类分布层输出实例的软聚类分配分布,提高聚类结果的鲁棒性。

S11:本发明的目标是通过利用不同聚类中不同特征的先验知识,获得与分类任务中类似的标签。为了实现这一目标,首先从视图1的实例矩阵

式中,

本发明在步骤S11中计算任一两个视图a和b的聚类标签分布矩阵中不同列i和j之间的相似性,得到k×k的相似度度量矩阵s。

S12:对于具有V个视图的数据,需要在所有视图之间进行对比学习,计算对比学习损失,包括如下:

根据似度度量s,计算对比学习损失函数

式中,

此外,为了防止模型退化并鼓励潜在表示H捕捉输入空间中的信息语义特征,本发明添加正则化项和通过将潜在表示H输入解码器

式中,

此步骤使聚类标签分布矩阵每个维度代表分配到某个蔟的概率,并且重构项时自编码器对输入的样本的信息有了初步的认知。

最小化总的损失函数,使得聚类标签分布矩阵P的行向量的每个维度值代表分配到某个蔟(某个别类)的概率;

S2:使用原始样本通过模糊映射预测聚类信息,根据不同视图间的蔟级一致性和语义一致性构建可信邻居,利用去偏聚合可信邻居信息得到聚类信息倾向分布。

S21:步骤S1为每个视图创建了一个可以输出聚类标签分布矩阵的聚类层。然而,这个输出分布考虑了原始样本中的所有信息,对于聚类任务,只需要关注与聚类目标相关的信息。与聚类目标无关的信息可以被削弱甚至忽略。因此,本发明提出一个模糊映射层f

式中,

在这里,

S22:将提取的聚类信息

直接使用k近邻方法的缺点是,由于来自与聚类无关的信息的干扰,具有相似距离的潜在特征数据可能仅表示高维空间中的语义相似性,并不一定意味着实例之间的聚类级别认知是一致的。考虑到多个视图的特点,本发明提出了一种选择可信邻居的方法。定义视图的实例

式中,t

在这里,设置

本发明提出了共识k最近邻方法来筛选可信邻居,有效地避免引入具有不一致聚类级别知识的邻居。然而,这样的筛选条件可能会很严格。在训练的早期阶段,可能没有邻居可用,特别是在有多个视图的情况下。因此,在

S23:

其中,

式中,

S31:本发明通过优化方程(8),模糊映射参数W得到更新,使得映射层能够初始地提取聚类信息,使网络能够初步认识聚类信息。考虑到不同视图之间聚类级别信息的一致性,同一样本的不同视图生成的聚类信息分布

其中,α是置信度平衡因子,用于调节分配概率之间的置信度差距。较大的α会导致更大的差距。本发明将M视为目标分布,并旨在改善聚类信息分布

式中,

S32:通过最小化损失

表示损失,/>

S4:整体框架

通过整合上述目标,基于可信邻居信息聚合的多视图聚类学习方法的完整优化过程总结如下:

其中λ和γ是损失平衡参数。将上述损失进行联合优化,在损失稳定收敛后定位每个样本聚类分配分布表示维度最大的位置作为最终聚类标签。

将聚类分布矩阵的列抽象为不同聚类的特征进行对比学习,使聚类分布层具有实际的聚类意义。然后,利用从模糊映射层提取的聚类信息的分布来拟合归一化图中可信邻居信息去偏聚合后的倾向分布,同时增强视图之间的耦合。归一化图考虑了视图内的全局结构和视图之间的蔟级一致信息。最后,对聚类信息进行重构,自适应地确定信息提取的质量。在四个公开可用的数据集上进行的大量实验表明,本发明模型实现了卓越的性能。

实验例:结合本发明的方案,将本发明的基于可信邻居信息聚合的多视图聚类学习方法,应用于4个公开的数据集的下游聚类任务当中,进行实验结果如下:

(1)样本聚类

样本聚类是在没有标签监督的情况下将属于同一类别的样本分到相同的蔟的任务。在样本聚类任务中,本发明使用聚类分布层输出的聚类分布确定聚类结果。经本发明选择了四个数据集进行实体分类任务评估,分别是MINST-USPS、Fashion、UCI-digit和Caletch。在样本聚类任务中,本发明采用聚类准确度(ACC)度量被正确聚类的样本在总样本中所占的比例;归一化互信息(NMI)衡量聚类结果与真实标签之间的一致性;聚类纯度(PUR)度量每个聚类簇中最常见类别所占的比例。以上指标可以很好的评价聚类性能。上述指标的值越接近1,性能就越好。

表1样本聚类实验结果

(2)聚类信息提取有效性

在多视图数据中,存在着大量与聚类任务无关的信息。本发明了模糊映射对聚类无关信息进行了筛选去除。我们选择了和实验(1)同样的数据集MINST-USPS、Fashion、UCI-digit和Caletch来评价原始数据经过模糊映射后的聚类效果。本发明采用聚类准确度(ACC)、归一化互信息(NMI、聚类纯度(PUR)度量聚类信息的聚类性能。上述指标的值越接近1,性能就越好。

表2聚类信息有效性实验结果

以上多视图表示学习的下游聚类任务的实验结果,均优于现有RMSL、MVC-LFA、EAMC、CoMVC、CMIB-Nets、DSMVC等现有多视图聚类学习方法。

本发明属于人工智能领域,提出一种新的基于可信邻居信息聚合的多视图聚类方法,对多视图数据中的聚类信息进行提取、利用。本方法包括对聚类层赋予实际的聚类意义、聚类信息倾向分布预测和聚类信息分布优化三个阶段。本方法将训练好的模型应用在真实数据集下,可以在没有对数据做标注的情况下,将无标签数据划分为预先设定的类别数个蔟。本方法基于多视图数据之间的一致性和互补性,充分利用不同源数据在低维语义空间中全局结构和语义的关系信息,将聚类表示学习过程和原始数据中聚类无关信息去除过程进行整合,获得一种新的以聚类信息提取为导向的聚类表示学习模型,同时可以克服现有模型受聚类无关信息影响导致聚类效果差、对聚类表示质量要求过高等问题。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 基于聚类的军工集团人员信息标签化方法
  • 基于邻居信息聚合的以太坊地址聚类方法及装置
  • 一种基于最优邻居核的多视图聚类机器学习方法
技术分类

06120116591987