掌桥专利:专业的专利平台
掌桥专利
首页

一种多感知去噪的分类方法

文献发布时间:2024-01-17 01:27:33


一种多感知去噪的分类方法

技术领域

本发明涉及计算机应用技术领域,具体涉及一种多感知去噪的偏标记学习分类方法。

背景技术

在机器学习领域,学习任务可大致划分为两类,一种是监督学习,另一种是无监督学习。在当今数据量逐渐增大的时代,我们的任务中心也逐渐从监督学习转向无监督学习。然而,更接近现实的学习方式则是介于这两种之间的弱监督学习。偏标记学习作为一种弱监督机器学习框架,数据集中的一部分样本有标记,另一部分样本则没有标记,在近些年逐渐受到重视。它的目标是从每个训练示例对应的一组候选标记集合中学习一个多分类模型,但是这些候选标记集合中只有一个是真实标记且不能在训练阶段直接获取。

在过去的几十年中,国内外很多学者对偏标记学习算法展开了研究。目前主流的偏标记学习的算法策略主要包括消歧策略和非消歧策略,其中消歧策略主要包括平均消歧和辨识消歧两种。在平均消歧策略中,PL-KNN、CLPL等算法都采用了平均消歧的思想。这种策略的缺点是,候选标记集中存在假阳性标记会对模型的有效性产生很大的影响,这可能会降低学习模型的鲁棒性。在辨识消歧策略中,PL-EM、PL-SVM等算法都采用了辨识消歧的思想。这种策略通过优化某一目标函数来迭代细化真实标记,较好地解决了候选标记之间的歧义问题。然而,这些方法仅关注将唯一的真值标签与候选标签区分开来,但是确定的标签可能不可靠,这将对后续模型训练产生负面影响。除了消歧策略外,一些研究者尝试通过将偏标记学习数据拟合到现成的学习技术中来进行学习,这样可以直接对未见实例进行预测,而无需对对应于训练实例的候选标签集进行消岐。Zhang等人提出了一种名为PL-ECOC的偏标记学习算法,该算法利用纠错输出码(ECOC)编码矩阵,转化为了二元学习问题。而大多数前述方法都集中于确定特定的真值标签,没有充分利用特征空间和标签空间,也忽略了空间中的噪声信息。这些特征空间与标签空间的噪声信息也可能是提升偏标记学习分类精确度的一个重要信息。

与上述分类算法相比,现有技术中的偏标记学习方法的缺点包括:

1.现有的偏标记学习方法都集中于确定特定的真值标签,没有充分利用特征空间和标签空间;

2.特征空间和标签空间中都存在噪声的影响,此前方法忽略了空间中的噪声信息。

发明内容

本发明所要解决的是偏标记学习在特征空间与标签空间的多类感知和噪声处理等问题,提供一种多感知去噪的分类方法。

为解决上述问题,本发明是通过以下技术方案实现的:

本发明提供一种多感知去噪的分类方法,包括如下步骤:

步骤1、先通过图构建后标签的迭代传播从一组候选标签中识别可靠的标签信息;对于给定的偏标记训练集D,先通过最小误差重构技术训练得到特征空间的权重图。在迭代标签传播的初始阶段,每个示例的标签置信度在候选标签的数量上平均,迭代更新特征空间消歧置信度矩阵F。迭代结束时,得到最终的特征空间消歧置信度矩阵

步骤2、通过低秩表示和稀疏表示将嘈杂的标签信息从候选标签集中分离出来实现增强真实标签的目的;标签空间中,假定真值标签矩阵是潜在标签置信度矩阵,而真实标签矩阵和噪声标签矩阵分别是低秩矩阵和稀疏矩阵,给定的标签集合中包含有噪声标签矩阵和真值标签矩阵,并且无法在训练时获得真实标签。为了解决噪声问题,首先定义关于真值矩阵的分类器和噪声矩阵的分类器联合学习模型。为了简单起见,这里使用最小二乘损失和平方斐波那契参数化来进行模型训练。根据训练模型需要引入增广拉格朗日乘子法求解拉格朗日形式模型,再使用IALM方法迭代优化模型直至获得最终真值标签感知置信度矩阵。

步骤3、利用步骤1所得的可信置信度和步骤2所获得的真值标签感知分类器联合预测未知示例;联合预测学习框架根据第一阶段获得的特征感知置信度和第二阶段获得的真值标签感知置信度联合预测分类结果。

与现有技术相比,本发明综合解决了现有偏标记学习在构造框架时没能充分利用标签空间和特征空间、没有考虑噪声等问题,提高了偏标记学习在分类算法中的鲁棒性表现和分类性能。

附图说明

图1为本发明多感知去噪的分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。

本实施例提供一种多感知去噪的分类方法,如图1所示,其具备包括步骤如下:

步骤1、构建特征空间和标签空间的可信置信度矩阵。即,先通过图构建后标签的迭代传播从一组候选标签中识别可靠的标签信息。

具体地,对于给定的偏标记训练集D,先通过KNN最小误差重构技术训练得到特征空间的权重图G=(V,Ε,S),其中V={x

这里,优化问题(1)是通过最小化重构x

为了更直观地展示特征的重要程度,s

社区检测是一种综合利用结构图进行信息处理的网络聚类方法。局部社区检测方向有一个算法框架,标签传播算法,它不需要先验知识,只有线性时间消耗,适合于偏标签学习中初始置信度矩阵的构建,广泛应用于图聚类、半监督分类等方向。

换句话说,在迭代标签传播的初始阶段,每个示例的标签置信度在候选标签的数量上平均,并且在t-th的迭代标签传播期间,F将根据以下规则迭代更新:

这里,参数α∈[0,1]控制初始置信度和每次迭代期间标签迭代生成的置信度之间的不同重要程度。在计算完

经过迭代过程,对于每个训练样例(x

步骤2、构建噪声分离下的真值标签增强分类器。即,通过低秩表示和稀疏表示将嘈杂的标签信息从候选标签集中分离出来实现增强真实标签的目的。

具体地,在这个阶段,关注标签空间中的信息,假定真值标签矩阵是潜在标签置信度矩阵,而真实标签矩阵和噪声标签矩阵分别是低秩矩阵和稀疏矩阵,因此,定义初始标准形式如下:

在偏标记学习的标签空间中,Y={Y

这里,为了求解问题(7),首先需要引入增广拉格朗日乘子法得到如下拉格朗日形式:

其中,

优化问题(9)的近似形式如下:

H

通过固定H,关于W和N

问题(11)是一个鲁棒主成分分析(RPCA)问题,因此上式可以表示为:

W

N

其中,τ

A

μ

其中ρ是用户定义的更新参数。

步骤3、基于所述可信置信度矩阵和噪声分离下的所述真值标签增强分类器完成统一的多感知去噪的分类方法构建。即,利用步骤1所得的可信置信度矩阵和步骤2所获得的真值标签增强分类器联合预测未知示例。

经过前面两个步骤的模型学习,得到两个分类框架,然后联合预测学习框架根据第一阶段获得的特征感知置信度和第二阶段获得的真值标签感知置信度完成统一的多感知去噪的分类方法构建,包括:

这里,θ为平衡参数,

根据所述多感知去噪的分类方法对未见示例进行分类,计算出所述未见示例的多个标记值,将预测置信度最高的标记值对应的标记确定为所述未见示例所属的标记类别:

下面将采用本方法在不同数据集上关于显著性水平0.05的成对t检验下的发明效果进行说明:

偏标记中的精确度形式化表示为:存在偏标记数据测试集

其中,

为了提高分类模型的泛化能力,常对偏标记数据进行交叉验证(crossvalidation)的训练。具体来说,交叉验证法将数据集均匀地分成k个相互排斥的子集合,

统计假设检验(hypothesis test)是一种用于比较不同学习算法性能的方法。在偏标记学习中,由于训练数据集的不完整性,不同偏标记学习算法的性能评估存在较大的不确定性。因此,采用统计假设检验来比较不同算法的性能可以更好的确定是否存在显著差异。在偏标记学习中,采用成对t检验(pairwise t-test)的方式来进行比较检验,通过比较多个算法在十折交叉验证生成结果的差异,生成均值μ和方差σ

这里,度量上的分类精度比较指的是,通过将现有数据集所有分类精度进行归一化,然后将每一种方法在7种数据集上归一值的总和,如表2所示,可以平均比较算法在所有方法上的泛化性能。

表1●/○表示PL-NLS在统计上优于/劣于比较算法(成对t检验,显着性水平为0.05)。

由表1和表2可以看出本文提出的算法框架在各个真实数据集上综合度量比较为最高水平,与PL-SVM、PL-KNN、LSB-CMM、CLPL、PL-ECOC、PALOC和PL-AGGD相比都有较大的提高。在MSRCv2、FG-NET上的分类精度均达到了较高水平。

表2数据归一化到(-1,1),度量上的分类精度比较

需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

技术分类

06120116228213