掌桥专利:专业的专利平台
掌桥专利
首页

一种基于谱松弛嵌入的无监督特征选择方法、装置及介质

文献发布时间:2024-04-18 20:00:50


一种基于谱松弛嵌入的无监督特征选择方法、装置及介质

技术领域

本发明涉及大规模图像数据处理领域,尤其是涉及一种基于谱松弛嵌入的无监督特征选择方法、装置及介质。

背景技术

在如今大模型时代背景下,用于大模型训练、工业处理、数字孪生等场景的数据集具有成千上万的高维度样本。挖掘这些数据集的内部信息是十分具有挑战性的,因为这不仅需要高昂的时间代价,也对计算机硬件要求较高。而且大规模数据集的标签也是难以获取的。面对这样的困境,迫切需要一个无监督的敏捷的数据降维方法以获得一个低维的且适应学习任务的数据集。

目前主流的解决方案分为特征提取和特征选择。两种方案都是从原始特征空间中找出最佳特征集。特征提取方法通过线性/非线性方法在原始特征基础上构建出一组新的低维特征,而特征选择方法是从原始特征中选择一组最优的特征。两种方法均能够达到数据降维,以便于减少模型的计算复杂度、提高模型的准确性和泛化能力、减少数据的存储和处理开销。

无监督特征选择算法通过挖掘原始数据内部信息以引导特征的选择。从选择方式上,特征选择算法可以分为滤波式、包装式和混合式。滤波式方法基于原始数据的内部信息使用相关指标对各个特征进行评分,最后按照评分结果以选择相关特征。包装式方法采用特定的聚类算法对选定的特征子集进行评价,之后进行特征子集的更改。与滤波式方法相比,包装式方法更注重于对整个特征子集的评价,其聚类算法的设计尤为重要。算法的优化过程则相近与组合优化问题,绝大多数相关算法采用进化算法进行求解。为了结合滤波式和包装式方法,即混合方法,在滤波阶段,基于原始数据的内在信息应用相应指标对特征进行排序和选择。而在包装阶段,按照特定的聚类算法对滤波阶段得到的特征子集进行评估,以找到最佳特征子集,包装式算法主要是为了提高聚类算法的效果而选择相应的特征子集,具有一定的依赖性和高昂的计算成本。两阶段的混合方法虽然在两种方法间进行了折中,但是其流程复杂且处理时间相对增长。滤波式方法没有外在聚类算法的依赖性,同时利用数据集内在信息以指导特征子集的选择,避免了NP难的困境,其主要的特点在于简洁、快速和可扩展性。

滤波式的无监督特征选择方法主要分为三大类,即基于统计/信息、生物启发和谱/稀疏学习。目前主流的基于谱/稀疏学习的无监督特征选择方法存在现实数据集中的噪音和冗余影响较大、聚类算法(如谱聚类、正交基聚类)得到0-1“硬”类别划分且高度依赖流行假设的问题,其中流行假设是指在高维空间中是近邻的样本点在低维空间中仍然属于一个类。

发明内容

本发明的目的是为了提供一种基于谱松弛嵌入的无监督特征选择方法、装置及介质,解决高维度图像数据集中存在大量冗余和无关特征的问题。

本发明的目的可以通过以下技术方案来实现:

根据本发明的第一方面,提供了一种基于谱松弛嵌入的无监督特征选择方法,包括以下步骤:

获取用户输入的图像数据集并进行预处理;

对数据集中的样本图像矩阵进行滤波降噪;

根据样本图像矩阵计算局部拉普拉斯谱,建立基于谱松弛嵌入的向量式无监督特征选择模型;

对无监督特征选择模型的多个变量进行迭代学习至收敛;

根据迭代学习得到的无监督特征选择模型,计算各个特征对应的评价指标;

根据评价指标值,从大到小依次选择预设数量的特征数,完成特征选择。

作为优选的技术方案,所述预处理具体为:从单个样本图像矩阵的第一行开始进行行拆分,并按照次序拼接为新的行向量,形成图像的行向量表示,图像行向量的各个特征值即为原始图像对应的像素值。

作为优选的技术方案,所述对数据集中的样本图像矩阵进行滤波降噪具体为:对样本图像矩阵进行中值滤波,滤波窗口为行向量式,预设窗口长度,执行时从图像矩阵每一行开始滑动计算。

作为优选的技术方案,所述根据图像矩阵计算局部拉普拉斯谱采用的数学模型为:

其中,

作为优选的技术方案,所述无监督特征选择模型的数学模型表示为:

其中,W、F、E、B为模型参数,W为特征选择矩阵,F为隶属性矩阵,B为聚类簇矩阵,其每一行代表一个聚类中心,E为类别标签矩阵,λ、β、η为模型超参数,且满足约束B

作为优选的技术方案,所述对无监督特征选择模型的多个变量进行迭代学习至收敛具体为:使用梯度下山法,通过固定除待优化参数外的其他参数,对各个参数进行逐个的优化学习,使其目标函数逐次下降至各个参数值在容许范围内波动,即迭代学习结束,算法收敛。

作为优选的技术方案,所述评价指标的确定方法为:根据迭代学习获得的无监督特征选择模型中的特征选择矩阵W,对矩阵W的各个行向量分别计算二范数,并依此作为对应特征的评价指标。

根据本发明的第二方面,提供了一种基于谱松弛嵌入的无监督特征选择装置,该装置包括:

图像获取和处理模块:用于获取用户输入的图像数据集并进行数据预处理和滤波降噪;

模型构建模块:用于根据图像获取和处理模块处理后的样本图像矩阵计算局部拉普拉斯谱,并依此建立基于谱松弛嵌入的向量式无监督特征选择模型;

迭代学习模块:用于对模型构建模块构建的无监督特征选择模型的多个变量进行迭代学习至收敛;

特征选择模块:用于根据迭代学习得到的无监督特征选择模型,计算各个特征对应的评价指标,并根据评价指标值,从大到小依次选择预设数量的特征数,完成特征选择;

图像输出模块:用于保留原始数据集中选择特征并剔除其他特征,将结果输出给用户。

根据本发明的第三方面,提供了一种基于谱松弛嵌入的无监督特征选择装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。

根据本发明的第四方面,提供了一种存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。

与现有技术相比,本发明具有以下有益效果:

1、本发明易于实现。相比于基于神经网络的数据降维方法,本发明提出了基于谱松弛嵌入的无监督特征选择方法,无需图像数据集的标签集,以及大规模的参数训练。同时,本发明的模型参数极少,减少了模型构建与调参的时间,因此在实际情况下易于实现。

2、本发明处理速度快捷,可以大量节省后续工作处理时间与空间存储。本发明的迭代学习主要对各个参数进行优化求解,时间复杂度主要依赖于迭代次数。而迭代学习方法的收敛区间一般在1~10代内。所需时间极短。

3、本发明可以更好地适应高维稀疏数据集,在降维的同时使其更具有判别信息。为适应不满足流行假设的高维稀疏数据集,本发明构建了局部拉普拉斯谱以获取和保留原始数据集的局部结构信息。同时与传统的对原始数据进行“0-1”型聚类分析不同,本发明构造了一个新的松弛项,在聚类分析中引入模糊属性,以更好地保留样本点在类别之间的归属。同时,本发明也引入局部拉普拉斯谱来保留数据集的局部结构信息。所构建的新松弛项作为谱聚类和模糊k均值聚类相结合的桥梁,实现了对数据集的全局和局部聚类分析的统一,因此新的低维数据集更具有判别信息。

4、本发明提出的数据降维模型具有良好的鲁棒性,并且可以自由选择提取特征数量。

附图说明

图1为本发明的方法流程图;

图2为本发明的向量式无监督特征选择模型的整体原理示意图;

图3为本发明中迭代学习过程的流程示意图;

图4为本发明的装置结构示意图;

图5为一种实施例中的数据降维效果图;

图6为一种实施例中的实验流程图;

图7为一种实施例中的本方法与其它算法在多个图像数据集上的聚类准确率(ACC)与互信息(NMI)对比示意图;

图8为一种参数敏感性分析实验中本发明的主要参数与降维效果的聚类准确率(ACC)与互信息(NMI)指标图;

图9为一种真实情况下敏感性分析实验中本发明的主要参数与降维效果的聚类准确率(ACC)指标图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于谱松弛嵌入的无监督特征选择方法,如图1所示,包括以下步骤:

S1、获取用户输入的图像数据集并进行预处理,其中,预处理具体为:从单个样本图像矩阵的第一行开始进行行拆分,并按照次序拼接为新的行向量,形成图像的行向量表示,图像行向量的各个特征值即为原始图像对应的像素值。

S2、对数据集中的样本图像矩阵进行滤波降噪:对样本图像矩阵进行中值滤波,滤波窗口为行向量式,预设窗口长度,执行时从图像矩阵每一行开始滑动计算。

S3、根据样本图像矩阵计算局部拉普拉斯谱,建立基于谱松弛嵌入的向量式无监督特征选择模型。

计算局部拉普拉斯谱采用的数学模型如下,但并不限于此,包括其各种等效的修改或替换:

其中,

根据上述局部拉普拉斯谱采用的数学模型,无监督特征选择模型的数学模型表示为:

其中,W、F、E、B为模型参数,W为特征选择矩阵,F为隶属性矩阵,B为聚类簇矩阵,其每一行代表一个聚类中心,E为类别标签矩阵,λ、β、η为模型超参数,且满足约束B

S4、对无监督特征选择模型的多个变量进行迭代学习至收敛。

具体的,使用梯度下山法,通过固定除待优化参数外的其他参数,对各个参数进行逐个的优化学习,使其目标函数逐次下降至各个参数值在容许范围内波动,即迭代学习结束,算法收敛。

在一种择优的实施例中,迭代学习过程如下:

(1)固定参数B,E,F,更新矩阵W

由于矩阵B,E,F此时为定值,针对矩阵W,优化问题简化如下:

令目标函数对W的导函数为零:

则矩阵W的更新公式为:

W=(λXX

(2)固定E,F,W,更新矩阵B

同上,针对矩阵B,优化问题简化如下:

矩阵B的更新公式为:

(3)固定W,B,F,更新矩阵E

同上,针对矩阵E,优化问题简化如下:

矩阵E的非负性和正交性虽然令E中的元素大多数非0即1,使得矩阵E适合为聚类标签矩阵,但是也为矩阵E的求解增加了难度。

为此,本实施例创建了一个新的辅助矩阵G,令

辅助矩阵G将E的非负性与正交性分离,作为一个新的变量参与优化过程。新的优化问题可继续简化如下:

令T=E

E=VIU

(4)固定W,B,E,更新矩阵F

对于矩阵F,优化问题简化为:

令目标函数对F的导函数为零:

则矩阵F的更新公式为:

F=(BE

如上所述,各个参数的迭代优化分析与求解均已列出,总体的迭代学习算法如图3所示。

S5、根据迭代学习得到的无监督特征选择模型,计算各个特征对应的评价指标。

具体的,根据迭代学习获得的无监督特征选择模型中的特征选择矩阵W,对矩阵W的各个行向量分别计算二范数,并依此作为对应特征的评价指标。

S6、根据评价指标值,从大到小依次选择预设数量的特征数,完成特征选择。

在具体实施案例中,可以根据由本发明获得的新低维数据矩阵对多张样本图像中的内容进行分类、或聚类、或识别。

本实施例还提供一种基于谱松弛嵌入的无监督特征选择装置,如图4所示,该装置包括:

图像获取和处理模块:用于获取用户输入的图像数据集并进行数据预处理和滤波降噪;该数据集包含n个样本,每个样本大小为m×m;数字化图像的矩阵表示转换为行向量表示,得到样本矩阵n×d(d=m×m);滤波降噪处理操作指样本矩阵的中值滤波,滤波窗口为长度为10的行向量;

模型构建模块:用于根据图像获取和处理模块处理后的样本图像矩阵计算局部拉普拉斯谱,并依此建立基于谱松弛嵌入的向量式无监督特征选择模型;

迭代学习模块:用于根据梯度下山法,通过固定其他参数,对各个参数进行逐个的优化学习,使其目标函数逐次下降直至各个参数值在容许范围内波动,即迭代学习结束,算法收敛;

特征选择模块:用于根据迭代学习得到的无监督特征选择模型,计算各个特征对应的评价指标,并根据评价指标值,从大到小依次选择预设数量的特征数,完成特征选择;

图像输出模块:用于保留原始数据集中选择特征并剔除其他特征,将结果输出给用户。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在另一种实施例中,一种基于谱松弛嵌入的无监督特征选择装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以公共数据集COIL20(物体识别图像数据集)为例展示本发明的具体实施方式。

(1)高维图像数据集的导入与向量化。读入COIL20图像数据集,其具有20个物品类别,1440个样本,各个样本的像素为32×32;之后将各个图像按行顺序展开为1024的行向量,可以得到1440×1024的矩阵,其中每一行代表一个原样本。

(2)对原数据矩阵进行中值滤波。中值滤波为图像处理的一种方法,在此本实施例使用matlab科学计算软件对样本矩阵进行行中值滤波。滤波窗口设置为10。

(3)根据滤波后的样本矩阵,计算局部拉普拉斯谱,并构建特征选择模型,进行优化求解。

(4)以特征选择模型为目标函数,进行最小化的迭代学习算法。其中超参数需要进行调优。

(5)根据(4)的计算结果,取优化结果的W矩阵,计算W的各行向量的2范数作为对应特征的评价指标值。

(6)对于各个特征的指标值,按照从大到小依次选择所需特征数目。保留各个样本在所选择的特征的值,剔除其他特征的值,最后获得低维特征矩阵。

经本发明处理后的COIL20数据集的降维效果如图5所示,图5中总20个物体图片,原始图片维度32×32,保留特征数为200-400-600-800-1024(从左到右)。根据图5可以明显看到本发明剔除了大部分无关的黑暗区域特征,并最大化地保留了物体的原始轮廓,大大减少了后续处理算法的算法复杂度。

为了更好地说明本发明(NSRE)的优良效果本实施例选择了目标检测数据集COIL20、字母识别数据集Isolet、人脸数据集(Yale、Umist、jaffe、MSRA25、ORL、Imm40)进行进一步验证。针对不同的数据集,本实施例设计了不同的选择特征集。各个数据集的情况如下表1。

表1

对于滤波无监督特征选择算法,本实施例选择了四种在该领域表现经典的算法和最近提出的三种新算法作为对比,具体如下:

Laplace Score(LS):LS是以拉普拉斯分数为指标给各个特征打分的算法。由分数最高的K个特征组成特征子集。

Nonnegative Discriminative Feature Selection(NDFS):NDFS是一个基于谱聚类和稀疏回归的联合学习的滤波式无监督特征选择的联合框架。

Unsupervised Discriminative Feature Selection algorithm(UDFS):UDFS提出了将判别分析和2,1-范数最小化结合到滤波式无监督特征选择的联合框架。

Joint Embedding Learning and Sparse Regression(JELSR):JELSR提出了嵌入学习与稀疏回归结合的无监督特征选择框架。

Unsupervised Simultaneous Orthogonal Basis Clustering FeatureSelection(SOCFS):基于正交非负矩阵分解,SOCFS提出了正交基聚类与稀疏回归结合的滤波式无监督特征选择框架。

Structured Optimal Graph Feature Selection(SOGFS):SOGFS提出了局部结构学习和l-2,1范数最小化相结合的滤波式无监督特征选择框架。

Unsupervised Feature Selection Via Orthogonal Basis Clustering andLocal Structure Preserving(OCLSP):OCLSP是最新的多角度特征选择算法,其提出了正交基聚类和自适应图正则化的统一框架。

对于算法结果的评价指标,本实施例在算法结果的基础上进行20次K均值聚类算法,对每一次聚类结果分别计算准确率ACC和归一化互信息NMI,最后以20次聚类结果的均值作为对此特征选择算法的指标值。

其中F为原标签集,G为聚类结果映射后的标签集,且δ=1,当f

接下来是参数设置,本实施例令最近邻样本数K为5,所有聚类分析中类簇数均为C(原始数据集类别数)。此外令本发明(NSRE)中的辅助参数δ为1。对于其他标量性超参数,以ACC和NMI为指标,采用网格法进行寻优,寻优区间为[10

为了评估无监督特征选择算法的降维效果,实验记录了对比试验中各个算法的ACC和NMI指标。具体结果如表2和图7。

表2

根据表2和图7,对于最大可实现的ACC和NMI,本发明(NSRE)在绝大多数数据集上实现了最佳性能。即使在isolet、umist和yale数据集上,本发明(NSRE)也能达到最佳性能。就每种选定特征的ACC和NMI而言,我们的方法的性能一直很高,尽管它并不总是最好的。特别是,本发明(NSRE)明显优于相关算法SOCFS和JELSR。本发明(NSRE)在高维稀疏样本集IMM40中都表现出了出色的降维能力,突出了本发明对高维稀疏样本集的鲁棒性。

在本发明中最主要的四个模型参数λ,β,η,γ,分别对应了非线性映射、局部谱分析、l

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。

相关技术
  • 一种应用于风场特性风洞试验的多点同步排管测压装置
  • 一种用于汽车风洞流场标定的移测架装置
  • 一种应用于跨声速风洞的流场移测装置
技术分类

06120116540300