导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>一种基于三支决策的目标特征选择方法

一种基于三支决策的目标特征选择方法

文献发布时间：2023-06-19 12:10:19

技术领域

本发明属于目标识别技术领域，具体涉及一种目标特征选择方法。

背景技术

随着信息技术的迅猛发展，各个领域都迎来了大数据时代。大数据包括两个方面：一是数据集的样本数量大；二是数据包含的维度大。随着大数据时代的到来，数据挖掘迎来了研究浪潮，目标识别就是数据挖掘的一种。目前，针对海量复杂图像、文本等数据，产生了越来越多的研究成果。但是，在实际应用中并不一定会有大量的标记样本，例如，航空航天等军事领域的遥感图片。在数据高维度的情况下，现有传统算法大多适用于大量标记样本，因此，高维小样本下的目标识别问题成为新的挑战。

为解决小样本高维图像识别问题，通常使用特征提取和特征选择进行数据降维。特征提取是将图像中的某些具有实际意义或抽象的特征提取出来，用特征表示图像原有数据。特征选择则是在特征集上进一步约简，剔除多余无用的特征。对于复杂图像常进行特征提取后再进行特征选择。

特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用，基于粗糙集的特征选择研究也较为丰富。然而，现有的经典粗糙集理论在处理不确定性数据和数值型数据方面存在缺陷，三支决策作为一种在粗糙集基础上产生的理论可以很好的解决上述问题。

发明内容

为了克服现有技术的不足，本发明提供了一种基于三支决策的目标特征选择方法，基于三支决策理论的特征选择算法来解决高维度小样本下的识别问题；针对典型的过滤式算法ReliefF中仅有一个阈值作为特征取舍条件的局限性以及封装式算法需要大量执行时间的弊端，引用三支决策，将过滤式算法和封装式算法思想相结合，在传统ReliefF算法的基础上将一个阈值扩展为两个阈值，根据特征权重将特征划分为正域、负域、边界域；分别对三个域的特征进行选择，在一定程度上增加算法的容错率，并大幅提高识别性能。本发明使用学习模型的准确率作为选择标准，弥补了其他算法在识别准确率上的不足。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：使用ReliefF算法得到目标所有n个特征的权重值W＝{W

假设一个多分类问题C＝{c

其中，s

步骤1-1：初始化所有的特征权重集合

步骤1-2：从样本集合S中随机取出一个样本s，假设与s同类的样本集为

步骤1-3：更新每个特征的权重，如式(2)所示：

其中，r为迭代次数，c是除样本s所属类别之外的类别，p(c)为类别c的比例，p(Class(s))为样本s的类别比例，M

步骤1-4：重复步骤1-2至步骤1-3，直到满足迭代次数r，得到最终的W＝{W

步骤2：选择三支决策的阈值对(α,β)；

步骤3：将特征划分为三个域：正域、边界域和负域；

具体划分规则如下：如果W

步骤4：分别对三个域的特征进行选择，选择规则分别如下：

正域：予以保留；

负域：进行剔除；

边界域：边界域中的特征权重介于正域和负域特征权重之间，因此作为待选特征进行下一步选择，下一步选择的具体过程如下：

步骤4-1：用正域中的特征训练SVM分类器，得到初始识别准确率acc

步骤4-2：按照权重值对边界域中的特征进行由大到小排序；

步骤4-3：从权重最大的特征开始选择，将该特征加入到正域特征中并在边界域中删除该特征，用刚更新过后的正域特征重新训练分类器得到识别准确率acc′；

步骤4-4：如果acc′>acc

步骤4-5：遍历边界域中的特征，重复步骤4-3到步骤4-4，直至边界域中没有特征；

步骤4-6：输出最后正域中的特征即为最后选择的特征集。

优选地，所述阈值对(α,β)的取值范围为1≥α>β>0。

本发明的有益效果如下：

本发明方法在传统ReliefF算法仅有一个阈值的基础上采用三支决策增加了一个阈值判断，大大提高选择的容错率以及识别性能；并使用学习模型的准确率作为选择标准，弥补了其他算法在识别准确率上的不足，有效解决了高维度小样本条件下的目标识别问题。

附图说明

图1是本发明方法的特征选择流程图。

图2是本发明实施例的四个种类的遥感图像。

图3是本发明实施例不同特征选择方法的特征选择结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明为解决小样本高维图像下的识别问题，提出一种新的混合式特征选择算法：基于三支决策的特征选择算法(Three-way decision and ReliefF，TWReliefF)。TWReliefF算法是在ReliefF算法的基础上引入三支决策，根据三支决策阈值和ReliefF算法得到的特征权重，将特征划分为正域、负域、边界域；分别对三个域的特征进行选择，提高容错率，降低不确定性。

一种基于三支决策的目标特征选择方法，包括如下步骤：

步骤1：使用ReliefF算法得到目标所有n个特征的权重值W＝{W

假设一个多分类问题C＝{c

其中，s

步骤1-1：初始化所有的特征权重集合

步骤1-2：从样本集合S中随机取出一个样本s，假设与s同类的样本集为

步骤1-3：更新每个特征的权重，如式(2)所示：

其中，r为迭代次数，c是除样本s所属类别之外的类别，p(c)为类别c的比例，p(Class(s))为样本s的类别比例，M

步骤1-4：重复步骤1-2至步骤1-3，直到满足迭代次数W，得到最终的W＝{W

步骤2：选择三支决策的阈值对(α,β)，1≥α>β>0；

步骤3：将特征划分为三个域：正域、边界域和负域；

具体划分规则如下：如果W

步骤4：分别对三个域的特征进行选择；

对特征划分的三个域分别执行不同的选择规则，选择规则分别如下：

正域：正域中的特征权重高，对分类影响较大，因此予以保留；

负域：负域中的特征权重低，对分类影响较小，因此进行剔除；

边界域：边界域中的特征权重介于正负域特征之间，影响程度中等，因此作为待选特征进行下一步选择，下一步选择的具体过程如下：

步骤4-1：用正域中的特征训练SVM分类器，得到初始识别准确率acc

步骤4-2：按照权重值对边界域中的特征进行由大到小排序；

步骤4-4：如果acc′>acc

步骤4-5：遍历边界域中的特征，重复步骤4-3到步骤4-4，直至边界域中没有特征；

步骤4-6：输出最后正域中的特征即为最后选择的特征集。

具体实施例：

选用遥感图像集NWPU-RESISC45 Dataset中的海滩、森林、高速公路和岛屿四类样本，每类样本12个共48个，每个种类的遥感图像如图2所示。

对所有图片提取颜色特征和纹理特征共24个特征，对24个特征进行选择。

1、使用ReliefF算法得到所有特征(一共24个特征)的权重值W＝{W

一个四分类问题C＝{c

1.1首先初始化所有的特征权重集合

1.2从训练样本集S中随机取出一个样本s，然后从和s同类的样本集中找出s的5个近邻样本(Near Hits)，从每个s不同类的样本集中均找出5个近邻样本(Near Misses)。

1.3更新每个特征的权重：

1.4重复1.2至1.3，直到满足迭代次数50次，得到最终的W＝{W

2、选择三支决策的阈值对为(0.1,0.04)，1≥α>β>0；

3、将特征划分为三个域：正域、边界域和负域；

具体划分规则如下：如果W

4、分别对三个域的特征进行选择；

对特征划分的三个域分别执行不同的选择规则，选择规则分别如下：

正域：正域中的特征权重高，对分类影响较大，因此予以保留；

负域：负域中的特征权重低，对分类影响较小，因此进行剔除；

边界域：边界域中的特征权重介于正负域特征之间，影响程度中等，因此作为待选特征进行下一步选择，下一步选择的具体过程按照步骤4-1到步骤4-6进行，输出最后正域中的特征即为最后选择的特征集。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李波;骆双双;田琳宇;万开方;高晓光;
专利申请人：西北工业大学;

上一篇：一种控制地铁乘车区闸门的数据库系统
下一篇：一种方便运输的微生物培养箱