一种基于典型相关森林的土壤重金属特征选取方法及系统

文献发布时间：2023-06-19 13:29:16

技术领域

本发明涉及土壤重金属领域，特别是涉及一种基于典型相关森林的土壤重金属特征选取方法及系统。

背景技术

土壤光谱数据集固有的时空异质性是影响土壤重金属特征波段优选准确率的重要因素。由于重金属不具有直接光谱响应，导致重金属所对应的敏感波段非常少，原始光谱含有冗余的以及不相关的特征，直接使用原始光谱构建回归反演模型不仅准确率和稳定性偏低，而且运算效率较差。目前，主流的重金属高光谱特征选取方法一般选用线性建模方法以及固定权值的特征空间随机采样方式与收缩方式。线性建模方法无法准确描述样本响应变量与输入特征值之间的非线性关系，固定权值的特征空间随机采样方式与收缩方式无法快速准确地从高冗余的土壤高光谱特征空间中识别土壤重属性的敏感波段。因此，主流的重金属高光谱特征选取方法在处理高维、高冗余以及非线性的土壤高光谱数据时特征选取困难，使得选取准确率低，进而影响反演模型的精度。

发明内容

本发明的目的是提供一种基于典型相关森林的土壤重金属特征选取方法及系统，以解决目前主流的重金属高光谱特征选取方法选取高光谱特征准确率低的问题。

为实现上述目的，本发明提供了如下方案：

一种基于典型相关森林的土壤重金属特征选取方法，包括：

获取N份原始土壤样本，采用模糊K平均聚类算法，并基于颜色参数对N份所述原始土壤样本重新分组，得到n组样本数据；所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量；

利用n组所述样本数据对典型相关森林回归模型进行训练，得到训练好的典型相关森林模型；

利用所述训练好的典型相关森林回归模型，得到每个所述高光谱数据的特征值的变量重要性得分；

根据所述变量重要性得分，确定特征值矩阵；

根据所述特征值矩阵，建立K个独立的典型相关森林回归子模型；

利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化，获得最优特征子集，完成土壤重金属特征的选取；所述特征空间为样本数量和特征值数量组成的矩阵。

可选的，所述获取N份原始土壤样本，采用模糊K平均聚类算法，并基于颜色参数对N份所述原始土壤样本重新分组，得到n组样本数据，具体包括：

获取每份所述原始土壤样本的Munsell颜色值；

将所述Munsell颜色值转换为CIE XYZ三刺激值；

将所述CIE XYZ三刺激值转化成多个颜色参数，多个所述颜色参数作为高光谱数据的特征值；

基于所述特征值，对所述高光谱数据进行主成分变换，确定每份所述原始土壤样本的主成分得分；

基于所述主成分得分，采用模糊K平均聚类算法确定最佳聚类数目；

根据所述最佳聚类数目将N份所述原始土壤样本重新划分成n组样本数据。

可选的，所述利用n组所述样本数据对典型相关森林回归模型进行训练，得到训练好的典型相关森林模型，具体包括：

将每一组所述样本数据转换成原始特征值向量M

可选的，所述利用所述训练好的典型相关森林回归模型，得到每个特征值的变量重要性得分，具体包括：

计算所述训练好的典型相关森林回归模型中每棵决策树的第一袋外估计均方误差；

随机置换袋外数据集中第j个特征值，计算每棵决策树的第二袋外估计均方误差；

根据所述第一袋外估计均方误差和所述第二袋外估计均方误差，计算每棵决策树的袋外估计均方误差的减少量；

将所有决策树的所述减少量取平均值，得到每个特征值的变量重要性得分。

可选的，所述根据所述变量重要性得分，确定特征值矩阵，具体包括：

将所述变量重要性得分降序排序并选取预设个数的特征值；

根据选取后的特征值确定特征值矩阵。

可选的，所述对所述特征值矩阵进行去冗余处理，选取相应的特征值作为输入建立K个独立的典型相关森林回归子模型，具体包括：

根据一致权重向量将所述特征值矩阵转换成二进制矩阵A；

对所述二进制矩阵A进行初等行变换，确定所述二进制矩阵A的最大无关组，根据所述最大无关组对所述二进制矩阵A重新赋值，得到二进制矩阵B；

根据所述二进制矩阵B每一行中“1”的位置选取相应的特征值，根据选中的特征值建立K个独立的典型相关森林回归子模型。

可选的，所述利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化，获得最优特征子集，具体包括：

利用公式

选取预设个数的所述平均袋外误差，将与所述平均袋外误差相对应的所述典型相关森林回归子模型作为候选子模型；

根据公式

将预设个数的所述平均袋外误差取平均值，得到当前候选子模型的平均袋外误差，并设定一个最低平均袋外误差；

判断所述当前候选子模型的平均袋外误差是否大于所述最低平均袋外误差；如果所述当前候选子模型的平均袋外误差小于或者等于所述最低平均袋外误差，将所述当前候选子模型的平均袋外误差作为所述最低平均袋外误差，利用重采样权重向量更新所述候选子模型的权重，建立所述预设个数的典型相关森林回归子模型，并返回“利用公式

如果所述当前候选子模型的平均袋外误差大于所述最低平均袋外误差，将所述最低平均袋外误差对应的候选子模型作为优选子模型，设定一个最优平均袋外误差，判断当前优选子模型的平均袋外误差是否大于或者等于所述最优平均袋外误差；所述最优平均袋外误差小于所述最低平均袋外误差；

如果当前优选子模型的平均袋外误差小于所述最优平均袋外误差，根据一致权重向量对调整权重向量赋值，利用赋值后的调整权重向量更新所述当前优选子模型的权重，建立所述预设个数的典型相关森林回归子模型，并返回“利用公式

一种基于典型相关森林的土壤重金属特征选取系统，包括：

分组模块，用于获取N份原始土壤样本，采用模糊K平均聚类算法，并基于颜色参数对N份所述原始土壤样本重新分组，得到n组样本数据；所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量；

训练模块，用于利用n组所述样本数据对典型相关森林回归模型进行训练，得到训练好的典型相关森林模型；

重要性得分计算模块，用于利用所述训练好的典型相关森林回归模型，得到每个特征值的变量重要性得分；

特征值矩阵确定模块，用于根据所述变量重要性得分，确定特征值矩阵；

冗余去除模块，用于根据所述特征值矩阵，建立K个独立的典型相关森林回归子模型；

特征精选模块，用于利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化，获得最优特征子集，完成土壤重金属特征的选取；所述特征空间为样本数量和特征值数量组成的矩阵。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过采用模糊K平均聚类算法，并基于颜色参数降低同组内高光谱数据的差异性，在具有相似光谱吸收特征的高光谱数据上，利用典型相关森林变量重要性评估方法作为特征预选策略，剔除冗余与不相关特征，初步筛选出与重金属含量相关的敏感波段，提高了特征选取的准确性。从较短的子模型中搜寻最优特征子集，比传统特征选择方法更快地接近最优子空间，从而显著提高了算法的精度和执行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法的流程图；

图2为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法步骤101的流程图；

图3为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法步骤106的流程图；

图4为本发明不同颜色空间系统之间的转换顺序和方式的示意图；

图5为本发明提供的一种基于典型相关森林的土壤重金属特征选取系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法的流程图，如图1所示，一种基于典型相关森林的土壤重金属特征选取方法，包括：

步骤101：获取N份原始土壤样本，采用模糊K平均聚类算法，并基于颜色参数对N份所述原始土壤样本重新分组，得到n组样本数据。所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量。

在实际应用中，获取N份原始土壤样本之后还包括：获取N份原始土壤样本后，先风干处理，然后对原始土壤样本进行研磨和过筛，将每一份原始土壤样本分成两份，一份用于高光谱数据采集，N份原始土壤样本的高光谱数据组成特征矩阵X(X为N×P的矩阵,其中P为特征值数量)；一份按照国家标准进行土壤重金属浓度测定，N份原始土壤样本对应的重金属浓度组成原始土壤样本的响应变量Y。

在一个具体实施方式中，所述步骤101具体包括：

步骤201：获取每份所述原始土壤样本的Munsell颜色值。在实际应用中，采用中国科学院南京土壤研究所1989年编制的中国标准土壤色卡在自然光下(光线强度4300～4500Lux时)对每份土壤样品进行比色，获取每份原始土壤样本的Munsell颜色值。

步骤202：将所述Munsell颜色值转换为CIE XYZ三刺激值。在实际应用中，利用颜色匹配函数将每份原始土壤样本的Munsell颜色值转换为国际标准色系坐标系下的CIEXYZ三刺激值X，Y，Z。

步骤203：将所述CIE XYZ三刺激值转化成多个颜色参数，多个所述颜色参数作为高光谱数据的特征值。在实际应用中，按照图4不同颜色空间系统之间的转换顺序和方式，使用蒙塞尔转换软件将CIE XYZ坐标下的XYZ值转化成其他色系系统中的20个颜色参数。表1为20个颜色参数以及20个颜色参数的缩写表，如表1所示。

表1 20个颜色参数以及20个颜色参数的缩写表

步骤204：基于所述特征值，对所述高光谱数据进行主成分变换，确定每份所述原始土壤样本的主成分得分。

在实际应用中，根据公式

…

对以20个颜色参数为特征值的高光谱数据进行主成份变换。式中，PC是主成分得分；B是颜色参数；e是每个颜色参数的贡献率；k是颜色参数的数量。

步骤205：基于所述主成分得分，采用模糊K平均聚类算法确定最佳聚类数目。在实际应用中，将模糊K平均(Fuzzy k-means，FKM)聚类算法应用于颜色变量主成分得分值；依据主成分得分、划分系数与划分熵确定最佳聚类数目。

划分系数：

划分熵：

步骤206：根据所述最佳聚类数目将N份所述原始土壤样本重新划分成n组样本数据。在实际应用中，根据所述最佳聚类数目将原始土壤样本的高光谱数据划分成不同的分组，将所述高光谱数据对应的响应变量归类于对应的分组。各分组中所有高光谱数据的平均光谱均表现出相似的光谱吸收峰特征。

步骤102：利用n组所述样本数据对典型相关森林回归模型进行训练，得到训练好的典型相关森林模型。

在一个具体实施方式中，所述步骤102，具体包括：

将每一组所述样本数据转换成原始特征值向量M

步骤103：利用所述训练好的典型相关森林回归模型，得到每个特征值的变量重要性得分。

在一个具体实施方式中，所述步骤103，具体包括：

在实际应用中，根据公式

在模型训练过程中，选取初始样本数的三分之二作为训练样本构建决策树。

将剩余三分之一的样本作为袋外数据集(Out-of-Bag，OOB)输入到训练好的典型相关森林回归模型中。

依据式

随机置换袋外数据集中第j个特征值，计算每棵决策树的第二袋外估计均方误差。在实际应用中，随机置换并改变袋外数据集中第j个特征值λ

根据所述第一袋外估计均方误差和所述第二袋外估计均方误差，计算每棵决策树的袋外估计均方误差的减少量，每棵决策树的袋外估计均方误差的减少量即为每棵决策树的变量重要性得分(Variable Importance Measure，VIM)。

将所有决策树的所述减少量取平均值，得到每个特征值的变量重要性得分。

根据公式

步骤104：根据所述变量重要性得分，确定特征值矩阵。

在一个具体实施方式中，所述步骤104，具体包括：

将所述变量重要性得分降序排序并选取预设个数的特征值；根据选取后的特征值确定特征值矩阵。在实际应用中，对每个特征值的变量重要性得分进行m次计算，将每个特征值计算得到的所有变量重要性得分取平均值，然后根据每个特征值的变量重要性得分平均值对所有特征值进行降序排序，选取变量重要性得分位于前1000个的特征值，将这1000个特征值在原始特征值向量Mi中对应位置的高光谱数据组成特征值矩阵M。

步骤105：根据所述特征值矩阵，建立K个独立的典型相关森林回归子模型。

在一个具体实施方式中，所述步骤105，具体包括：

根据一致权重向量将所述特征值矩阵转换成二进制矩阵A。在实际应用中一致权重向量w

对所述二进制矩阵A进行初等行变换，确定所述二进制矩阵A的最大无关组，根据所述最大无关组对所述二进制矩阵A重新赋值，得到二进制矩阵B。

根据所述二进制矩阵B每一行中“1”的位置选取相应的特征值，根据选中的特征值建立K个独立的典型相关森林回归子模型。

在实际应用中，在选中的特征值中，选取最优特征值作为节点，建立决策树，多个决策树组成典型相关森林回归子模型。

步骤106：利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化，获得最优特征子集，完成土壤重金属特征的选取。所述特征空间为样本数量和特征值数量组成的矩阵。

在一个具体实施方式中，所述步骤106，具体包括：

步骤301：利用公式

步骤302：选取预设个数的所述平均袋外误差，将与所述平均袋外误差相对应的所述典型相关森林回归子模型作为候选子模型。在实际应用中，将所述平均袋外误差按升序排序，选取K＝K*α个所述平均袋外误差，K为典型相关森林回归子模型的个数，K＝15000，α为最佳子模型选取比例。袋外误差越低，模型性能越好，选取前K＝K*α个所述典型相关森林回归子模型作为候选子模型。

步骤303：根据公式

步骤304：将预设个数的所述平均袋外误差取平均值，得到当前候选子模型的平均袋外误差，并设定一个最低平均袋外误差。

步骤305：判断当前候选子模型的平均袋外误差是否大于最低平均袋外误差。若否，执行步骤306；若是，执行步骤307。

步骤306：将所述当前候选子模型的平均袋外误差作为所述最低平均袋外误差，利用重采样权重向量更新所述候选子模型的权重，建立所述预设个数的典型相关森林回归子模型，并返回“步骤301”。循环变量i＝1，j＝1。在实际应用中，如果未得到最低平均袋外误差，则根据重采样权重向量重新建立多个典型相关森林回归子模型，重新计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差，以完成对特征空间的筛选与缩减。

步骤307：将所述最低平均袋外误差对应的候选子模型作为优选子模型，设定一个最优平均袋外误差，判断当前优选子模型的平均袋外误差是否大于或者等于所述最优平均袋外误差；若否，执行步骤308；若是，执行步骤309。

步骤308：根据一致权重向量对调整权重向量赋值，利用赋值后的调整权重向量更新所述当前优选子模型的权重，建立所述预设个数的典型相关森林回归子模型，并返回“步骤301”。调整权重向量可以将候选子模型中选出特征值的权值改为0.5，其余特征值的权值保持不变。在实际应用中，采用加权二进制矩阵采样(Weighted Binary Matrix Sampling，WBMS)抽样创建新的典型相关森林回归子模型种群，重新计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差，以完成对特征空间的筛选与缩减。

步骤309：算法终止，输出当前优选子模型，将所述当前优选子模型作为最优特征子集。

本发明提出了一种基于典型相关森林土壤重金属特征选取方法，该方法的优点为：

首先，本发明使用基于颜色参数的聚类分组策略结合典型相关森林构建重金属反演模型，通过降低同组内数据的差异性，为后续特征选择方法提供具有相似光谱吸收特征的输入数据分组，有助于降低土壤异质性对本发明性能的影响。

其次，在具有相似光谱吸收特征的光谱分组数据上，本发明利用典型相关森林变量重要性评估方法作为特征预选策略，剔除冗余与不相关特征，初步筛选出与重金属含量相关的敏感波段，有效降低了特征精选阶段的计算复杂性，并有助于提高本发明进行特征提取的准确性。

然后，该方法在特征精选阶段，从较短的子模型(自底向上的方法)中搜寻最优特征子集，比传统特征选择方法更快地接近最优子空间，从而显著提高了算法的精度和执行效率。同时，为了节省宝贵的CPU资源，对于初始种群数规模采用逐步缩减的方式，大大缩减了算法的建模时间，提高了算法的效率。

最后，该方法在上述三个阶段中所有涉及到建模的机器学习方法均选用典型相关森林。作为一种决策树集成建模策略，典型相关森林模型在预测准确性和建模效率上均优于传统的随机森林模型和其他一些线性建模方法。因此，本发明最大程度的确保了关键特征波段选出的准确性与稳定性。

图5为本发明提供的一种基于典型相关森林的土壤重金属特征选取系统的结构图，如图5所示，所述系统包括：

分组模块501，用于收集N份原始土壤样本，采用模糊K平均聚类算法，基于颜色参数对N组所述原始土壤样本重新分组，得到n组高光谱数据。

训练模块502，用于利用n组所述高光谱数据对典型相关森林回归模型进行训练，得到训练好的典型相关森林模型。

重要性得分计算模块503，用于利用所述训练好的典型相关森林回归模型，得到每个所述高光谱数据的特征值的变量重要性得分。

特征值矩阵确定模块504，用于根据所述变量重要性得分，确定特征值矩阵。

冗余去除模块505，用于根据所述特征值矩阵，建立K个独立的典型相关森林回归子模型。

特征精选模块506，用于利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化，获得最优特征子集，完成土壤重金属特征的选取；所述特征空间为样本数量和特征值数量组成的矩阵。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王轩慧;油海东;王轩力;
专利申请人：青岛农业大学;

上一篇：靶向纳米硅胶材料吸附制备低砷牡蛎蛋白肽的方法
下一篇：一种耗能型摇摆子结构及加固既有建筑的方法