掌桥专利:专业的专利平台
掌桥专利
首页

一种稳健的模型变量筛选方法

文献发布时间:2024-04-18 20:00:25


一种稳健的模型变量筛选方法

技术领域

本发明涉及模型变量筛选技术领域,具体为一种稳健的模型变量筛选方法。

背景技术

变量筛选(也称为特征选择)是传统统计模型、机器学习模型、人工智能模型开发的基础,是模型构建中最重要的步骤之一,去除不相关的模型输入变量,能够降低计算复杂度、学习难度和内存需求等,也会提高模型的预测精度以及泛化能力。然而,现有变量筛选方法有两个主要问题:第一,现有变量筛选方法的鲁棒性低,其中一些变量筛选方法只考虑单个特征与因变量之间的关系,而忽略了自变量之间的相互关联性,同时绝大多数算法以线性关系为基础进行变量筛选,对于非线性情况并不适用,尤其是在复杂的生态学、林学经验模型中,这受限于同质模型的假设前提,比如逐步回归变量筛选方法有独立性、正态性、等方差性等假设,当数据不满足这些假设时模型会失效,这可能导致丢失一些重要的自变量或选择冗余的自变量,导致变量筛选结果不好。第二,使用假设条件较少的算法过于复杂,如果用复杂的变量筛选算法进行反复迭代来实现筛选变量,这对时间和计算资源是一种考验,产生的自变量重要性常常依赖于复杂的数学模型,可能难以直观地解释其意义。由于不同的筛选方法会出现选择不同的即输入变量,所以对于同一个预测目标,哪些变量最具代表性的这个问题没有确切的答案。另一方面,不同的输入变量使得相同的预测模型表现不同。因此,构建最优预测模型是非常具有挑战性的。目前在复杂的生态学、林学经验模型中尚未有通用稳健的变量筛选方法以及方便、快捷的应用工具。

因此,设计一种稳定程度高的稳健的模型变量筛选方法是很有必要的。

发明内容

本发明的目的在于提供一种稳健的模型变量筛选方法,以解决上述背景技术中提出的问题。

为了解决上述技术问题,本发明提供如下技术方案:一种稳健的模型变量筛选方法,包括以下步骤:

S100、通过基于相关分析的变量筛选、基于主成分分析的变量筛选、基于逐步回归的变量筛选、基于冗余分析的变量筛选、基于广义可加模型的变量筛选与基于机器学习的变量筛选同时对数据集进行变量筛选;

S200、对S100获得的变量筛选结果进行投票,通过计算所有变量筛选中每个变量的预测次数之和,选择预测次数最多的变量作为最终的选择变量结果。

根据上述技术方案,S100中的基于相关分析的变量筛选具体方法如下:

基于公式(1)构建两个变量之间的相关程度,r表示相关系数,其值在-1和1之间,r值大于0表示正相关,r值小于0则表示负相关,r值的绝对值越接近1,两变量的关联程度越强:

式中,

将相关系数按如下规则进行变量筛选:自变量和目标变量的相关系数设为c,显著性水平设为P,当P<0.05时为显著,同时还需相关系数的绝对值满足c

根据上述技术方案,S100中的基于主成分分析的变量筛选得到的变量叫做主成分变量,其通过公式(2)的线性组合得到:

式中,PCA

基于主成分分析的变量筛选包括主成分回归判断变量筛选与载荷平方和变量筛选:

主成分回归判断变量筛选:由于主成分变量之间相互独立,利用主成分变量进行变量筛选更加满足统计模型的独立性假设,以累积贡献率大于85%的主成分变量为自变量,目标变量为因变量建立多元线性回归模型,剔除不显著的主成分变量,得到每个主成分变量标准化回归系数,标准化回归系数能够说明不同主成分对于因变量的作用大小,为了得到原始变量X

Importance

式中,Importance

载荷平方和变量筛选:利用载荷量矩阵,计算累计贡献率大于85%的主成分中的每个原始变量的载荷平方和,并计算平均值,若原始变量的载荷平方和大于平均值,则该原始变量作为多元线性回归的候选变量,剔除不显著的变量,最后通过比较多元线性回归中每个原始变量的相对权重来筛选变量,相对权重是对所有可能的子模型添加一个预测变量所引起的R

根据上述技术方案,S100中的基于逐步回归的变量筛选的具体方法为:

多元线性回归常常存在自变量之间存在线性相关,如果任何两个自变量是完全线性相关的,即相关系数为1时,则回归模型无解,而回归模型的构建需要导入的自变量需进行筛选,减少两个自变量间的相关性过大对模型造成较大的误差,两个自变量间的相关性为共线性,而筛选则是基于共线性的指标进行剔除;

通过VIF判断自变量间的多重共线性的指标,当VIF大于10时存在严重的共线性,此时剔除VIF较高的自变量,将剩下的变量与因变量建立多元线性回归模型。

根据上述技术方案,S100中的基于冗余分析的变量筛选是将回归分析和主成分分析相结合的排序方法,将因变量的变化分解为与多个自变量相关的方差,并通过量化不同自变量的得分来判断自变量的重要性,而自变量的量化过程需进行标准化,标准化过程中由于不同的量纲不会改变拟合值和约束排序的结果,因此将自变量标准化后,以典范系数的绝对值作为度量自变量的约束轴。

根据上述技术方案,S100中的基于广义可加模型的变量筛选为半参数模型,包括参数和非参数两个部分,广义可加模型假定因变量y服从正态分布,自变量x和因变量y的条件均值之间通过平滑函数f

y=β

式中,β

广义可加模型首先利用了最小二乘法,使得模型的残差平方和最小,同时使用平滑函数保证每个自变量在结点的连接处光滑,其中平滑函数是指将建模样本分为k个区间,并用k个分段函数来拟合,分段函数是线性函数或者多项式函数,从而在不清楚函数形式时,得到自变量对因变量影响,通过平滑函数表达捕捉到二者间的复杂的非线性关系,三次回归样条是常用的平滑函数,是指在N个分段区间内,f

式中,a

在实现变量筛选时,使用三次回归样条作为变量的平滑函数,并对自变量的显著性进行检验,设显著性的系数为P

根据上述技术方案,S100中的基于机器学习的变量筛选的相对重要性的计算原理是当某个自变量用于回归预测时,计算袋外数据中的残差平方和的变化值并进行汇总,得到所有自变量的重要程度,最后对所有自变量的重要程度进行归一化处理,得到该变量的相对重要性,通过相对重要性计算平均相对重要性,大于平均相对重要性的变量则为认为是对因变量具有显著影响的变量;

基于机器学习的变量筛选包括以回归树为基础的随机森林算法和增强回归树算法:

随机森林算法:首先拟合随机森林模型,然后计算每个变量的每个自变量的相对重要性,最后选择大于相对重要性平均值的变量作为最终筛选结果;

增强回归树算法:首先拟合增强回归树模型,然后计算每个变量的每个自变量的相对重要性,最后选择大于相对重要性平均值的变量作为最终筛选结果。

根据上述技术方案,S200的基于投票法的综合变量筛选是通过投票法结合多种变量筛选方法,获得影响因变量的自变量集合:

式中,Var为投票法得到的最终选择变量集合,i、j分别表示第i种、第j种变量筛选方法,C

与现有技术相比,本发明所达到的有益效果是:

变量筛选可用于从给定的多输入变量数据集中过滤掉与因变量冗余或不相关的自变量,从而产生更具代表性的变量组合,并获得更好的模型预测性能,以“投票法”为原则,采用多种统计学和机器学习方法,同时考虑自变量对因变量的线性和非线性作用,获得对因变量具有显著影响的特征变量,解决了现有模型特征筛选方法的结果不够稳定的问题,尤其是在自变量个数较多的高维空间内,本发明得到的变量筛选结果在提高了模型准确度的同时,也能有效降低模型不确定性,是一种通用且稳健的变量筛选方法,能为生物数学领域中因变量影响因子分析和模型研建提供分析方法和工具。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明的流程框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

基于以下三个数据集进行检验:

数据集1:某地区林分生物量y数据,目的是从湿热指数x

数据集2:某地区单木干材密度,即BCF数据,目的是从海拔HB、坡度PD、土壤厚度TRHD、腐殖质厚度FZZHD、枯落物厚度KLWHD、郁闭度YBD、林分平均年龄ATAND_AGE、单木胸径DBH、单木树高H、枝下高HCB、平均冠幅CW、单木年龄TREE_AGE,共计12个变量中选择出对干材密度有显著影响的变量,建立干材密度预测模型。

数据集3:某地区净初级生产力,即NPP数据,目的是从林分密度N、林分平均年龄AGE、海拔HB、坡度PD、土壤厚度TRHD、腐殖质厚度FZZHD、枯落物厚度KLWHD,共计7个变量中选择出对净初级生产力有显著影响的变量,建立净初级生产力预测模型。

请参阅图1,本发明提供技术方案:一种稳健的模型变量筛选方法,包括以下步骤:

S100、通过基于相关分析的变量筛选、基于主成分分析的变量筛选、基于逐步回归的变量筛选、基于冗余分析的变量筛选、基于广义可加模型的变量筛选与基于机器学习的变量筛选同时对数据集进行变量筛选;

S200、对S100获得的变量筛选结果进行投票,通过计算所有变量筛选中每个变量的预测次数之和,选择预测次数最多的变量作为最终的选择变量结果。

具体而言,S100中的基于相关分析的变量筛选具体方法如下:

基于公式(1)构建两个变量之间的相关程度,r表示相关系数,其值在-1和1之间,r值大于0表示正相关,r值小于0则表示负相关,r值的绝对值越接近1,两变量的关联程度越强:

式中,

将相关系数按如下规则进行变量筛选:自变量和目标变量的相关系数设为c,显著性水平设为P,当P<0.05时为显著,同时还需相关系数的绝对值满足c

具体而言,S100中的基于主成分分析的变量筛选得到的变量叫做主成分变量,其通过公式(2)的线性组合得到:

式中,PCA

基于主成分分析的变量筛选包括主成分回归判断变量筛选与载荷平方和变量筛选:

主成分回归判断变量筛选:由于主成分变量之间相互独立,利用主成分变量进行变量筛选更加满足统计模型的独立性假设,以累积贡献率大于85%的主成分变量为自变量,目标变量为因变量建立多元线性回归模型,剔除不显著的主成分变量,得到每个主成分变量标准化回归系数,标准化回归系数能够说明不同主成分对于因变量的作用大小,为了得到原始变量X

Importance

式中,Importance

载荷平方和变量筛选:利用载荷量矩阵,计算累计贡献率大于85%的主成分中的每个原始变量的载荷平方和,并计算平均值,若原始变量的载荷平方和大于平均值,则该原始变量作为多元线性回归的候选变量,剔除不显著的变量,最后通过比较多元线性回归中每个原始变量的相对权重来筛选变量,相对权重是对所有可能的子模型添加一个预测变量所引起的R

具体而言,S100中的基于逐步回归的变量筛选的对数据集1的具体筛选方法为:

首先输入两个参数VIFc

表1逐步回归方法筛选出的自变量(M1)

具体而言,S100中的基于冗余分析的变量筛选对于数据集1的筛选步骤如下:

①将数据进行标准化;

②先将因变量分别与所有自变量进行多元回归,获得因变量的拟合值和残差;

③对拟合值运行PCA,得到典范特征向量矩阵U,并使用矩阵U计算得分;

④对残差矩阵运行PCA,获得残差非约束排序,即自变量不能解释因变量的部分;

⑤通过RDA计算每个自变量的得分,将得分进行百分比归一化获得每个自变量的相对重要性,选择大于相对重要性平均值的变量作为最终筛选结果。

具体而言,S100中的基于广义可加模型的变量筛选为半参数模型,包括参数和非参数两个部分,广义可加模型假定因变量y服从正态分布,自变量x和因变量y的条件均值之间通过平滑函数f

y=β

式中,β

广义可加模型首先利用了最小二乘法,使得模型的残差平方和最小,同时使用平滑函数保证每个自变量在结点的连接处光滑,其中平滑函数是指将建模样本分为k个区间,并用k个分段函数来拟合,分段函数是线性函数或者多项式函数,从而在不清楚函数形式时,得到自变量对因变量影响,通过平滑函数表达捕捉到二者间的复杂的非线性关系,三次回归样条是常用的平滑函数,是指在N个分段区间内,f

式中,a

在实现变量筛选时,使用三次回归样条作为变量的平滑函数,并对自变量的显著性进行检验,设显著性的系数为P

具体而言,S100中的基于机器学习的变量筛选的相对重要性的计算原理是当某个自变量用于回归预测时,计算袋外数据中的残差平方和的变化值并进行汇总,得到所有自变量的重要程度,最后对所有自变量的重要程度进行归一化处理,得到该变量的相对重要性,通过相对重要性计算平均相对重要性,大于平均相对重要性的变量则为认为是对因变量具有显著影响的变量;

基于机器学习的变量筛选包括以回归树为基础的随机森林算法和增强回归树算法:

随机森林算法:首先拟合随机森林模型,然后计算每个变量的每个自变量的相对重要性,最后选择大于相对重要性平均值的变量作为最终筛选结果;

增强回归树算法:首先拟合增强回归树模型,然后计算每个变量的每个自变量的相对重要性,最后选择大于相对重要性平均值的变量作为最终筛选结果。

具体而言,S200的基于投票法的综合变量筛选是通过投票法结合多种变量筛选方法,获得影响因变量的自变量集合:

式中,Var为投票法得到的最终选择变量集合,i、j分别表示第i种、第j种变量筛选方法,C

经上述的筛选后得到表2的数据:

表2数据集影响因子筛选结果

表中Corr表示基于相关分析的变量筛选,Step表示基于逐步回归的变量筛选,RDA表示基于冗余分析的变量筛选,PCALss表示基于主成分分析的载荷平方和变量筛选,PCAReg表示基于主成分分析的主成分回归判断变量筛选,GAM表示基于广义可加模型的变量筛选,RF表示基于随机森林的变量筛选,BRT表示基于增强回归树的变量筛选。

使用表2的数据构建出表3的回归模型:

表3本发明筛选出的自变量(M2)

通过上述的变量筛选,构建回归模型,模型的修正确定系数如表4所示:

表4不同自变量组合建立的回归模型的修正确定系数

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116526742