掌桥专利:专业的专利平台
掌桥专利
首页

一种基于随机森林模型的土壤pH值预测方法

文献发布时间:2024-04-18 19:58:53


一种基于随机森林模型的土壤pH值预测方法

技术领域

本发明涉及酸性土壤改良技术领域,特别涉及一种基于随机森林模型的土壤pH值预测方法。

背景技术

适宜的土壤酸碱度pH是实现农业生产可持续发展的重要条件,土壤酸化现象在我国普遍存在,自20世纪80年代到21世纪,我国主要农田表层土壤pH平均下降了0.5个单位,根据2005-2011年测土配方施肥数据显示,我国土壤pH低于5.5的耕地为2.26亿亩;土壤pH过低会导致土壤质量下降,如养分失衡、重金属活性增加、微生物活性和土壤酶活性降低,从而影响农作物根系的生长发育和对养分的吸收,造成农作物减产或绝收。

给土壤中施用石灰是酸性土壤改良的最有效措施之一,酸性土壤中施用石灰可以降低土壤酸度,提高土壤pH以及土壤盐基离子(钙、镁、钾)的有效性,同时降低土壤铝和猛对农作物的毒害作用,从而改善作物生长,增加作物产量;然不同作物的适宜pH范围有所差异,因而确定施用石灰改良酸性土壤对提升pH的具体效果至关重要。

目前,主要分为两种方法来确定酸性土壤石灰的施用量,一种是较为经典的氢氧化钙滴定法,该方法是通过氢氧化钙或氢氧化钾来中和滴定土壤中的酸(一般视目标pH为7),以确定中和土壤所需要的石灰,尽管此方法能相对准确的指导石灰的合理施用,但其施用后的pH值往往达不到7,且改良后的具体pH因土壤理化性质而有所差异;另一种是根据土壤培养试验选取多个土壤理化性质指标,确定回归方程,此方法相对简单,但因土壤的复杂性与石灰的复酸化效果,最终计算用于大田试验的石灰用量往往达不到调节目标pH值的效果,因此,以上方法均不能准确的预测对土壤调节所需的石灰用量。

发明内容

本发明实施例提供一种基于随机森林模型的土壤pH值预测方法,可以解决现有技术中,物料施用后复酸化或复碱化、大田土壤情况本身复杂性等原因导致施用物料后pH值与预期改良效果不匹配的问题。

本发明实施例提供一种基于随机森林模型的酸性土壤施用石灰pH预测方法,包括如下步骤:

建立土壤pH值预测数据库;

将pH值预测数据库中的数据输入至随机森林中;并使用网格调参法对随机森林中的指定节点中用于二叉树的最佳变量个数mtry进行优化调参;其中,随机森林中的指定随机森林所包含的最佳决策树数目ntree使用固定值;

使用mtry和ntree两个参数为基础,在随机森林中对数据库中所有解释变量指标进行重要性筛选,并获得预测指标以构建随机森林模型;

在随机森林模型中输入指标参数,实现土壤pH值的预测。

优选地,所述建立土壤pH值预测数据库,包括:

建立田地试验数据库;

使用搜索功能搜索数据库中与土壤pH值相关的文献;

提取文献中的试验地土壤基本理化性质指标、物质施用特征指标和施用物质后的土壤pH这三个指标;

利用提取的三个指标建立土壤pH值预测数据库。

优选地,所述土壤基本理化性质指标主要包括:

土壤pH、有机质、土壤黏粒含量、阳离子交换量CEC、盐基饱和度BS、物料用量、物料施用年限以及施用物料改良之后的土壤pH值;

所述物料施用年限为每年施用一次物料的情况下,持续施用物料的年限。

优选地,所述使用网格调参法对随机森林中的指定节点中用于二叉树的最佳变量个数mtry进行优化调参,包括:

使用网格调参法的二分类和多分类对指定节点中用于二叉树的最佳变量个数mtry进行筛选优化,确定最优mtry为2。

优选地,所述指定随机森林所包含的最佳决策树数目ntree使用固定值,包括:

随机森林中的指定随机森林所包含的最佳决策树数目ntree使用固定值,此固定值为500。

优选地,所述在随机森林中对数据库中的所有解释变量指标进行重要性筛选,包括:

使用均方误差增加和提高节点纯度两个指示值来筛选解释变量指标,得到初步筛选后的解释变量指标;

利用十折交叉验证法对初步筛选的解释变量指标进行再次筛选,得到最终筛选的解释变量指标;

所述最终筛选的解释变量指标为:物质用量、物质施用年限、土壤有机质、土壤pH、土壤CEC。

优选地,所述预测土壤pH值,包括:

基于筛选好的预测指标并将其作为随机森林模型的输入,构建随机森林模型;

将需要的指标参数输入至构建好的随机森林模型中,实现以输出作为所预测的土壤pH值。

本发明实施例提供一种基于随机森林模型的土壤pH值预测方法,与现有技术相比,其有益效果如下:

随机森林模型是一种利用自助重采样技术从原始样本中抽取多个样本,再重新组合生成新的训练样本集合训练决策树,然后建立决策树“森林”,进行“投票”后决定最终预测结果的统计学习方法,此方法属于非线性数据处理,基于集成学习技术,可以快速处理高维数据,能够有效的防止过拟合现象,该方法对数据训练之后,还可对重要特征进行筛选。

土壤是一个复杂的耦合体系,土壤酸碱度(pH)的变化不仅受土壤自身属性影响,还受施用物料(石灰)的特征影响,如施用量与施用时间,因而影响土壤pH变化的指标往往有多个,且与土壤pH的关系往往是非线性的,随机森林算法可以很好地解决复杂非线性问题。

本方法基于田地试验数据训练而形成,考虑了田间试验的环境复杂性,更能贴合田间实际情况,能精准并快速的预测在田间试验下施用物料后的pH改良效果;此方法利用筛选出的多组影响土壤pH值的解释变量指标作为随机森林模型的预测指标,直接使用随机模型输入所需的指标参数,输出即为经预测后的土壤pH值,解决了因田地土壤的复杂性等原因致使施用物料后pH值与预期改良效果不匹配的问题,实现对土壤pH值的预测与准确调节,在对于国家土地改良上具有重要的意义。

附图说明

图1为本发明实施例提供的一种基于随机森林模型的土壤pH值预测方法的步骤流程图;

图2为本发明实施例提供的一种基于随机森林模型的土壤pH值预测方法的随机森林模型指标特征重要性排序;

图3为本发明实施例提供的一种基于随机森林模型的土壤pH值预测方法的随机森林模型模拟预测土壤pH值与田间实际观测pH值的相关关系。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。

实施例1:

本发明实施例提供了一种基于随机森林模型的土壤pH值预测方法,具体步骤如下:

步骤一:建立大田试验“石灰改良酸性土壤”数据库,通过搜索主题词“石灰或白云石或石灰石”和主题词“土壤pH或酸性土壤”来收集“石灰改良酸性土壤大田试验”的已发表文献,录入文献中试验地土壤基本理化性质指标、石灰施用特征指标与施用石灰后的土壤pH,初步建立酸性土壤施用石灰pH预测数据库。

数据库中所有的试验田均为酸性土壤,即0-20cm土层土壤pH数值均小于6.5。该数据库所收录的土壤基本理化性质指标与石灰施用情况均为解释变量,施用石灰改良之后的土壤pH值为响应变量。该数据库收录的土壤理化性质指标包括土壤pH、有机质、土壤黏粒含量、阳离子交换量(CEC)、盐基饱和度(BS)、石灰用量、石灰施用年限以及施用石灰改良之后的土壤pH值。施用材料为生石灰、熟石灰、白云石与石灰石(碳酸钙)均归为石灰,但石灰用量根据石灰类型统一折算成碳酸钙当量,具体换算如下:生石灰、熟石灰、白云石用量分别乘以系数1.78、1.35和1.09。石灰施用年限指在每年施用一次石灰的情况下,持续施用石灰的年限。

步骤二:在R语言环境下读取数据库数据并对数据进行清洗:首先查看数据库的缺失值,并对变量指标中缺失值进行填充(此处选择中位数填充法),随后用聚类方法检测异常值,删除异常值后即完成对数据的清洗,形成最终的分析的数据集。

缺失值填补法可采用平均值、中位数简单填补,也可采取K-近邻算法、随机森林填补缺失值与多重插补法复杂填补。本发明中因为数据缺失值较少,因此采用中位数简单填补。

步骤三:优化调参与筛选重要特征指标,选取数据库70%的数据作为随机森林的训练样本,以余下的30%数据作为测试样本。使用随机森林网格调参法对参数mtry(指定节点中用于二叉树的最佳变量个数)进行优化调参,而ntree(指定随机森林所包含的最佳决策树数目)选用默认值。以确定的最优参数为基础,对所有解释变量指标进行重要性排序,随后通过十折交叉验证法确定最终用于构建随机森林模型的预测指标;

ntree(指定随机森林所包含的最佳决策树数目)选用默认值500,并使用网格调参法对参数mtry(指定节点中用于二叉树的最佳变量个数)进行优化调参后确定最优mtry为2。以确定的最优参数为基础,对所有解释变量指标进行重要性排序,通过%IncMSE(increase inmean squared error)与IncNodePurity(increase innode purity)两个指示值来判断预测变量重要性的指标,均是值越大表示该变量的重要性越大;

基于优化调参与交叉验证后,最终筛选出石灰用量、施用年限、土壤有机质、土壤pH、土壤CEC五个指标作为建立模型的最终指标,如图1所示。

步骤四:以最终筛选的指标来构建随机森林模型,通过精度指标RMSE(均方根误差)与R(相关系数)对该方法的精度进行评价。当预测值与真实值越接近时,RMSE约接近于0,R越接近于1,说明模型效果越好;

精度评价指标RMSE和R计算公式为:

其中:c

步骤五:基于以上优化后的随机森林模型,对大田土壤理化性质指标进行测定,并记录石灰施用信息。在已经优化好的模型中输入所需要的指标参数(石灰用量、施用年限、土壤有机质、土壤pH、土壤CEC),即可预测大田试验施用石灰改良后的土壤pH值;

具体地,石灰施用前,对试验田0~20 cm土层土壤进行有代表性地取样,用于测定随机森林筛选出重要特征参数指标,参照参照鲍士旦(2000)的方法,土壤pH值采用电极电位法测定(水土比2.5:1)、土壤有机质采用外加热重铬酸钾容量法测定、土壤CEC采用1mol/L乙酸铵交换法测定;

石灰施用量均统一折算成碳酸钙(CaCO

实施例2:

本发明实施例提供了一种基于随机森林模型的土壤pH值预测方法。

基于随机森林模型对甘蔗种植区域酸性土壤施用石灰后pH的预测。

本试验选取种植甘蔗区域典型的酸性红壤地块,试验开始前对土壤进行取样,用于测定甘蔗实验地块的基本理化性质指标,主要测定随机森林模型筛选出的三个重要土壤指标以及记录石灰施用的具体信息。

参照鲍士旦的方法(2000),采用电极电位法测定(水土质量比为2.5:1)土壤pH,采用外加热重铬酸钾容量法测定土壤有机质以及采用1mol/L乙酸铵交换法测定土壤CEC,测定完成后,该试验地块的土壤pH值为4.6、土壤CEC为14.3cmol/kg、有机质为38.9g/kg。

在2019年3月与2020年3月施用石灰,设置两个石灰(碳酸钙)用量梯度,分别为3吨/公顷和6吨/公顷,于2020年3月与2021年3月对试验地进行土壤取样,用于施用石灰后的土壤pH值测定,将土壤理化指标参数与石灰施用信息参数输入优化的随机森林模型,预测值如表1所示。

为进一步说明该模型对大田施用石灰后土壤pH预测的准确性,同时选取该甘蔗试验地土壤进行等量石灰(每千克土施用1.4与2.8gCaCO

表1预测的土壤pH与甘蔗试验地实测土壤pH及土培法计算土壤pH

基于随机森林模型对蜜柚种植区域酸性土壤施用石灰后pH的预测。

本试验选取种植蜜柚区域典型的酸性红壤地块,试验开始前对0~20cm土层土壤进行取样,用于测定蜜柚试验地块的基本理化性质指标,主要测定随机森林模型筛选出的三个重要土壤指标以及记录石灰施用的具体信息。

参照鲍士旦的方法(2000),采用电极电位法测定(水土质量比为2.5:1)土壤pH,采用外加热重铬酸钾容量法测定土壤有机质以及采用1mol/L乙酸铵交换法测定土壤CEC,测定完成后,该试验地块的土壤pH值为4.1、土壤CEC为7.6cmol/kg、有机质为20.1g/kg。

在2019年5月与2020年5月与2021年5月施用石灰,石灰(碳酸钙)用量为4吨/公顷,于2020年5月与2021年5月与2022年5月对试验地进行土壤取样,用于施用石灰后的土壤pH值测定,将土壤理化指标参数与石灰施用信息参数输入优化的随机森林模型,预测值如表2所示。

为进一步说明该模型对大田施用石灰后土壤pH预测的准确性,同时选取该甘蔗试验地土壤进行等量石灰(每千克土施用1.8gCaCO

表2预测的土壤pH与蜜柚试验地实测土壤pH及土培法计算土壤pH

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 一种基于近红外光谱的土壤pH值计算方法、预测方法和预测系统
  • 一种基于随机森林模型的集成电路X值灵敏度预测方法
技术分类

06120116514240