一种季节性野火易发性评价方法

文献发布时间：2024-04-18 19:57:31

技术领域

本发明涉及预测技术领域，具体涉及一种季节性野火易发性评价方法。

背景技术

野火灾害是指在林区、草原、荒漠等自然环境中由于多种因素的综合作用，导致火灾爆发并在一定范围内蔓延的现象。野火一旦爆发，由于其火势猛烈、蔓延速度快、范围广，不仅会给人们的生命财产安全带来严重威胁，而且会导致大量植被烧毁，影响生态系统平衡，甚至引发泥石流等自然灾害，对土壤、水源和空气质量等方面产生不良影响，进而影响人们的健康和生活质量。已有相关研究表明，不同季节发生野火灾害的频率不同。在我国南方，野火主要发生在春季和冬季，而夏季和秋季发生野火灾害的频率较低。了解野火季节性规律可以帮助本发明预测野火的发生季节和地点，并有助于研究野火与环境因素之间的关系，例如气候、植被等因素，从而更好地理解季节性野火的形成机理和发展趋势。

近年来，近年来，机器学习方法已被证明是对自然灾害评估的有效方法。机器学习方法在灾害易发性的广泛使用基于其3个因素：(1)可以基于历史灾害数据用于训练和构建灾害易发性预测模型，以用于预测未来的灾害事件，并为应急救援提供指导。(2)可以结合地理信息系统(GIS)等技术，对灾害易发区域进行空间分析和建模，以评估灾害风险和制定灾害防范措施。(3)提取出对灾害易发性具有重要影响的因素，如气象因素、地形因素、人类活动等，从而帮助本发明更好地了解灾害的发生机理和规律。由于机器学习“黑盒”模型的复杂性，往往很难解释模型的决策过程和背后的原因，因此难以使人们相信模型的可靠性。这会影响模型的应用范围和可信度。由此可见，构建合理、高性能的季节性野火易发性模型，并对不同季节的野火易发性发生规律进行归纳分析，对制定精准和有效的预防和应对措施是十分重要且必要的。

发明内容

本发明的目的在于提供一种季节性野火易发性评价方法，利用CF及XGBoost模型构建合理且具有良好预测性能的野火易发性模型，解决现有的机器学习方法进行各季节野火易发性预测时模型可解释性差以及难以确定主导因素的问题。

为实现上述目的，本发明提供了一种季节性野火易发性评价方法，包括下列步骤：

收集特定区域内的历史野火数据，并通过多种渠道对野火样本进行普查核实，筛除不合格、重复样本点，优化野火样本数据集；

根据区域的地理气候特点，野火样本在区域内的散布情况，从静态和动态两方面选取野火影响因子，统一坐标系和评价单元大小；

将野火样本数据以及动态影响因子统一划分为全年、春季、夏季、秋季和冬季5个时期，并联合静态影响因子数据进行数据匹配；

基于全年野火样本在区域内静态因子和全年时期的动态因子图层上的散布情况，利用确定性系数算法计算各因子不同属性区间对应的CF值；

基于各因子的CF值计算结果，划定负样本的取样范围，并从中随机选择与全年、春季、夏季、秋季和冬季5个时期内野火样本数量相同的负样本，并与所对应时期的因子原始数据进行数据匹配；

基于不同时期内的正负样本数量，进行训练集和测试集的样本划分，基于XGBoost算法利用训练集构建野火易发性模型，利用测试集验证模型的合理性和预测性能；

采用多个评价指标，分析基于年度和季度的野火易发性模型评价结果的差异，探讨基于季节性评价在野火易发性预测性能方面的优势，并对各时期的野火易发性等级进行划分预警；

利用SHAP全局可解释性方法，探讨季节性因素对不同季节野火易发性的影响，并通过分析不同季节的特征间的交互作用和依赖关系，揭示不同季节野火高易发区的分布规律和因子作用差异。

可选的，历史野火数据的获取渠道包括相关政府部门、主流媒体、遥感影像及产品，所述野火样本数据集的优化原则有可信度良好、发生在植被覆盖区域以及各时期内不同的野火地点。

可选的，所述静态影响因子为非季节性因子，选取维度包括土质地形、地表水文环境和人类活动，所述动态影响因子为季节性因子，可从气象气候和植被覆盖维度进行选取。

可选的，全年的涵盖时间范围为1～12月，春季的涵盖时间范围为3～5月，夏季的涵盖时间范围为6～8月，秋季的涵盖时间范围为9～11月，冬季的涵盖时间范围为12～2月。

可选的，利用确定性系数算法计算各因子不同属性区间对应的CF值的原因为，不同因子的含义及量纲具有极大差异，利用确定性系数算法可将因子数据进行标准化处理，并可将因子的数值变化与野火发生与否转为正向关系，反映野火发生对各因子的敏感程度。

可选的，基于各因子的CF值计算结果，划定负样本的取样范围的过程，包括下列步骤：

将各因子的不同属性区间内的原始值替换为对应的CF值；

将各个因子的CF图层进行加权叠加计算，得到基于CF的野火易发性模型；

将CF野火易发性模型中CF值大于0的区域剔除，剔除以历史野火为中心的500m缓冲区域，以得到最终的负样本选取范围；

在负样本选取范围内随机选取与不同时期内野火样本数量相同的负样本，保持负样本间距为1000m，保证样本均匀散布于整个区域内，且具有不同的环境属性。

可选的，在进行训练集和测试集的样本划分的过程中，首先将正负样本集合进行随机打乱，再从中随机选取70％的样本用于模型训练和构建，剩余30％用于模型性能验证。

可选的，用于评价野火易发性的指标分为区划合理性指标和预测性能指标，所述区划合理性指标包括对基于年度和季度的野火易发性结果的高和极高易发区的面积占比，以及其区域包含的野火样本数量，各易发性等级的频率比；所述预测性能指标包括受试者工作特征曲线，基于混淆矩阵的火点检测率、误报率、总体精度、Kappa系数以及均方根误差。

可选的，所述SHAP全局可解释性方法包括影响因子作用方向力度的解释和影响因子依赖性的解释，对于影响因子作用方向力度的解释，展示不同特征对野火易发性预测结果的影响程度；了解哪些特征对于预测结果具有正向影响，哪些特征对于预测结果具有负向影响，以及每个特征的影响强度，进而确定哪些因素对于野火易发性的预测最为关键；对于影响因子依赖性的解释，展示不同特征之间的相互作用关系对预测结果的影响，理解不同特征之间的交互效应对预测结果的贡献程度，以及特征之间的相关性如何影响预测结果，理解野火易发性预测模型的行为，以提高模型的预测准确度。

本发明提供了一种季节性野火易发性评价方法，首先，通过多种渠道进行历史野火样本收集，并对野火样本进行筛选优化，以得到可信度高及丰富的历史野火样本，并按照全季节、春季、夏季、秋季和冬季5个时期划分样本。依据区域环境特征以及野火样本的散布情况，选取不同时期内的静态和动态野火影响因子。然后，通过利用CF算法构建了全季节的CF野火易发性模型，基于此划定负样本选取区域，并从中选取与各时期正样本数量相同的负样本，并整合正负样本。其次，对不同时期内的正负样本数量划分训练集和测试集，基于XGBoost模型构建年度和不同季度的野火易发性预测模型，并基于相同的区划将其易发性等级划分为极低、低、中、高和极高5个易发性等级，利用多个评价指标比较分析其合理性和预测性能，探讨基于季节性的野火易发性评价方法的优势；最后，利用SHAP全局解释性方法分析不同季节的易发性模型中因子影响程度差异，了解不同季节野火发生的概率以及可能的原因，从而提前采取相应的预防措施，以降低野火的发生率和危害。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种季节性野火易发性评价方法的流程示意图。

图2是本发明中基于CF方法选取负样本的流程图。

图3本发明中利用XGBoost模型构建不同时期野火易发性模型的流程图。

图4是本发明中利用SHAP全局解释方法分析不同季节的野火易发性的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明提供了一种季节性野火易发性评价方法，包括下列步骤：

S1：收集特定区域内的历史野火数据，并通过多种渠道对野火样本进行普查核实，筛除不合格、重复样本点，优化野火样本数据集；

S2：根据区域的地理气候特点，野火样本在区域内的散布情况，从静态和动态两方面选取野火影响因子，统一坐标系和评价单元大小；

S3：将野火样本数据以及动态影响因子统一划分为全年、春季、夏季、秋季和冬季5个时期，并联合静态影响因子数据进行数据匹配；

S4：基于全年野火样本在区域内静态因子和全年时期的动态因子图层上的散布情况，利用确定性系数算法计算各因子不同属性区间对应的CF值；

S5：基于各因子的CF值计算结果，划定负样本的取样范围，并从中随机选择与全年、春季、夏季、秋季和冬季5个时期内野火样本数量相同的负样本，并与所对应时期的因子原始数据进行数据匹配；

S6：基于不同时期内的正负样本数量，进行训练集和测试集的样本划分，基于XGBoost算法利用训练集构建野火易发性模型，利用测试集验证模型的合理性和预测性能；

S7：采用多个评价指标，分析基于年度和季度的野火易发性模型评价结果的差异，探讨基于季节性评价在野火易发性预测性能方面的优势，并对各时期的野火易发性等级进行划分预警；

S8：利用SHAP全局可解释性方法，探讨季节性因素对不同季节野火易发性的影响，并通过分析不同季节的特征间的交互作用和依赖关系，揭示不同季节野火高易发区的分布规律和因子作用差异。

以下结合实施步骤对本发明进行详细说明：

在步骤S1中，在确定研究区域之后，基于多种渠道收集特定历史时间内的野火样本数据，并对样本进行核查，优化样本数据集。具体地：

S1.1、国内外主流媒体的报道信息、政府机构部门提供的火灾报告和调查记录、遥感影像数据及相关野火产品数据集、国内外文献查询等渠道均可以获取历时野火数据。

S1.2、用于野火易发性研究的最主要的历史野火数据源是遥感野火产品。其相较于其他数据来源的实时性更强、数据覆盖范围更广、数据分辨率更高、数据处理和分析更方便等方面的优势。著常见的遥感野火产品有MODIS火点和热点数据、VIIRS火点数据和Landsat等高分辨率的遥感影像。

S1.3、以VIIRS火点数据为例，野火样本筛选优化的步骤主要有：

(a)依据其“Type”字段，仅保留属性为“假定的植被火灾”的样本；依据其“Confidence”字段，剔除属性为“Low”的不合格野火样本。

(b)基于高分辨率的地表覆盖类型数据产品，仅保留地处耕地、林地、草地等有植被覆盖地区的样本。

(c)利用“欧氏距离”分析工具，剔除处于统一时期、同一评价单元内的重复样本。

在步骤S2中，根据区域的地理气候特点，和野火样本在区域内的散布情况，从静态(非季节性)和动态(季节性)两方面选取野火影响因子，并统一坐标系和评价单元大小。具体地：

S2.1、非季节性因子主要从土质地形、地表水文环境、人类活动等维度进行选取。具体有土壤类型、高程、坡度、坡向、曲率、地形湿度指数(TWI)、水流强度指数(SPI)、距水系距离、距道路距离、距居民地距离、人口密度、地表覆盖类型等；

S2.2、季节性因子从气象气候、植被覆盖等维度进行选取。具体由归一化植被指数(NDVI)、叶面积指数(LAI)、干度指数(NDBSI)、湿度指数(WET)、时期总降雨量、平均风速、平均气温、时期总太阳辐射、平均潜在蒸散量等。

S2.3、评价单元大小是指影像栅格大小，根据经验公式选取最佳栅格单元大小，计算公式如下：

式中：G

在步骤S3中，首先将历史野火样本按照全年(1-12月)、春季(3-5月)、夏季(6-8月)、秋季(9-11月)和冬季(12-2月)5个时期划分不同的样本集。相应地，各动态因子按照相同的5个时期为标准进行数据收集和处理，并联合所有静态因子，将各时期内的因子属性匹配至对应时期内的野火样本中。

在步骤S4中，基于全年野火样本在区域内静态因子和全年时期的动态因子图层上的散布情况，利用确定性系数(CF)算法计算各因子不同属性区间对应的CF值。

具体而言，利用CF算法对因子数据进行处理的原因为，不同因子的含义及量纲具有极大差异，利用CF算法可将因子数据进行标准化处理，可将因子的数值变化与野火发生与否转为正向关系，反映野火发生对各因子的敏感程度。CF值计算公式为

其中，CF

在步骤S5中，基于各因子的CF值计算结果，划定负样本(非野火点)的取样范围，并从中随机选择与全年、春季、夏季、秋季和冬季5个时期内野火样本数量相同的负样本，并与所对应时期的因子原始数据进行数据匹配。基于CF方法选取负样本的流程如图2所示，具体地：

S5.1、将各因子的不同属性区间内的原始值替换为对应的CF值；

S5.2、将各个因子的CF进行加权叠加计算，得到基于CF的野火易发性模型，基于CF的因子权重计算公式如式(3)所示，加权叠加计算公式如式(4)所示。

其中，W

S5.3、以CF值为0为分界线，剔除区域CF野火易发性模型中CF>0的区域，即提取基于CF得到的区域内不易发生野火灾害的地区；剔除以历史野火样本为中心的500半径的缓冲区，以剔除与历史野火样本具有相似地理环境的区域；最终得到区域负样本选取区域。

S5.4、在负样本选取区域内，以1000m距离为采样间隔，随机选取与不同时期内野火数量相同的建模负样本，保证样本均匀散布于整个区域内，且具有不同的环境属性。

在步骤S6中，基于不同时期内的正负样本数量，进行训练集和测试集的样本划分，基于XGBoost算法利用训练集构建野火易发性模型，利用测试集验证模型的合理性和预测性能。利用XGBoost模型构建不同时期野火易发性模型的流程如图3所示，具体地：

S6.1、划分训练集和测试集，需首先将正负样本集合进行随机打乱，从中随机选取70％的样本用于模型训练和构建，剩余30％用于模型性能验证。

S6.2、XGBoost是一种基于决策树的集成学习算法，预测公式如式(5)所示。XGBoost使用按特征值排序，支持并行计算等技巧来加快训练速度，具有非常高的训练和预测效率。此外，该模型对于噪声和异常值具有很好的鲁棒性，并且具有很高的预测性能，其在各种数据集上都表现出色，通常比其他机器学习算法更好。总的来说，XGBoost具有高效性、鲁棒性、预测性能好、鲁棒性强和特征选择等优点，非常适合用于对不同时期的野火易发性模型的构建工作。

其中，y

S6.3、调节XGBoost模型的超参数，主要包括‘n_estimators’:模型中树的数量，也就是迭代次数。‘max_depth’:每棵树的最大深度，这个参数的取值通常会影响模型的过拟合和欠拟合程度。‘learning_rate’:学习率，表示每次更新权重时的步长，较小的学习率可以让模型更稳定，但需要更多的迭代次数。‘subsample’:子样本的比例，用于构建每棵树。‘colsample_bytree’:每棵树的特征采样比例，用于构建每棵树。‘gamma’:控制树的叶子节点分裂的最小损失减少值，增加该参数可以防止过拟合。‘min_child_weight’:控制树的叶子节点的最小样本权重和，减小该参数可以防止过拟合。

S6.4、基于区域内所有特征图层的所有栅格利用训练好的XGBoost模型进行预测，得到整个区域的野火易发性预测模型。

在步骤S7中，采用多个评价指标，分析基于年度和季度的野火易发性模型评价结果的差异，探讨基于季节性评价在野火易发性预测性能方面的优势，并对各时期的野火易发性等级进行划分预警。具体地：

S7.1、将野火易发性区划等级划分为极低(0％-20％)、低(20％-40％)、中(40％-60％)、高(60％-80％)、极高(80％-100％)5个易发性等级。

S7.2、区划合理性指标包括对基于年度和季度的野火易发性结果的高和极高易发区的面积占比，以及其区域包含的野火样本数量，各易发性等级的频率比，频率比计算公式如下：

其中，FR

S7.3、预测性能指标包括受试者工作特征(ROC)曲线，基于混淆矩阵的火点检测率、误报率、总体精度、Kappa系数(Kappa’C)，以及均方根误差(RMSE)，计算公式如下：

其中，TP和FN分别为正样本预测正确和预测错误的数量；TN和FP分别为负样本预测正确和预测错误的数量。n为样本数量；Y

在步骤S8中，利用SHAP全局可解释性方法，揭示不同季节野火高易发区的分布规律和因子作用差异。利用SHAP全局解释方法分析不同季节的野火易发性的流程如图4所示，具体地：

S8.1、对于不同季节的野火易发性模型，SHAP全局解释方法的特征分析和依赖性分析的作用是一样的，都是为了解释模型中特征对于模型预测的贡献程度和特征之间的相互作用关系。具体地说：

(1)特征分析：通过特征分析，本发明可以确定每个特征对于模型预测结果的贡献程度，以及在不同季节中特征的重要性是否存在差异。例如，在春季中可能会有更多的植被生长和降雨，因此植被相关的特征可能会对春季的野火易发性预测结果产生更大的影响。而在夏季中，气温和湿度等特征可能会更加重要。

(2)依赖性分析：通过依赖性分析，本发明可以确定每个特征与其他特征之间的相互作用关系，并理解不同季节中特征之间的关系是否存在差异。例如，在春季中，植被和降雨之间可能存在较大的相互作用，而在夏季中，气温和湿度之间可能会产生更加显著的交互作用。

S8.2、使用SHAP对模型进行全局解释，以确定哪些因素对模型预测结果的影响最大，并识别出在不同季节中起主导作用的特征。针对每个季节分别计算每个静态和动态的SHAP值，以确定哪些因素对不同季节的野火易发性影响最大。

S8.2、使用SHAP对模型进行全局解释，以确定所有因素对预测结果的作用方向。例如在夏季，风速大小与野火发生与否呈负向关系，而在冬季中，风速大小与野火发生与否呈正向关系。

S8.3、使用SHAP对模型进行全局解释，确定单因子与野火易发性预测结果的依赖性，判断易发生野火的因子属性区间；确定双因子间的交互作用对野火易发性预测结果的影响。具体地说：

(1)首先，使用SHAP方法对模型进行全局解释，以了解每个因子对野火易发性预测结果的整体贡献程度。通过计算每个因子的SHAP值，可以确定单个因子与野火易发性预测结果之间的依赖性。(2)其次，对单个因子进行属性区间的判断，以确定哪些属性值范围更容易导致野火的发生。通过观察因子的SHAP值随属性值变化的趋势，可以确定易发生野火的因子属性区间。

(3)最后，本发明考虑双因子间的交互作用对野火易发性预测结果的影响。通过分析不同因子组合下的SHAP值变化，可以识别出哪些因子之间存在交互作用，并了解这些交互作用对野火易发性的预测结果产生的影响。

同时，为更直观地说明评价方法的执行过程，以下为一个评价实施例的辅助说明：

在评估野火易发性时，本发明选取了18个评价因子，包括高程、归一化植被指数(NDVI)、年均降雨和平均气温等。首先，使用SHAP分析来确定各因子对野火易发性预测结果的影响程度。通过对模型输出结果进行SHAP值排序，本发明发现NDVI和年均降雨是对野火易发性最重要的因素。其次，通过分析野火易发性与这些因子之间的关系，确定了易发生野火的NDVI范围和年均降雨量的阈值区间。

接着，进一步研究了双因子间的交互作用对野火易发性预测结果的影响。本发明通过绘制因子间的交互作用图和分析对应的SHAP值，揭示了某些因子在特定组合下对野火易发性的影响程度可能相互增强或减弱。例如，当高程较低且NDVI较高时，野火易发性可能呈现更高的趋势。

通过以上评价方法的执行过程，本发明能够全面解释模型的预测结果，揭示单个因子和因子之间的关系，为预防和管理野火灾害提供更深入的理解和指导。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：桂林理工大学;