掌桥专利:专业的专利平台
掌桥专利
首页

基于网格化区域气象条件预测烟叶产量的方法

文献发布时间:2024-01-17 01:24:51


基于网格化区域气象条件预测烟叶产量的方法

技术领域

本发明涉及一种基于网格化区域气象条件预测烟叶产量的方法,属于烟叶产量预测技术领域。

背景技术

烟草是以收获叶片器官为目的的特殊经济作物,在我国国民经济中占有重要的地位,作为我国烟草行业的基础,培育具有较高产量且优质的烟草品种就成为育种研究的重要目标。目前,对于烟草产量的预测,大多依靠以往的种植经验或是运用统计学上的抽样调查方法计算和估计烟草产量,工作繁琐且偏差较大。

基于此,现有专利文献(公布号:CN110414711A)公开了一种基于生长季节降雨量的烟草产量预测方法,首先采集并统计多个植烟区历年烟草生长季节各月降雨量、烟草产量及当年烟草生长季节各月降雨量;然后分析植烟区历年烟草生长季节各月平均降雨量和近5年平均烟草产量,建立烟草产量预测模型A或模型B;最后将植烟区当年烟草生长季节各月的降雨量代入上述烟草产量预测模型得到当年烟草预测产量。该方案以降雨量来预测种植区的烟草产量。然而,实际生产中某一区域内烟株生长面临的气候环境是复杂多变的,难以根据区域整体气候准确预测烟草产量。同时,仅以降雨量作为自变量来预测烟草产量,也存在预测准确度较差的问题。

发明内容

基于上述,本发明提供一种基于网格化区域气象条件预测烟叶产量的方法,将气象数据精准匹配到1×1的网格区域中,作为烤烟产量预测模型的输入,能够精准地实现烟叶产量的预测,以克服现有技术的不足。

本发明的技术方案是:基于网格化区域气象条件预测烟叶产量的方法,包括:

获取待预测烟叶产量的烟地区域,所述烟地区域为根据网格1×1划分的种植烟草的某网格区域,所述烟地区域信息包括位置信息;

根据所述烟地区域的位置信息调用对应的烤烟产量预测模型;

获取所述烟地区域对应的气象数据,并将所述气象数据输入到所述烤烟产量预测模型中,计算所述烟地区域对应的烟叶产量。

优选地,所述烟地区域对应的气象数据的获取方法为:

获取原始气象要素数据,形成5km分辨率的气象要素产品;

将5km分辨率的气象要素产品,运用反距离权重法插值到1km分辨率的区域网格上,再利用回归模型对插值后的预报值进行订正,得到分辨率为1km的气象要素;

将分辨率为1km的网格数据,运用双线性插值的方法插值到烟地的几何中心位置,将气象要素精确匹配到烟地。

优选地,所述反距离权重法包括:

设有n个点,平面坐标为(x

其中,

式中,f(x,y)为插值,w(d

优选地,所述订正的公式为:

Y

式中,X

优选地,所述双线性插值的方法为:

R

R

式中,x是待插值p点的经度,y是p点纬度,x1,x2是P点四周网格点的经度,y1,y2是P点四周网格点的纬度,f(Q

优选地,所述烤烟产量预测模型包括第一BP神经网络预测模型和第二BP神经网络预测模型,当所述烟地区域处于第一预定区域时,调用所述第一BP神经网络预测模型作为烤烟产量预测模型,当所述烟地区域处于第二预定区域时,调用所述第二BP神经网络预测模型作为烤烟产量预测模型。

优选地,所述第一BP神经网络预测模型的构建方法如下:

采集烟地区域历史烟叶产量作为第一因变量;

采集烟地区域第一历史气象数据作为第一自变量,所述第一历史气象数据包括3~9月逐旬的平均气温、平均最高气温、平均最低气温、日照时数和降水量;

将所述第一自变量作为网络输入值,所述第一因变量作为网络预测值训练BP神经网络得到第一BP神经网络预测模型。

优选地,所述第二BP神经网络预测模型的构建方法如下:

采集烟地区域历史烟叶产量作为第二因变量;

采集烟地区域第二历史气象数据作为第二自变量,所述第二历史气象数据包括烟草成熟期气温、旺长期降雨量、大田期日照时数和大田生长期可用时间;

将所述第二自变量作为网络输入值,所述第二因变量作为网络预测值训练BP神经网络得到第二BP神经网络预测模型。

本发明的有益效果:

1、本发明将现有5km分辨率的气象要素产品降尺度精准匹配到1×1公里的网格区域地块中,据此可得到精准的气象要素作为模型输入,最终可提高烟叶产量预测结果的准确性。

2、本发明通过通过反距离权重法将5km分辨率的气象要素产品插值到1km分辨率的区域网格上,再利用回归模型对插值后的预报值进行订正,能够实现气象要素产品的精准插值。并且,本发明中反距离权重法根据网格区域地块进行简化处理,能够减轻工作效率。

3、本发明根据烟地区域位置信息,选择不同的烤烟产量预测模型,输入不同的模型变量,其中一模型输入的变量为3~9月逐旬的平均气温、平均最高气温、平均最低气温、日照时数和降水量;另一模型输入的变量为烟草成熟期气温、旺长期降雨量、大田期日照时数和大田生长期可用时间,能够实现各烟草区域较为精准的产量预测。

附图说明

图1本发明的方法示意图;

图2BP神经网络拓扑结构;

图3随机森林算法示意;

图4贵州省产量(左)、和气象要素(右)逐年变化情况;

图5各叶位产量的逐旬最大正(负)相关气象要素分布图(上:西部,下:中东部,0表示未通过显著性检验);

图6回归模型各叶位产量预报准确率;

图7线性回归模型各叶位产量预报准确率(绿色:最高,红色:最低);

图8BP神经网络模型各叶位产量预报准确率;

图9BP神经网络模型各叶位产量预报准确率(绿色:最高,红色:最低);

图10随机森林模型各叶位产量预报准确率;

图11随机森林模型各叶位产量预报准确率(绿色:最高,红色:最低);

图12各预报模型的误差与误差百分率对比(A、B:中东部,C、D:西部,A、C:误差,B、D:误差百分率);

图13 z的空间计算示意图;

图14加权幂指数的调节示意图;

图15 w(d

图16双线性插值原理示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

参阅图1,本实施方式一种基于网格化区域气象条件预测烟叶产量的方法,包括:

S1获取待预测烟叶产量的烟地区域,所述烟地区域为根据1×1网格划分的种植烟草的某网格区域,所述烟地区域信息包括位置信息;

应用遥感技术结合地理信息技术,采集烤烟地块、烤烟株数、户主信息、烤房信息、苗棚信息等数据,建立完善的烤烟种植数字布局,同时按照网格1×1公里对区域进行划分,得到各种植烟草地块的网格区域。并可按照网格1×1公里进行土壤采样,测定其有机质、碱解氮、速效磷、速效钾、土壤pH等土壤肥料数据,土壤肥力数据进而构建全省植烟土壤肥力数据库,并叠加在烤烟种植布局内数字底图上,建立土壤肥力评价模型。

具体而言,本步骤中,可选择某网格区域作为带预测烟叶产量的烟地区域。当预测区域为某一区域时,即包含多个网格区域时,可获得多个网格区域的烤烟株数和位置信息,以便分别预测后再相加,得到该区域的整体预测产值。

S2根据所述烟地区域的位置信息调用对应的烤烟产量预测模型;

烤烟产量预测模型包括第一BP神经网络预测模型和第二BP神经网络预测模型。当烟地区域处于第一预定区域时,调用第一BP神经网络预测模型作为烤烟产量预测模型。当烟地区域处于第二预定区域时,调用第二BP神经网络预测模型作为烤烟产量预测模型。

具体而言,第一BP神经网络预测模型的构建方法如下:

采集烟地区域历史烟叶产量作为第一因变量;

采集烟地区域第一历史气象数据作为第一自变量,第一历史气象数据包括3~9月逐旬的平均气温、平均最高气温、平均最低气温、日照时数和降水量;

将第一自变量作为网络输入值,第一因变量作为网络预测值训练BP神经网络得到第一BP神经网络预测模型。

预测时,获取该烟地区域当年的3~9月逐旬的平均气温、平均最高气温、平均最低气温、日照时数和降水量作为输入,即可得到预测的烟叶产量。

第二BP神经网络预测模型的构建方法如下:

采集烟地区域历史烟叶产量作为第二因变量;

采集烟地区域第二历史气象数据作为第二自变量,第二历史气象数据包括烟草成熟期气温、旺长期降雨量、大田期日照时数和大田生长期可用时间;

将第二自变量作为网络输入值,第二因变量作为网络预测值训练BP神经网络得到第二BP神经网络预测模型。

预测时,获取该烟地区域当年的烟草成熟期气温、旺长期降雨量、大田期日照时数和大田生长期可用时间作为输入,即可得到预测的烟叶产量。

下面对上述预测模型的研究过程进行详述:

1、数据资料

产量数据选取贵州省种植烟叶的区域自2010-2021年分区县的下部叶、中部叶和上部叶平均单叶重。气象数据选取2010-2021年3-9月逐旬的平均气温、平均最高气温、平均最低气温、日照时数、降水量。将同一个县市的烟草单叶重数据和气象数据对应,气象要素作为自变量,烟草单叶重数据作为因变量。同时运用《中国烟草种植区划》中四个烟草气候适宜性评价指标作为第二组自变量,指标分别为成熟期气温(7、8月平均气温),旺长期降雨量(6月降雨量),大田期日照时数(5、6、7、8)月累计日照时数,大田生长期可用时间(移栽后日均稳定大于13℃的初日和大于等于18℃的终日之间的日数)。

从气候条件和种植烟草的种类还可以将贵州省分为西部(安龙、赫章、纳雍、盘州、普安、晴隆、水城、威宁、兴义、兴仁、贞丰)和中东部(其余所有烟草种植区县)。从两个大区划和九个地州市两种地域划分情况进行分析。

建立预报模型时,随机筛选60-70%的数据作为建立模型用,剩余数据为检验用。

2、模型建立算法

(1)BP神经网络

BP神经网络,具有自学习、自组织的非线性映射能力,适合一些知识背景不清楚、信息复杂、推理规则不明确的问题的模型建立,既是人工智能研究的一种方法,也是一个数学模型,可以用计算机程序来模拟实现,能有效的运用于非线性系统的识别、控制,不依赖于模型的函数。BP神经网络是一种多层前馈神经网络,该网络的主要特点是信号向前传递,误差反向传播。在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层。每一层的神经元状态值影响下一层神经元状态。如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP神经网络预测输出不断逼近期望输出。

BP神经网络的拓扑结构如图2所示,图中,X

(2)随机森林原理

随机森林是由多个决策树构成的集成算法,属于集成学习的一个子类,可用于分类及回归问题,它主要对样本单元和变量进行抽样,进而生成大量决策树。对每个样本单元来说,所有决策树依次对其进行分类,预测类别中的众数即为随机森林所预测的该样本单元所属类别(用于回归时,输出即为所有树预测值的均值)。

假设给定样本集X中共有N个样本单元,M个特征属性,用于回归问题时随机森林算法大致如下:①采用Bootstrap法从给定样本集X中随机、有放回地抽取Q个样本,生成决策树;②在每一个节点随机抽取m个特征(m

进行预测时,通过引入随机抽取子样本与随机选取特征因素进行节点分裂2个随机过程,降低各回归树间的相关性,进而减小随机森林回归模型的泛化误差。重抽样时,每个样本未被抽到的概率为1-1N()N,当N足够大时这一概率趋于0.368,即是说将有约37%的样本不会被抽到,这些样本将组成袋外数据(OOB),可以通过观测袋外数据的误差来调整模型。

(3)线性回归原理:

社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,把包括两个或两个以上自变量的回归称为多元线性回归。多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验,选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。

3、检验方法

检验方法主要为两种,误差和误差百分率,选取预报效果较好的模型进行预报。其中误差是指运用预报值减去实况值公式如下:

E

其中Fi为第i天产量预报,Oi为第i天产量实况。

误差百分率为误差除以实况,定义预报产量和实况产量的误差在±20%以内为预报准确,计算预报准确的比例为预报准确率,公式如下:

其中Nr

4、产量和气象要素变化情况分析

(1)产量和气象要素逐年变化情况

从2010年至2021年贵州省平均产量变化图(图4左图)可以看出,上部叶和下部叶的产量都为增加的趋势,全省平均下部叶的单叶重从2010年的5.14g增加值2021年的6.62g,上部叶的单叶重从2010年的9.56g增加至2021年的11.7g,上部叶平均单叶重增加的趋势较为明显,中部叶的单叶重基本为保持不变的趋势,平均值为9.34g。中东部和西部地区的变化趋势和全省一致,表现为中部叶单叶重变化不大,下部叶和上部叶为增重的趋势,上部叶增重较下部叶明显(图略)。

从2010年至2021年全省种植烟草区县的关键气象要素(图4右图),如降水量,气温和日照时数的变化来看,近10年年平均气温基本不变,维持在20℃左右,年平均最高气温在25℃左右,年平均最低气温17℃左右。降水量和日照时数呈负相关,2011年为近10年来降水最少的年份,年降水量仅有583mm,2014年为近10年降水量最多的年份,年降水量为1178mm。

(2)产量和气象要素相关性分析

运用相关系数分析产量和逐旬单项气象要素的相关性(表1),可以看出中东部有64.5%的旬相关系数通过了显著性检验,各个部叶情况相当,而西部通过显著性检验的旬数较少,仅为54.2%。从相关系数R来看,最大正相关仅为0.395,最大负相关仅为-0.323,证明单项气象要素与烟叶产量有一定的相关性,但相关系数不高。从通过显著性检验的结果中找出和三个叶位正、负相关最大的要素和所在时期(表1、图5),可知,日照是对各叶位产量的正影响最大的气象要素,主要集中在6月中旬,9月中旬的降水量、4月下旬的日照分别对中东部上部叶、西部中部叶的产量正影响最大;而对各叶位的产量有负影响的气象要素和所处时期相对较复杂,7月之前的积温、日照和降水量以及6月之后的气温都有可能对烟叶的产量产生负影响。

表1单叶重和逐旬单项气象要素的相关情况分析

5、建模结果分析

前面分析到烟叶产量与单项气象要素的相关性欠佳,但仍有一定的相关,为了解以多项气象要素对烟叶产量预报的效果,下面将输入历史气象要素分为两类:四要素,即烟叶成熟期气温、旺长期雨量、大田期日照时数、大田期可用时段;多要素,3-9月逐旬的平均气温、平均最低气温、平均最高气温、降水量、日照时数、有效积温。分别采用线性回归、逐步回归、BP神经网络、随机森林四种方法建立烟叶各叶位产量预报模型,探究最佳的预报模型及其准确率。

(1)回归模型建模结果

通过对比线性回归和逐步回归模型的预报准确率(图6)可知,逐步回归模型的预报准确率优于线性回归模型,尤其在西部地区采用多要素进行预报时更为明显,但西部地区采用4要素进行预报时,中、上部叶的逐步回归模型未能顺利建立,其原因是自变量和因变量的相关性较差,无法形成数学模型;对于中东部地区而言,多要素的预报准确率整体上略高于4要素,但差异较小,而对于西部区域,多要素的预报准确率远远低于4要素的,均未超过50%。中东部地区最优的线性回归模型为多要素的逐步回归模型,平均预报准确率为:87.85%,且中部叶预报准确率最高,为92.37%,下部叶次之,上部叶最低;西部地区最优的回归模型是4要素的线性回归模型,平均预报准确率为:87.96%,且中部叶和上部叶预报准确率最高,均为92.59%,下部叶最低。

对贵州省9个市州分别采用线性回归建立模型,得到各市州最高和最低的预报准确率(图7),可知,除安顺市外,其余8个市州4要素的模型无论是最高预报准确率还是最低预报准确率均明显优于多要素的模型,但安顺市采用多要素的模型可以获得更高的预报准确率。

(2)基于BP神经网络产量预报模型的建立及检验

于BP神经网络建模,发明人尝试了隐藏层个数分别为1和2个,每个隐藏层神经元节点数为1到10共110种网络结构。并挑选预测准确率最高的模型进行对比检验。从不同区域和不同叶位预测准确率来看(图8),4要素和多要素的模型对各个部叶产量的预报准确率均超过85%;在中东部地区,多要素的模型更优,平均预报准确率为90.96%,其中中部叶的预报准确率最高,为94.07%,下部叶次之,上部叶最低,为87.29%;在西部地区,4要素的模型更优,平均预报准确率为92.59%,上部叶的预报准确率最高,为96.3%,中部叶次之,下部叶最低,为88.89%。

分贵州省9个市州分别采用BP神经网络建立模型,得到各市州最高和最低的预报准确率(图9),可知,除毕业市和六盘水市外,其余7个市州多要素的模型无论是最高预报准确率还是最低预报准确率均明显优于4要素的模型,但安顺市采用4要素的模型可以获得更高的预报准确率,而六盘水市4要素和多要素的预报准确率相当,都为100%。

(3)随机森林建模结果

从采用随机森林建模的各叶位产量预报准确率来看(图10),4要素和多要素的模型对各个部叶产量的预报准确率均超过62%;整体上中东部地区的预报准确率略优于西部地区;在中东部地区,多要素的模型更优,平均预报准确率为86.44%,其中中部叶的预报准确率最高,为90.68%,下部叶次之,上部叶最低,为81.36%;在西部地区,不同要素模型的各叶位预报准确率差异较大,下部叶的产量预报准确率是4要素模型更优,为85.19%,而中部叶和上部叶则是多要素模型更优,分别为88.89%和92.59%。

对贵州省9个市州分别采用BP神经网络建立模型,得到各市州最高和最低的预报准确率(图11),可知,除安顺市、六盘水市和黔东南州外,其余6个市州多要素的模型无论是最高预报准确率还是最低预报准确率均明显优于4要素的模型,但六盘水市和黔东南州采用4要素的模型可以获得更高的预报准确率,而安顺市4要素和多要素的预报准确率相当。

(4)多种方式对比分析

通过对比线性回归、逐步回归、BP神经网络和随机森林四种方法建立的预报模型来看(图7、图9、图11),整体上BP神将网络的预报模型远远优于其他三种方法的模型,仅西部地区4要素线性回归模型在中部叶的预报准确率和西部地区多要素逐步回归模型在上部叶的预报准确率和对应要素类别的BP神经网络的预报准确率一致。因此,在贵州省中东部地区选择多要素的BP神经网络模型更优,各叶位的产量预报准确率均超过87%,平均值为90.96%,在贵州省西部地区选择4要素的BP神经网络模型更优,各叶位的产量预报准确率均超过88%,平均值为92.59%。

表2多种方式对比

定义预测的单叶重减实际单叶重为误差,误差除以实际单叶重为误差百分率来看,除西部地区多要素为自变量,运用线性回归预测结果的误差较大外,其余预测模型的误差基本在±2之间,整体而言,运用多要素的预测误差低于运用四要素的情况。从误差百分率来看,四种模型在中东部地区的预测结论偏大的情况比较普遍,异常值基本都为偏大50%以上。西部地区的异常值偏大100%的情况居多。

6、结果分析

(1)中东部和西部地区的变化趋势和全省一致,表现为中部叶单叶重变化不大,下部叶和上部叶为增重的趋势,上部叶增重较下部叶明显。

(2)运用线性和非线性多种方法对贵州省分两个区域(中东部、西部)建立单叶重和气象要素(四种关键生长期气象要素和逐旬气象要素)的预报模型,发现BP神经网络的预报模型优于其他三种方法的模型,对于中东部地区,多要素建立预测模型的准确率普遍大于运用四要素的情况,西部地区则是四要素预报效果普遍高于多要素的情况。因此在无法获取详细的气象要素时,可以考虑使用4要素建立预测模型,带入预测气象要素对当年的产量进行预测。

(3)从不同预测方法的误差和误差百分率分布可以看出,人工智能的预测方式明显优于线性预测方式,且模型对产量的预测有偏大的趋势。

S3获取所述烟地区域对应的气象数据,并将所述气象数据输入到所述烤烟产量预测模型中,计算所述烟地区域对应的烟叶产量。

烟地区域对应的气象数据的获取包括以下步骤:

步骤1:获得原始气象要素,对原始气象要素进行数据的质量控制和数据清洗,将站点气象要素产品和卫星数据融合,运用站点数据修正高分辨率的卫星反演的格点数据产品,形成5KM分辨率的气象要素产品。

步骤2:将步骤1中形成的5KM分辨率的气象要素产品,运用反距离权重法插值到贵州省1KM分辨率的网格上,再利用回归模型对插值后的预报值进行订正,得到分辨率为1KM的气象要素。公式如下:

1)反距离权重法

反距离权重法,又称“倒数距离加权插值”或“Shepard方法”。

设有n个点,平面坐标为(x

其中,

容易看出,

f(x,y)是用分段表达式表达的,看起来不连续,实际上,它是处处连续的。

所以,f(x,y)在(x

加权幂指数p可以调节插值函数曲面的形状。p越大,在节点处函数曲面越平坦;p越小,在节点处函数曲面越尖锐。加权幂指数的调节示意图如图14所示。

倒数距离加权插值的优点是:公式比较简单,特别适用于结点散乱,不是网格点的问题。它的缺点是:只能在节点上取到函数的最大最小值(因为这种插值是各节点上值的加权平均)。

当节点比较多时,倒数距离加权插值的计算工作量比较大,可将插值公式作下列简化:

其中

如图15所示,当

气象业务工作,即假设n个已知样本点对预测点值的预测都有一定性影响,且其影响随距离增加而减小。其原理是待插值点的属性值是待插值点影响区域属性值的加权平均,权的大小与待插点和影响区域里点之间的距离有关。其公式如下:

式中:Z为估计点的要素值,Zi为第i个站点上要素值,di为插值点到第i点的距离,n为插值格点总数。

2)订正公式。

在进行插值后的每一个站点上,用一定预报时效的预报值与测站的观测值建立对应关系,订正模式插值引起的误差。具体操作如下:

Y

式中,X

步骤3:将步骤2中获得的分辨率为1KM的网格数据,运用线线性插值的方式插值到烟草地块的几何中心位置,将气象要素精确的匹配到烟草地块。

双线性插值的公式如下:

R

R

如图16所示,假设插值到P点,式中,x是p点的经度,y是p点纬度,x1,x2是P点四周网格点的经度,y1,y2是P点四周网格点的纬度,f(Q

根据前述算法,即可得到烟地区域对应的气象数据,并将气象数据输入到烤烟产量预测模型中,计算烟地区域对应的烟叶产量。当预测模型为第一BP神经网络预测模型,获取该烟地区域当年的3~9月逐旬的平均气温、平均最高气温、平均最低气温、日照时数和降水量作为输入,即可得到预测的烟叶产量。当预测模型为第二BP神经网络预测模型,获取该烟地区域当年的烟草成熟期气温、旺长期降雨量、大田期日照时数和大田生长期可用时间作为输入,即可得到预测的烟叶产量。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

技术分类

06120116197626