掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于环境监测和深度学习领域,具体为一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法。

技术背景

近年来大气污染问题日益严重,其危害已遍及全球。大气污染的影响主要体现在:臭氧层破坏、酸雨和全球气候变暖。臭氧层的破坏可导致人类眼部疾病和皮肤癌发病率的上升;酸雨会导致土壤酸化以及建筑物的腐蚀,影响植物正常发育和建筑物使用寿命。全球气候变暖更是危害人类生存和发展的一个重大隐患,海平面上升、森林火灾、极端天气等都是环境向人类发起的最严峻的挑战,大气污染达到足够的浓度和持续时间会严重影响人体的健康,因此,环境治理问题受到越来越多国家的关注,大气污染问题的解决迫在眉睫。

实践表明,空气质量预报模型可以对可能发生的污染进行预测并采取控制措施,能够有效减轻大气污染对人类和环境产生的危害,为此,制定合理的污染防治措施受到越来越多国家和相关部门的重视。WRF-CMAQ是目前常用的空气质量预报模型,它由提供气象场数据的WRF(中尺度数值天气预报系统)和通过模拟污染物变化过程得到预报结果的CMAQ(三维欧拉大气化学与传输模拟系统)组成。然而由于模拟的气象场、排放清单和污染物生成机理等因素的不确定性,目前已有基于物理模型的预测结果并不理想。

发明内容

发明目的:针对上述问题,本发明引入一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,该方法针对现有物理预报模型预测效果不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型。首先,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。然后,构建基于CNN-LSTM的空气污染物特征提取网络,来表述各污染物历史实测数据逐日、逐小时变化规律及其相互影响关系;构建CNN气象特征提取网络表征高关联气象数据逐日、逐小时变化规律;通过BP网络将各个污染物时序特征与气象辅助特征进行拼接,预测获取各个污染物的预测值。

本发明有效利用机器学习和深度学习方法对多种空气污染物历史数据的时间变化规律及其相互影响关系、高关联气象数据的时间变化规律进行准确的建模与特征提取,建立数据驱动的污染物-气象多模态空气质量预测模型,从而准确预测空气中有害的污染物浓度。

技术方案:一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法包括如下步骤:

步骤1)采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值和缺失值进行预处理来降低数据冗余度;

步骤2)利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入;

步骤3)构建基于CNN-LSTM的空气污染物特征提取网络,学习多种污染物历史实测数据逐日、逐小时的变化规律及其相互影响关系;构建基于CNN的气象因素辅助特征提取网络,学习各气象数据数据逐日、逐小时的变化规律;通过BP网络将各污染物时序特征与气象辅助特征进行融合、并预测获取各个污染物预测输出;

步骤4)训练所构建的基于CNN-LSTM-BP的空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值。

进一步,所述步骤1中,采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值进行数据剔除,对缺失值进行数据填充,以此来进行数据预处理,降低数据冗余,具体步骤如下:

1-1:数据剔除,步骤如下:

1-1-1:对违背客观事实数据进行剔除,剔除污染物监测浓度小于0的数值、剔除湿度大于100%的数值、剔除风速小于0的数值、剔除风向小于0°大于360°的数值;

1-1-2:对偏离正常分布数据进行剔除。利用基于距离的异常值检测算法检测偏离正常分布的数据,首先计算连续的5个点{x

x

式中x代表不同的参数如SO2监测浓度等,p代表数值在参数序列中的位置。然后,计算5个点与均值的差值的绝对值,如式(2)所示:

x

最后,记除x

x

其中,x

1-2:数据填充步骤如下:

1-2-1:由于数据缺失的程度对修复方案的准确度差异较大,因此当连续丢失的数据小于三帧时采用均值填充缺失数据进行填补。该方法就是将现有数据的对应属性均值填充给缺失值,公式定义如式(4)所示:

x

式中x

1-2-2:当连续丢失的数据大于三帧时采用EM填充,该方法填充通过极大似然估计计算缺失值,能通过自身稳定的迭代过程找到全局最优解。首先设观察数据x=(x

Q

再极大化L(θ,θ

如果θ

进一步,所述步骤2中,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。皮尔逊相关系数是广泛用于度量两个序列之间相关程度的一种参数,公式如式(8)所示:

式中X和Y代表两个不同的序列,

根据皮尔逊相关系数分析的结果,按关联性数值进行排序,筛选得到关联性前K的气象因素{weather

进一步,所述步骤3)中,构建基于CNN-LSTM的空气污染物特征提取网络,通过卷积神经网络(CNN)和长短时记忆网络(LSTM)组件学习各污染物历史实测数据逐日和逐小时的变化规律及各污染物之间的影响关系,经过Reshape操作得到各个污染物的时序特征;利用CNN对高关联气象数据进行特征提取,经过Reshape操作得到气象辅助特征。接着,在BP网络中将各污染物时序特征与气象辅助特征拼接作为网络输入,预测得到各个污染物预测输出,具体步骤如下:

3-1:建立基于CNN和LSTM框架的CNN-STM空气污染物特征提取网络,表征各个污染浓度的逐小时变化和逐日变化及其相互影响关系,具体步骤如下:

3-1-1:将步骤1处理后的污染物数据转化为矩阵X(M×M矩阵),X

3-1-2:采用CNN模型提取污染物数据的逐日和逐小时时间特征。其关键步骤是卷积层,其中滤波器通过滤波器和输入元素(M×M矩阵)之间的卷积运算在每个输入元素中移动。使用ω

3-1-3:卷积之后,进行最大池化操作,以生成所选块的最大值(K×K,K超参数,代表池化过滤器大小),它类似于卷积层,过滤器按K个单元移动不会对输入矩阵的重叠部分进行过滤,公式如式(10)所示:

3-1-4:各污染物数据池化后进行Reshape操作,将矩阵转化为一维向量。为了提取污染物之间的时间互关联性,将Reshape之后的特征输入LSTM,得到污染物之间关系融合的时序特征,LSTM的计算方式如下:

i

f

U

O(t)=tanh(H

其中

3-2:建立基于CNN的气象特征提取网络,表征高关联气象数据逐小时变化和逐日变化规律,具体步骤如下:

3-2-1:将步骤2处理后的天气数据转化为矩阵W(M×M矩阵),W

3-2-2:将多种高关联气象数据堆叠为多通道矩阵,按照3-1-2所描述步骤,通过卷积和池化进行特征提取并经过Reshape操作转化为一维向量,作为气象辅助特征;

3-3:将污染物融合时序特征与气象辅助特征拼接作为BP网络的输入,利用BP网络进行特征融合,融合后输出污染物的预测值。BP网络的连接方式如公式(17)所示:

Y

其中,Y

3-4:建立模型目标函数,具体步骤如下:

3-4-1:建立目标函数1,使得模型预测结果的最大相对误差尽量小;

目标函数1公式如式(18)所示:

式中,E

3-4-2:建立目标函数2,使得污染物预测准确度尽量高;

要使污染物预测准确度尽量高,使用均方根误差(RMSE)作为评价指标,RMSE的公式如式(19)所示:

其中,c

进一步,所述步骤4中,训练步骤3)中构建的基于CNN-LSTM-BP多模态空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值,具体步骤如下:

4-1:初始化模型结构,确定网络卷积核维度、初始权重、训练步长、激活函数、隐藏层层数和迭代次数;

4-2:使用预测集来测试模型的预测精度,以RMSE为评价指标,得到模型的预测精度;

4-3:使用相同训练集和测试集训练传统LSTM来进行模型对比。

有益效果:本发明的空气污染物预测方法针对目前已有预报模型由于模拟的气象场、排放清单和污染物生成机理等因素的不确定性,导致预测结果并不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型,充分考虑不同污染物之间的影响、气象条件的变化,有效提高空气污染物预测模型的精度。

本发明引入一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,该方法针对现有预报模型预测效果不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型。首先,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。然后,构建基于CNN-LSTM的空气污染物特征提取网络,来表述各污染物历史实测数据逐日、逐小时变化规律及其相互影响关系;构建CNN气象特征提取网络表征高关联气象数据逐日、逐小时变化规律;通过BP网络将各个污染物时序特征与气象辅助特征进行拼接,预测获取各个污染物的预测值。

附图说明

图1为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法步骤示意图;

图2为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法气象数据与污染物相关系数热力图(以南通市数据为例);

图3为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法模型结构图;

图4为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法模型训练迭代图;

图5为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法真实数据与预测数据对比图;

具体实施步骤

下面将结合说明书附图对本发明的技术方法做进一步的详细说明。

如图1所示,一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,包括如下步骤:

步骤1)采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值和缺失值进行预处理来降低数据冗余度;

所述步骤1中,采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值进行数据剔除,对缺失值进行数据填充,以此来进行数据预处理,降低数据冗余,具体步骤如下:

1-1:数据剔除,步骤如下:

1-1-1:对违背客观事实数据进行剔除,剔除污染物监测浓度小于0的数值、剔除湿度大于100%的数值、剔除风速小于0的数值、剔除风向小于0°大于360°的数值;

1-1-2:对偏离正常分布数据进行剔除。利用基于距离的异常值检测算法检测偏离正常分布的数据,首先计算连续的5个点{x

x

式中x代表不同的参数如SO2监测浓度等,p代表数值在参数序列中的位置。然后,计算5个点与均值的差值的绝对值,如式(2)所示:

x

最后,记除x

x

其中,x

1-2:数据填充步骤如下:

1-2-1:由于数据缺失的程度对修复方案的准确度差异较大,因此当连续丢失的数据小于三帧时采用均值填充缺失数据进行填补。该方法就是将现有数据的对应属性均值填充给缺失值,公式定义如式(4)所示:

x

式中x

1-2-2:当连续丢失的数据大于三帧时采用EM填充,该方法填充通过极大似然估计计算缺失值,能通过自身稳定的迭代过程找到全局最优解。首先设观察数据x=(x

Q

再极大化L(θ,θ

如果θ

步骤2)利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入;

所述步骤2中,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。皮尔逊相关系数是广泛用于度量两个序列之间相关程度的一种参数,公式如式(8)所示:

式中X和Y代表两个不同的序列,

根据皮尔逊相关系数分析的结果,按关联性数值进行排序,筛选得到关联性前K的气象因素{weather

步骤3)构建基于CNN-LSTM的空气污染物特征提取网络,学习多种污染物历史实测数据逐日、逐小时的变化规律及其相互影响关系;构建基于CNN的气象因素辅助特征提取网络,学习各气象数据数据逐日、逐小时的变化规律;通过BP网络将各污染物时序特征与气象辅助特征进行融合、并预测获取各个污染物预测输出;

所述步骤3)中,构建基于CNN-LSTM的空气污染物特征提取网络,整体网络结构如图3所示。通过卷积神经网络(CNN)和长短时记忆网络(LSTM)组件学习各污染物历史实测数据逐日和逐小时的变化规律及各污染物之间的影响关系,经过Reshape操作得到各个污染物的时序特征;利用CNN对高关联气象数据进行特征提取,经过Reshape操作得到气象辅助特征。接着,在BP网络中将各污染物时序特征与气象辅助特征拼接作为网络输入,预测得到各个污染物预测输出,具体步骤如下:

3-1:建立基于CNN和LSTM框架的CNN-STM空气污染物特征提取网络,表征各个污染浓度的逐小时变化和逐日变化及其相互影响关系,具体步骤如下:

3-1-1:将步骤1处理后的污染物数据转化为矩阵X(M×M矩阵),X

3-1-2:采用CNN模型提取污染物数据的逐日和逐小时时间特征。其关键步骤是卷积层,其中滤波器通过滤波器和输入元素(M×M矩阵)之间的卷积运算在每个输入元素中移动。使用ω

3-1-3:卷积之后,进行最大池化操作,以生成所选块的最大值(K×K,K超参数,代表池化过滤器大小),它类似于卷积层,过滤器按K个单元移动不会对输入矩阵的重叠部分进行过滤,公式如式(10)所示:

3-1-4:各污染物数据池化后进行Reshape操作,将矩阵转化为一维向量。为了提取污染物之间的时间互关联性,将Reshape之后的特征输入LSTM,得到污染物之间关系融合的时序特征,LSTM的计算方式如下:

i

f

U

O(t)=tanh(H

其中

3-2:建立基于CNN的气象特征提取网络,表征高关联气象数据逐小时变化和逐日变化规律,具体步骤如下:

3-2-1:将步骤2处理后的天气数据转化为矩阵W(M×M矩阵),W

3-2-2:将多种高关联气象数据堆叠为多通道矩阵,按照3-1-2所描述步骤,通过卷积和池化进行特征提取并经过Reshape操作转化为一维向量,作为气象辅助特征;

3-3:将污染物融合时序特征与气象辅助特征拼接作为BP网络的输入,利用BP网络进行特征融合,融合后输出污染物的预测值。BP网络的连接方式如公式(17)所示:

Y

其中,Y

3-4:建立模型目标函数,具体步骤如下:

3-4-1:建立目标函数1,使得模型预测结果的最大相对误差尽量小;

目标函数1公式如式(18)所示:

式中,E

3-4-2:建立目标函数2,使得污染物预测准确度尽量高;

要使污染物预测准确度尽量高,使用均方根误差(RMSE)作为评价指标,RMSE的公式如式(19)所示:

其中,c

步骤4)训练所构建的基于CNN-LSTM-BP的空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值。

所述步骤4中,训练步骤3)中构建的基于CNN-LSTM-BP多模态空气污染物预测网络,训练迭代图如图4。并用训练好的模型预测未来空气污染物浓度值,具体步骤如下:

4-1:初始化模型结构,确定网络卷积核维度、初始权重、训练步长、激活函数、隐藏层层数和迭代次数;

4-2:使用预测集来测试模型的预测精度,以RMSE为评价指标,得到模型的预测精度;

4-3:使用相同训练集和测试集训练传统LSTM来进行模型对比,对比结果如图5所示。

该方法针对现有物理预报模型预测效果不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型。首先,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。然后,构建基于CNN-LSTM的空气污染物特征提取网络,来表述各污染物历史实测数据逐日、逐小时变化规律及其相互影响关系;构建CNN气象特征提取网络表征高关联气象数据逐日、逐小时变化规律;通过BP网络将各个污染物时序特征与气象辅助特征进行拼接,预测获取各个污染物的预测值。本发明有效利用机器学习和深度学习方法对多种空气污染物历史数据的时间变化规律及其相互影响关系、高关联气象数据的时间变化规律进行准确的建模与特征提取,建立数据驱动的污染物-气象多模态空气质量预测模型,从而准确预测空气中有害的污染物浓度,提醒相关部门及时采取控制措施,有效减轻大气污染对人类和环境产生的危害。

以上所述仅为本发明在南通市崇川区空气质量数据集下较好的实施方式,本发明保护范围并不以上述实施方式为限制,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修改和其他修饰变化,皆应纳入权利要求书记载的保护范围。

相关技术
  • 一种基于多模态特征结合多层注意力机制的结合视频描述方法
  • 一种基于气象条件的交通空气污染物浓度预测方法与系统
  • 一种基于气象条件的交通空气污染物浓度预测方法与系统
技术分类

06120115921109