一种基于机器学习算法的集合预报方法、系统及介质

文献发布时间：2023-06-19 11:05:16

技术领域

本发明涉及空气质量预报技术领域，具体地，涉及一种基于机器学习算法的集合预报方法、系统及介质。

背景技术

近年来，空气污染问题严峻，引起了广泛的关注。合理的空气质量预报能够帮助有关部门制定相应决策，以限制人为排放，同时引导公众规避污染峰值期。目前区域空气质量数值模式已经成为短时临近和中期预报的主要手段。数值预报的不确定性主要来源于大气初始状态的不确定性和预报模式的不确定性，大气运动的非线性特征决定了无论来自于初始场还是来自模式本身极小的误差在模式积分过程中将被放大，导致模式在一定时间后失去可预报性。因此相对于单模式预报，集合预报能够能体现模式初始条件和输入参数的不确定性在模式积分中的传播，从而可以了解由这些不确定性导致的预报不确定性，提供预报的可靠性和可预报性信息，此外，集合预报可以提供不同事件发生的概率，预报不再过分依赖某一个初始条件和参数值，预报信息更加丰富和全面。

目前的集合预报方法主要是将不同模式、不同区域、不同时效的预报均看做不同的模式，由于各单模式在给定站点的预报性能存差异，为了区别对待不同的模式预报结果，基于单模式在历史一段时间内的表现，评估模式对未来预报值的可信度或权重，得出集合模式的预报结果。

针对上述现有技术，目前主流的集合模式算法能够集合不同单模式的优缺点，但难以考虑气象条件如温度、湿度、风速、风向、降水和气压等要素对污染物浓度的影响，同时对单个模式的历史表现的评估难以做到全面和精准。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于机器学习算法的集合预报方法、系统及介质，能够引入气象条件如温度、湿度、风速、风向、降水和气压等要素对污染物浓度的影响，同时耦合了多种机器学习算法，提高空气质量模式的预报准确率。

根据本发明提供的一种基于机器学习算法的集合预报方法、系统及介质，所述方案如下：

第一方面，提供了一种基于机器学习算法的集合预报方法，所述方法包括：

依据污染物浓度以及气象预报在内的相关数据，构建模型的训练数据；

利用多种机器学习方法耦合优化模型搭建；

将得到的训练数据作为多种机器学习方法耦合优化模型的输入，得到未来时间段空气质量预报。

优选的，所述构建模型的训练数据包括：

污染物浓度预报数据：选取一段时间H1内，有M1个不同空气质量模式分别使用N1种空间分辨率下的污染物浓度预报数据，得到M1*N1个成员的时序数据；

气象预报数据：选取一段时间H1内气象模式对M2种气象要素分别使用N2种空间分辨率下的气象预报数据，得到M2*N2个成员的时序数据；

污染物浓度观测数据：选取一段时间H1内污染物浓度的实际观测数据。

优选的，所述利用多种机器学习方法耦合优化模型搭建包括：

单模式优化模型搭建：对于污染物浓度预报数据中的每一个成员的数据，分别构建第一优化模型，对其进行优化；具体方法为：

选取污染物浓度预报数据中某个成员的时序数据，同时选取气象预报数据中M2*N2个成员的气象预报数据，以及污染物浓度观测数据中污染物浓度的观测数据，共同作为第一机器学习算法的训练集，训练得到第一优化模型；通过第一优化模型，得到污染物浓度预报数据中每个成员优化后的污染物浓度的预报数据；

基于多模式集合的优化模型搭建：选取单模式优化模型输出的每个成员优化后的污染物浓度的预报数据，同时选取污染物浓度观测数据，作为第二机器学习算法的训练集，构建第二优化模型，得到M1*N1个成员中每个成员的与真实观测值最为接近的概率；

最终结果输出：将单模式优化模型中输出的每个成员优化后的预报数据，与基于多模式集合的优化模型中输出的每个成员的与真实观测值最为接近的概率进行加权平均，得到最终输出。

优选的，所述未来时间段空气质量预报包括：

实际进行业务预报时，根据污染物浓度预报数据与气象预报数据中的数据结构，得到未来一段时间H2内，不同空气质量模式对于污染物浓度的预报数据，以及得到同时间段内气象模式关于各种气象要素的预报数据，作为利用多种机器学习方法耦合优化模型搭建步骤中搭建的多种机器学习方法耦合优化模型的输入，得到最终优化后的污染物浓度的预报数据。

第二方面，提供了一种基于机器学习算法的集合预报系统，所述系统包括：

模块1：依据污染物浓度以及气象预报在内的相关数据，构建模型的训练数据；

模块2：利用多种机器学习方法耦合优化模型搭建；

模块3：将得到的训练数据作为多种机器学习方法耦合优化模型的输入，得到未来时间段空气质量预报。

优选的，所述模块1包括：

污染物浓度预报数据模块：选取一段时间H1内，有M1个不同空气质量模式分别使用N1种空间分辨率下的污染物浓度预报数据，得到M1*N1个成员的时序数据；

气象预报数据模块：选取一段时间H1内气象模式对M2种气象要素分别使用N2种空间分辨率下的气象预报数据，得到M2*N2个成员的时序数据；

污染物浓度观测数据模块：选取一段时间H1内污染物浓度的实际观测数据。

优选的，所述模块2包括：

单模式优化模型搭建模块：对于污染物浓度预报数据模块中的每一个成员的数据，分别构建第一优化模型，对其进行优化；具体方法为：

选取污染物浓度预报数据模块中某个成员的时序数据，同时选取气象预报数据模块中M2*N2个成员的气象预报数据，以及污染物浓度观测数据模块中污染物浓度的观测数据，共同作为第一机器学习算法的训练集，训练得到第一优化模型；通过第一优化模型，得到污染物浓度预报数据模块中每个成员优化后的污染物浓度的预报数据；

基于多模式集合的优化模型搭建模块：选取单模式优化模型输出的每个成员优化后的污染物浓度的预报数据，同时选取污染物浓度观测数据模块中，作为第二机器学习算法的训练集，构建第二优化模型，得到M1*N1个成员中每个成员的与真实观测值最为接近的概率；

最终结果输出模块：将单模式优化模型中输出的每个成员优化后的预报数据，与基于多模式集合的优化模型中输出的每个成员的与真实观测值最为接近的概率进行加权平均，得到最终输出。

优选的，所述模块3包括：

实际进行业务预报时，根据污染物浓度预报数据模块与气象预报数据模块中的数据结构，得到未来一段时间H2内，不同空气质量模式对于污染物浓度的预报数据，以及得到同时间段内气象模式关于各种气象要素的预报数据，作为模块2中搭建的多种机器学习方法耦合优化模型的输入，得到最终优化后的污染物浓度的预报数据。

与现有技术相比，本发明具有如下的有益效果：

1、利用多种机器学习算法进行耦合，对单个空气质量模型的预报效果进行订正优化，同时融入对空气质量有较大影响的气象变量，从而减小模型预报的不确定性，提高空气质量模式的预报准确率；

2、空气质量的预报效果得到提高，能够帮助有关部门制定相应决策，以限制人为排放，同时引导公众规避污染峰值期，保护公众的健康。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的整体结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种基于机器学习算法的集合预报方法，参照图1所示，以优化某个站点空气污染物A浓度的预报数据为例，对应的预报时效为H，本实施例中的预报时效为H，如24h、48h、72h或96h，空气污染物A如PM

依据污染物浓度以及气象预报在内的相关数据，构建模型的训练数据：

污染物A浓度预报数据：选取一段时间H1内，有M1个不同空气质量模式分别使用N1种空间分辨率下的污染物A浓度预报数据，得到M1*N1个成员的时序数据，本实施例中的不同空气质量模式如CAMx、CMAQ、NAQPMS和WRFChem等，空间分辨率如27km、9km和3km。

气象预报数据：选取一段时间H1内气象模式对M2种气象要素分别使用N2种空间分辨率下的气象预报数据，得到M2*N2个成员的时序数据；本实施例中的气象模式如WRF，气象要素如气压、温度、相对湿度、风速、风向、降水等。

污染物A浓度观测数据：选取一段时间H1内污染物A浓度的实际观测数据。

利用多种机器学习方法耦合优化模型搭建；

单模式优化模型搭建：对于污染物浓度预报数据中的每一个成员的数据，分别构建第一优化模型，对其进行优化；具体方法为：

选取污染物浓度A预报数据中某个成员的时序数据，同时选取气象预报数据中M2*N2个成员的气象预报数据，以及污染物A浓度观测数据中污染物A浓度的观测数据，共同作为第一机器学习算法的训练集，训练得到第一优化模型，本实施例中的第一机器学习算法如随机森林、极端随机树或梯度提升回归树；通过第一优化模型，得到污染物A浓度预报数据中每个成员优化后的污染物A浓度的预报数据。

基于多模式集合的优化模型搭建：选取单模式优化模型搭建输出的每个成员优化后的污染物A浓度的预报数据，同时选取污染物A浓度观测数据中污染物A浓度的观测数据，作为第二机器学习算法的训练集，第二机器学习算法如BPNN；构建第二优化模型，得到M1*N1个成员中每个成员的与真实观测值最为接近的概率。

最终结果输出：将单模式优化模型搭建中输出的每个成员优化后的预报数据，与基于多模式集合的优化模型搭建中输出的每个成员的与真实观测值最为接近的概率进行加权平均，得到最终输出。

将得到的训练数据作为多种机器学习方法耦合优化模型的输入，得到未来时间段空气质量预报。

实际进行业务预报时，根据污染物A浓度预报数据与气象预报数据中的数据结构，得到未来一段时间H2内，不同空气质量模式对于污染物A浓度的预报数据，以及得到同时间段内气象模式关于各种气象要素的预报数据，作为利用多种机器学习方法耦合优化模型搭建步骤中搭建的多种机器学习方法耦合优化模型的输入，得到最终优化后的污染物浓度A的预报数据。

实施原理举例说明：步骤1：为对某一站点的PM

步骤2：将步骤1得出的优化后的单模式结果，结合与历史15天每一时刻对应的PM

步骤3：将步骤2中得出的概率进行加权平均，得出最终的PM

本发明实施例提供了一种基于机器学习算法的集合预报方法，利用多种机器学习算法进行耦合，对单个空气质量模型的预报效果进行订正优化，同时融入对空气质量有较大影响的气象变量，从而减小模型预报的不确定性，提高模式对空气质量的预报效果，帮助有关部门制定相应决策，以限制人为排放，同时引导公众规避污染峰值期，保护公众的健康。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：肖宇;王茜;
专利申请人：上海市环境监测中心(上海长三角区域空气质量预测预报中心);