掌桥专利:专业的专利平台
掌桥专利
首页

能见度确定方法、装置、计算机设备及可读存储介质

文献发布时间:2023-06-19 13:45:04


能见度确定方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及数据分析系统和应用领域,具体涉及一种能见度确定方法、装置、计算机设备及可读存储介质。

背景技术

能见度是反应大气透明度的一种指标,其变化会受到降水、沙尘暴、雾、霾等天气现象的影响,也与大气污染物含量有关,对航空、海运、铁路、公路等领域具有重要影响。目前,专门针对城市、航空、铁路、海运等应用场景的能见度监测或者预报产品层出不穷,但是这些产品大多只能实现监测或预报功能之一,并不兼具两种功能。此外,针对公路交通的能见度监测预报产品较少,模型和方法也较为单一。

能见度的监测主要包括目视监测、仪器监测和图像/视频识别监测。目视监测主要是以人工观测为主,即视力正常的人在当时天气条件下,能从天空背景中看到和辨认出目标物(黑色、大小适度)轮廓的最大水平距离。但人工观测缺乏规范性和客观性,数据误差较大;仪器监测主要包括透射式能见度仪、散射式能见度仪、激光雷达式能见度仪等光学仪器,数据客观准确,但仪器维护费用高、操作复杂;图像/视频监测是利用视频或者相机采集的画面,使用各类图像识别技术判断图像中能见度的技术,该技术提高了能见度监测的普适性,但是硬件设备昂贵,受相机和视频监控范围限制,模型能监测到的能见度上限值较低,加上模型对样本数据的要求较高,真正业务化、产品化较为困难。此外,目前布设的气象站、区域站、交通站都有常规气象要素的观测,但是很少有相机或视频监控设备配套,限制了图像识别技术的推广使用,而大量积累的气象数据又无人问津导致数据浪费。

能见度的预报主要包括数值模式预报与统计预报两大类。数值模式预报主要是基于流体力学原理、热力学原理、大气动力学原理等数据方程,依据天气学和物理力学原理,预测未来一段时间的大气运动状态和天气现象的方法,如目前常见的ECMWF、GFS、BJ-RUC等。统计预报主要是基于数学公式,从纯数学的角度揭示环境因素和气象因素与能见度的关系,实现对能见度的预报,如多元线性回顾、BP神经网络等。

由于统计方法可根据气象资料调整输入变量,有效弥补数值模式预报部分变量难以获取的缺点,又具有较高的预报精度,加上计算机技术的发展和大数据时代的到来,基于机器学习和深度学习的预报产品也越来越多。但是,大多数短临预报模型都是基于当前时次预报未来某一时次的点对点的预报产品,且其预报的能见度的平均绝对误差都高于1000m。

发明内容

因此,本发明要解决的技术问题在于克服现有能见度的监测和预报业务化产品化困难、不能兼具监测和预报两种功能以及大多数短临预报产品误差大的问题,从而提供一种能见度确定方法、装置、计算机设备及可读存储介质。

为实现上述目的,本发明采用如下技术方案:

根据第一方面,本发明公开了一种能见度确定方法,所述能见度确定方法包括:

获取与能见度相关的特征参数;

将所述与能见度相关的特征参数输入到经过训练的随机森林回归模型中得到能见度。

可选地,所述与能见度相关的特征参数包括以下中的一种或几种:单气象要素特征、要素间关系特征、综合诊断特征、变率特征。

其中,所述监测模型所需的单气象要素特征包括以下中的一种或几种:瞬时风速、温度、相对湿度;所述要素间关系特征包括以下中的一种或几种:上下层温度差、上下层水汽压差;所述变率特征包括以下中的一种或几种:风速40、50、60分钟变率、上下层温度差30、50分钟变率、相对湿度20分钟变率、离地三十公分相对湿度60分钟变率、上下层水汽压差50分钟变率、温度十分钟变率、离地三十公分温度露点差10、50分钟变率、温度60分钟变率、露点温度60分钟变率、汽压30分钟变率。

其中,所述预报模型所需的单气象要素特征包括以下中的一种或几种:温度、相对湿度、水汽压;所述要素间关系特征包括以下中的一种或几种:上下层露点温度差;所述综合诊断特征包括以下中的一种或几种:湿度能见度指数、感热通量、潜热通量;所述变率特征包括以下中的一种或几种:温度5分钟变率、上下层温度差5、10分钟变率、上下层湿度差5、10分钟变率、感热通量5、10分钟变率、潜热通量5、10分钟变率、水气压10分钟变率、能见度10分钟变率。

可选地,所述随机森林回归模型的训练方法包括:

获取训练集和当前超参数组合;

根据所述训练集建立与所述当前超参数组合相对应的当前随机森林回归模型;

获取测试集和与测试集对应的真实值;

将所述测试集输入到所述当前随机森林回归模型中得到最终预测值;

根据所述预测值与真实值确定模型评分;

遍历预设的多个超参数组合,根据得到的多个模型评分确定所述随机森林回归模型的最优建模超参数组合;

根据所述最优建模超参数组合得到所述随机森林回归模型。

可选地,所述根据所述当前超参数组合建立相对应的当前随机森林回归模型包括:

在所述训练集中进行放回抽样得到至少两个训练子集;

针对任一训练子集,确定与该训练子集相对应的分类与回归树模型,遍历所有的训练子集得到与所述当前超参数组合相对应的当前随机森林回归模型。

可选地,所述将所述测试集输入到所述当前随机森林回归模型中得到最终预测值包括:

分别确定所述测试集中的每个测试样本在各分类与回归树模型中所属的单元域及对应单元域的平均值,即为每个分类与回归树模型的预测值;

确定所有分类与回归树模型预测值的平均值,即为对应测试样本的最终预测值。

根据第二方面,本发明还公开了一种能见度确定装置,包括:参数获取模块:用于获取与能见度相关的特征参数;特征输入模块:用于将所述与能见度相关的特征参数输入到经过训练的随机森林回归模型中得到能见度。

根据第三方面,本发明还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的能见度确定方法的步骤。

根据第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的能见度确定方法的步骤。

本发明技术方案,具有如下优点:

1.通过实施本发明所获取的能见度,其训练样本是来源于交通气象站探测的常规气象要素数据,既能节省设备成本,又能充分利用已有的历史数据,其使用的特征方案适用于大多数交通气象站,易进行大范围推广。

2.本发明使用的预报模型是点对多的模型,能够基于当前时次预报未来一小时内逐十分钟的能见度值。

3.本发明使用的监测预报模型与传统的同类其他模型相比,平均绝对误差大幅度降低,监测预报效果显著提高。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中能见度确定方法的一个流程示意图;

图2为本发明实施例中随机森林回归算法的一个流程示意图;

图3为本发明实施例中分类与回归树算法的一个流程示意图;

图4为本发明实施例中能见度确定装置的结构示意图;

图5为本发明实施例中计算机设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,在本申请说明书和所附权利要求书中使用的术语“及/和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种能见度确定方法,如图1所示,该方法包括如下步骤:

步骤101,获取与能见度相关的特征参数;

示例性地,在获取与能见度相关的特征参数中,监测模型需要包括气象要素特征、要素间关系特征、综合诊断特征、变率特征中的一种或几种,其中所述单气象要素特征包括以下中的一种或几种:瞬时风速、温度、相对湿度;所述要素间关系特征包括以下中的一种或几种:上下层温度差、上下层水汽压差;所述变率特征包括以下中的一种或几种:风速40、50、60分钟变率、上下层温度差30、50分钟变率、相对湿度20分钟变率、离地30公分相对湿度60分钟变率、上下层水汽压差50分钟变率、温度10分钟变率、离地30公分温度露点差10、50分钟变率、温度60分钟变率、露点温度60分钟变率、气压30分钟变率。

预报模型需要包括气象要素特征、要素间关系特征、综合诊断特征、变率特征中的一种或几种,其中所述单气象要素特征包括以下中的一种或几种:温度、相对湿度、水汽压;所述要素间关系特征包括以下中的一种或几种:上下层露点温度差;所述综合诊断特征包括以下中的一种或几种:湿度能见度指数、感热通量、潜热通量;所述变率特征包括以下中的一种或几种:温度5分钟变率、上下层温度差5、10分钟变率、上下层湿度差5、10分钟变率、感热通量5、10分钟变率、潜热通量5、10分钟变率、水汽压10分钟变率、能见度10分钟变率。

步骤102,将所述与能见度相关的特征参数输入到经过训练的随机森林回归模型中得到能见度。

示例性地,在确定回归树模型的训练方法中,先获取训练集和当前超参数组合;进而在所述训练集中进行放回抽样得到至少两个训练子集;针对任一训练子集,确定与该训练子集相对应的分类与回归树模型,遍历所有的训练子集得到与所述当前超参数组合相对应的当前随机森林回归模型;再获取测试集以及与测试集相对应的真实值;分别确定所述测试集样本的预测值;将当前预测值与真实值进行比对计算出模型评分;遍历预设的多个超参数组合,根据得到的多个评分确定所述随机森林回归模型的建模最优超参数组合;进而根据所述最优超参数组合建立的随机森林回归模型得到能见度。

其中,本发明使用的训练集样本数据来源于交通气象站探测的常规气象要素数据,既能节省设备成本,又能充分利用已有的历史数据,其使用的特征方案适用于大多数交通气象站,易进行大范围推广。

可选地,在本发明的一些实施方式中,如图2所示,从原始训练集中有放回地随机抽取样本数据,组成样本集S(S>1);使用分类与回归树函数,对随机抽取的各样本集S建立对应的分类与回归树模型;

所述分类与回归树是随机森林回归模型的核心弱学习机,它是在给定输入变量的条件下,以二叉树形式分裂形成决策树,最终输出预测值条件概率分布的机器学习方法。该方法既能解决离散数据的分类问题,也能解决连续数据的回归问题,其算法如图3所示。

分类与回归树的本质是找到各类特征的最优切分点,依据各个特征的重要性程度,依次按照最优切分点进行二叉树分裂,直至满足停止条件(一般是达到预先设置的树深、停止分裂的最小样本数等参数,或者是树已完全分裂),最终将样本数据划分为有限个单元域,各单元域内所有输出值的平均值即为该单元域最优输出值。其数学思路如下:

对于具有n类特征的样本集,每类特征都存在一个切分变量V

其中,C

当损失函数L达最小时,对应的(m,V

对每个区域按所述最优输出值和所述损失函数进行重复划分,直至满足停止条件,最终可以将输入的全部特征数据划分为R

其中,I(x∈R

可选地,在本发明的一些实施方式中,获取测试集B,根据所述由训练集确定的分类与回归树模型,可以确定测试集中每个样本所述单元域T以及对应单元域的平均值C

可选地,由所有分类与回归树模型预测结果和树模型个数Q,可以得出当前预测值:

其中Q是随机森林中树模型的个数。

可选地,通过遍历所有的超参数组合,并根据得到的预测值Y与真实值之间的关系得出当前超参数组合对应模型的评分,可以确定所述随机森林回归模型的最优超参数组合,进而得到最优随机森林回归模型,并根据此随机森林回归模型得到能见度。

由此方法获取的能见度,其训练样本是来源于交通气象站探测的常规气象要素数据,既能节省设备成本,又能充分利用已有的历史数据,其使用的特征方案适用于大多数交通气象站,易进行大范围推广。其中使用的预报模型是点对多的模型,能够基于当前时次预报未来一小时内逐十分钟的能见度值。

可选地,对所得到的随机森林回归模型进行性能测试,获取全新的验证集样本C,基于所述随机森林回归模型,得到模型预测值z

经过监测模型及未来一小时逐十分钟预报模型不同能见度区间以及总体样本的平均绝对误差验证结果如表1所示,区间阈值来自《中华人民共和国标准——水平能见度》(GB/T33673-2017)。

表1监测及逐十分钟预报模型的平均绝对误差表(单位:m)

注:表中用于划分能见度的阈值点来自国家水平能见度分级标准(GB/T33673-2017),区间左开右闭

本发明使用的预报模型是点对多的模型,能够基于当前时次预报未来一小时内逐十分钟的能见度值,且使用的监测预报模型与传统的同类其他模型相比,平均绝对误差大幅度降低,监测预报效果显著提高。

本发明实施例还提供了一种能见度确定装置,如图4所示,该装置包括:

参数获取模块301,用于获取与能见度相关的特征参数,详细内容参考步骤101所述;

特征输入模块302,用于将所述与能见度相关的特征参数输入到经过训练的随机森林回归模型中得到能见度,详细内容参考步骤102所述.

本发明实施例还提供了一种计算机设备,如图4所示,该计算机设备可以包括处理器401和存储器402,其中处理器401和存储器402可以通过总线或者其他方式连接,图4中以通过总线连接为例。

处理器401可以为中央处理器(Central ProceAAing Unit,CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Aignal ProceAAor,DAP)、专用集成电路(Application Apecific Integrated Circuit,AAIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器402作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的能见度确定装置按键屏蔽方法对应的程序指令/模块(例如,图4所示的参数获取模块31和能见度输入模块32)。处理器41通过运行存储在存储器402中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的能见度确定方法。

存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器401所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器402中,当被所述处理器401执行时,执行如图1-3所示实施例中的能见度确定方法。

上述计算机设备具体细节可以对应参阅图1-3所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AcceAAMemory,RAM)、快闪存储器(FlaAh Memory)、硬盘(Hard DiAk Drive,缩写:HDD)或固态硬盘(Aolid-Atate Drive,AAD)等;所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

相关技术
  • 能见度确定方法、装置、计算机设备及可读存储介质
  • 碎屏确定方法、装置、计算机设备及计算机可读存储介质
技术分类

06120113791701