掌桥专利:专业的专利平台
掌桥专利
首页

一种利用注意力机制改进的热带气旋路径预报方法

文献发布时间:2024-04-18 20:00:50


一种利用注意力机制改进的热带气旋路径预报方法

技术领域

本发明涉及海洋气象预报技术领域,特别是涉及一种利用注意力机制改进的热带气旋路径预报方法。

背景技术

传统的热带气旋轨迹预报方法主要分为三类,第一种是数值预报方法,是目前热带气旋客观预报所采用的主要方法,该预报方法使用数学建模的方式来预报未来热带气旋的路径与强度,由于这些动力学方程过于复杂,因此需要借助超级计算机解出其数值以完成预报;第二种是基于统计学的预报方法,是根据数理统计方法对大量的历史资料进行统计分析,找出天气变化隐藏的统计规律及预报量之间的方程关系,一般采用回归方法建立统计数学模型,与动力学预报方法相比,该方法具有计算资源消耗少的特点;第三种是基于统计动力学的预报方法,该方法将动力学与统计学相结合,原理是利用数值预报的方法求解大气运动方程,得到方程的数值解后作出数值预报,最后再利用统计方法对预报的结果进行加工得出天气的预报结果。

早期对统计方法的研究主要集中在提取热带气旋的二维特征,如热带气旋中心的纬度、经度、风速和压力等特征,1972年Neumann和Hope提出了气候学和持久性方法(CLImatology and PERsistence,CLIPER),该方法使用当前风暴位置、风暴运动、最大持续风速和之前风暴运动记录作为预报因子,推导出线性回归方程,生成长达3天的风暴轨迹;因为CLIPER具有计算简单、模型稳定、误差友好等特点,使得CLIPER成为热带气旋的路径与强度预报方法的基线模型。

随着海洋和大气数据量的不断积累,将深度学习模型与气象大数据相结合,为研究人员预报热带气旋轨迹提供了新的机会,在最近的一些研究中,深度学习被用来提取热带气旋的二维和三维特征。热带气旋的三维特征指的是具有等压高度的再分析数据,以热带气旋中心为中心构建出来的三维(经度,纬度,海拔)立体特征。

Alemany等学者利用Long Short-Term Memory(LSTM)模型来构建热带气旋的二维非线性特征,该工作将大西洋区域划分为1°×1°的经纬度网格并对之编号,再将热带气旋的每段路径中心的经纬度归类到相应的格点中,该工作能够有效减少直接预报带来的递归误差传递。

为了模拟热带气旋的三维特征,许多深度学习的方法也被提了出来,Kim等学者利用Shi等学者提出的ConvlutionalLSTM(ConvLSTM)模型,结合大气再分析数据,实现了跟踪和预报大尺度气候数据中的飓风轨迹。该工作首次将热带气旋的三维特征以时空序列的方式进行处理。然而,由于大气再分析规模较大,仅通过一次CNN操作很难提取热带气旋三维空间的非线性特征。

Sophie等学者使用深度学习模型融合热带气旋的二维和三维特征。对于二维模型,作者使用全连接网络来提取热带气旋的二维非线性特征,对于三维模型,作者使用CNN来提取热带气旋的三维非线性特征。然而,CNN模型仅仅只考虑了等压面,无法充分考虑热带气旋的三维结构。

Chen等学者提出CNN-LSTM模型来预报热带气旋的路径,该模型在的3D CNN用来分析三维空间中的大气变量,2D CNN用于分析海面的数据,LSTM则用来捕捉时间相关性,该模型关注了大气和海洋变量间的时空相关性,但是3D CNN在分析大气特征方面仍有不足。

通过分析目前热带气旋路径预报方法的优势与不足,本发明通过改进下面两个方面来提高预报的精度,首先该模型需要能够提取热带气旋的三维特征;其次该模型能够采用更好的方法来融合热带气旋的二维和三维特征。

发明内容

为了解决以上技术问题,本发明提供一种利用注意力机制改进的热带气旋路径预报方法,包括以下步骤

S1、构建热带气旋的二维结构;

S2、构建热带气旋及其周边的三维时序结构;

S3、通过基于卷积注意力模块的多卷积Multi-TrajGRU模型对热带气旋的三维结构进行建模,并提取热带气旋及其周边的三维时序特征;

S4、通过Deep&Cross特征融合框架对热带气旋的二维时序特征与热带气旋及其周边的三维时序特征进行异构模态融合,Deep&Cross特征融合框架包括用于泛化存档数据的深度网络和用于记忆学习数据的交叉网络,深度网络设置为一个全连接的前馈神经网,交叉网络包括多个交叉层;

S5、通过Deep&Cross特征融合框架对热带气旋的二维时序特征与热带气旋及其周边的三维时序特征进行融合训练,得到热带气旋24小时后的预报点,即经度和维度的预报值;

S6、判断预报点是否精确,如果不精确,则返回步骤S3;如果精确,则执行下一步骤;

S7、保存模型。

本发明进一步限定的技术方案是:

进一步的,步骤S1中,使用CMA最佳路径数据集,通过CLIPER方法构建热带气旋的二维结构。

前所述的一种利用注意力机制改进的热带气旋路径预报方法,步骤S2中,使用ECMWF大气再分析数据构建热带气旋及其周边的三维时序结构。

前所述的一种利用注意力机制改进的热带气旋路径预报方法,步骤S2中,采用ECMWF的EAR-Interim数据集的重力势变量构建热带气旋及其周边的三维时序结构,包括以下步骤

S2.1、以热带气旋中心的纬度和经度为中心,截取一个范围为31°×31°的曲面,同时为每个等压面构建热带气旋的二维结构;

S2.2、使用热带气旋的二维结构,将250hPa、500hPa、750hPa以及1000hPa这4个等压面合并,获得热带气旋及其周边的三维时序结构;

S2.3、构建当前、6小时前、12小时前以及18小时前的热带气旋及其周边的三维时序结构。

前所述的一种利用注意力机制改进的热带气旋路径预报方法,步骤S3中,多卷积Multi-TrajGRU模型的方程如下所示:

U

其中,H

前所述的一种利用注意力机制改进的热带气旋路径预报方法,步骤S3中,卷积注意力模块包括通道注意力模块和空间注意力模块,通道注意力模块用于通过学习不同通道的特征来关注不同通道之间的相关性;空间注意力模块用于捕获特征图中不同像素位置之间的空间相关性。

前所述的一种利用注意力机制改进的热带气旋路径预报方法,步骤S4中,Deep&Cross特征融合框架包括嵌入和堆叠层、交叉网络、深度网络以及最终组合层,最终组合层用于将交叉网络和深度网络的输出进行融合;

在嵌入和堆叠层中,将热带气旋的二维时序特征作为密集型特征,并将热带气旋及其周边的三维时序特征作为稀疏的特征;经过嵌入操作后将稀疏的特征转为低维度的密集型特征,嵌入的操作如下式所示:

x

其中,x

最后,嵌入和堆叠层将所有的密集型特征与经过embedding转换后的三维特征进行联合,得到下式所示的向量:

其中,向量x0表示热带气旋二维时序特征和热带气旋及其周边的三维时序特征的联合。

前所述的一种利用注意力机制改进的热带气旋路径预报方法,交叉网络由多个交叉层表示,假设第l层的输出向量为x

其中,w

前所述的一种利用注意力机制改进的热带气旋路径预报方法,深度网络设置为一个全连接的前馈神经网,每一层有如下公式:

h

其中,h

前所述的一种利用注意力机制改进的热带气旋路径预报方法,步骤S6中,利用下式所示的大圆距离公式来计算球面上地面真实点和预报点之间的误差距离:

其中,R表示地球的半径,X

本发明的有益效果是:

(1)本发明中,使用CMA最佳路径数据集和ECMWF大气再分析数据,分别构建热带气旋路径的二维时序特征和热带气旋及其周边的三维时序特征;然后,使用Multi-TrajGRU方法来更好的提取热带气旋的三维非线性特征,一定程度上解决了大尺度空间信息特征提取不充分的问题,并使用卷积注意力机制CBAM考虑热带气旋行进的高响应等压面以及三维结构;最后,使用Deep&Cross深度学习框架,将热带气旋的二维和三维特征进行融合训练,解决了使用单个维度的数据预报路径不精确的问题;

(2)本发明中,为了准备二维热带气旋数据集,先删除数据集中包含缺失值的记录以及重复的记录,然后通过CLIPER方法将2000-2020年CMA数据集中热带气旋的特征进行扩展;为了准备三维大气再分析数据,先为每个等压面构建二维的热带气旋结构,然后将不同压力等压面进行合并,构建多个时间的热带气旋及其周边的三维时序;从而使得预报的热带气旋的路径具有更高的准确率。

附图说明

图1为本发明的整体流程示意图;

图2为本发明实施例中热带气旋的二维结构示意图;

图3为本发明实施例中热带气旋及其周边的三维时序结构示意图;

图4为本发明实施例中卷积注意力模块的整体结构示意图;

图5为本发明实施例中Deep&Cross特征融合框架的网络结构示意图;

图6为本发明实施例中特征融合网路的结构示意图。

具体实施方式

热带气旋是一种具有三维立体结构的非线性热带低压系统,传统的热带气旋路径预报方法主要将热带气旋视为二维平面的线段,而不考虑其三维立体结构,本实施例提供的一种利用注意力机制改进的热带气旋路径预报方法,如图1所示,包括以下步骤

S1、使用CMA最佳路径数据集,通过CLIPER方法构建热带气旋的二维结构。

S2、考虑到热带气旋行进的路径主要受到台风内部动力和外部环境因素,采用欧洲中期天气预报中心ECMWF的EAR-Interim数据集的重力势变量Geopotential构建热带气旋及其周边的三维时序结构,该变量主要描述台风内部能量结构和动力情况,是一种四维栅格数据,其维度包括经度、纬度、等压高度和时间。

构建热带气旋及其周边的三维时序结构包括以下步骤

S2.1、以热带气旋中心的纬度和经度为中心,截取一个范围为31°×31°的曲面,同时为每个等压面构建热带气旋的二维结构,结构如图2所示;

S2.2、使用截取的热带气旋的二维结构,将250hPa、500hPa、750hPa以及1000hPa这4个等压面合并,获得热带气旋及其周边的三维时序结构;

S2.3、构建当前、6小时前、12小时前以及18小时前的热带气旋及其周边的三维时序结构,结构如图3所示。

通过步骤S2.1至步骤S2.3,在经度、纬度、等压高度以及时间四个维度上,根据ECMWF大气再分析数据构建了热带气旋及其周边的三维时序结构。

S3、目前研究人员尝试采用CNN来提取热带气旋的三维非线性特征,却仍然存在空间特征提取不充分的问题,而本步骤通过基于卷积注意力模块的多卷积Multi-TrajGRU模型对热带气旋的三维结构进行建模,并提取热带气旋及其周边的三维时序特征。

为了解决大规模空间特征学习的问题,本实施例设计了一种多卷积Multi-TrajGRU模型,用于解决TrajGRU模型处理大气再分析数据特征提取不足的问题;TrajGRU模型能够同时处理空间和时间的信息,并将输入序列包含的信息保存在隐藏状态中,提高了算法对于上下文的理解能力,虽然TrajGRU模型的提出解决了时空序列的学习参数过多、学习速度慢等问题,但是,利用TrajGRU模型处理大气再分析数据时,仍然存在特征提取不充分的问题;多卷积Multi-TrajGRU模型与TrajGRU相比,引入了多卷积模块作为输入,通过多次卷积实现非线性变换,达到提取更深层次的非线性特征的效果。

多卷积Multi-TrajGRU模型的方程如下所示:

U

其中,H

从多卷积Multi-TrajGRU模型的方程中可以清楚看出,多卷积模块可以从输入X

构建热带气旋及其周边的三维时序结构后,学习该结构的规律是一个复杂的时空学习问题,本步骤S3引入卷积注意力模块(Convolutional Block Attention Module,CBAM)来考虑影响热带气旋前进的高响应等压面影响以及解决三维结构的大尺度问题。

如图4所示,卷积注意力模块包括通道注意力模块和空间注意力模块,通道注意力模块的作用是关注不同通道之间的相关性,采用计算获取到不同通道的权重信息,并将获取到的权重信息重新应用到提取的通道之中,以此学习不同通道的特征;空间注意力模块的作用是捕获特征图中不同像素位置之间的空间相关性,因为不同位置上的像素对网络的学习重要程度不同。

卷积注意力模块沿着两个独立的维度依次推断出注意映射,然后将注意力图乘以输入特征图以进行自适应特征细化,卷积注意力模块包括两个部分,分别是通道注意力模块和空间注意力模块;通道注意力图由特征通道间的关系生成,由于每个特征图的每个通道都被视为特征检测器,通道注意力主要关注输入图中什么是有意义的;空间注意力模块则是通过特征之间的空间关系来生成的,与通道注意力机制不同,空间注意力主要关注位置信息;从而通过使用卷积注意力模块提高整个模型预报的精度。

S4、在得到热带气旋的二维时序特征与热带气旋及其周边的三维时序特征后,需要将这两种特征进行融合,本步骤使用深度交叉网络(Deep&Cross-Network,DCN),该模型是对Wide&Deep模型的一个后续研究,将Wide部分替换为由特殊网络结构实现的Cross部分,能够在稀疏和密集输入的情况下,自动构造有限高阶的交叉特征并学习对应的权重,无需手动特征工程或穷举搜索,计算成本更低。

为了将热带气旋的二维时序特征与热带气旋及其周边的三维时序特征进行异构模态融合,本步骤提出Deep&Cross特征融合框架,该模型用来解决大规模稀疏特征的点击率预估问题,在这个模型中,Cross部分由多个交叉层组成,用来学习数据的记忆,该层能够增加特征之间的交互力度,Deep部分是一个全连接的前馈神经网络,用于存档数据的泛化。

Deep&Cross特征融合框架如图5所示,包括嵌入和堆叠层、交叉网络、深度网络以及最终组合层,最终组合层用于将交叉网络和深度网络的输出进行融合。

在嵌入和堆叠层中,将热带气旋的二维时序特征作为密集型特征,即附图5中内部带有数字2的圆圈;并将热带气旋及其周边的三维时序特征作为稀疏的特征,即附图5中内部带有数字1的圆圈;经过嵌入操作后将特征转为低维度的密集型特征,嵌入的操作如下式所示:

x

其中,x

最后,嵌入和堆叠层将所有的密集型特征与经过embedding转换后的三维特征进行联合,得到下式所示的向量:

其中,向量x0表示热带气旋二维时序特征和热带气旋及其周边的三维时序特征的联合。

Deep&Cross特征融合框架中的交叉网络用于增加特征之间的交互力度,交叉网络由多个交叉层表示,假设第l层的输出向量为x

其中,w

Deep&Cross特征融合框架中的深度网络设置为一个全连接的前馈神经网,每一层有如下公式:

h

其中,h

S5、通过Deep&Cross特征融合框架对热带气旋的二维时序特征与热带气旋及其周边的三维时序特征进行融合训练,得到热带气旋24小时后的预报点,即经度和维度的预报值。

由于使用了热带气旋两个维度的数据,在将两种特征融合之后,还为其增加了一个神经网络,作为两种特征的融合网络,该网络的结构如图6所示;对于cross部分,根据CMA数据集构建了热带气旋路径二维时序特征,采用CNN作为cross部分模型;对于deep模型,根据Geopotential变量,构建热带气旋及其周边的三维时序结构。

对构建好的三维时序进行堆叠,以CBAM层、Multi-TrajGRU层、Max Pooling层三个网络层为一个堆叠块,共堆叠三次,其中前两次为多个时间维度上堆叠,最后一次对当前时间维度堆叠;网络最后将所有的特征做一次扁平处理完成表征过程,并得到Cross部分与Deep部分的特征;还对Cross部分与Deep部分进行联合训练,并增加一层神经网络融合两部分的特征,最终得到热带气旋24小时后经度与纬度的预报值。

S6、判断预报点是否精确,如果不精确,则返回步骤S3;如果精确,则执行下一步骤;利用下式所示的大圆距离公式来计算球面上地面真实点和预报点之间的误差距离:

其中,R表示地球的半径,X

S7、保存模型。

本实施例利用Deep&Cross框架融合热带气旋的二维特征和热带气旋及其周边的三维特征,构建端到端的模型;对于Cross分量,通过特征交叉的方法来提取热带气旋的二维特征;对于Deep分量,使用基于卷积注意力模块CBAM的Multi-TrajGRU方法提取热带气旋及其周边的三维特征,其中卷积注意力模块CBAM能够对热带气旋的三维结构进行建模,并解决热带气旋受等压面影响以及三维结构的大尺度问题,Multi-TrajGRU模型的使用则为了解决大气再分析数据特征提取不充分的问题,从而提高热带气旋路径预报的精度;利用2000年至2020年的真实热带气旋数据集CMA和欧洲中期天气预报中心ECMWF的ERA临时数据集进行训练,结果表明,本实施例所述方法优于现有的深度学习的热带气旋预报方法。

除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

相关技术
  • 一种基于传感数据融合的温度场预测方法
  • 一种基于多退化样本数据融合的热量表剩余寿命预测方法
  • 一种基于核磁数据的多连接模式融合的轻度认知障碍预测方法
  • 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质
技术分类

06120116540220