一种全天空喉区极光识别方法及系统

文献发布时间：2023-06-19 11:49:09

技术领域

本发明属于空间科学领域，具体涉及一种全天空喉区极光识别方法及系统。

背景技术

极光被视为日地空间电磁信息的观测窗口，极光的强度与形态演化中蕴含着丰富的磁层动力学信息。对极光形态的识别有助于研究人员获取更多太阳和地磁场的相互作用细节及信息。从国际地球物理年开始，各国相继在南北极设置拥有诸如CCD全天空成像仪等新型极光观测设备的观测站，海量的连续观测图像在为极光统计研究带来强有力的数据支持的同时，也带来了大数据时代的挑战。

喉区极光是出现在磁正午附近(对应世界时上午10：00)，当南北向的条带状弥散极光与分立极光卵接触的情况下，在极光卵低纬侧出现的一种沿南北向分布的分立极光结构目前的研究认为喉区极光对应磁层顶上的局地内陷式变形，最可能由磁鞘高速流冲击磁层顶产生，同时还可能触发磁重联过程。进一步探究喉区极光对全面认识磁鞘高速流影响太阳风-磁层耦合过程具有重要科学意义，而对喉区极光形态结构的精确高效识别，是对其进行深入探究的先决步骤。而目前对于喉区极光的识别仍依赖专家经验人工筛选，在海量原始数据面前，这一低效且繁杂的过程严重阻碍了后续更多的研究。因此，引入计算机视觉的方法对全天空喉区极光图像进行实时自动识别是喉区极光研究领域迫切需求的技术。

在极光图像研究领域，更多的研究者还是使用人工设计的特征提取算法搭配传统的模式识别分类器来完成极光形态的分类，这种人工设计特征提取方法复杂且准确率低。

发明内容

本发明的目的在于克服上述技术缺陷，帮助极光领域研究人员从海量全天空极光观测数据中高效精确的识别出喉区极光，基于深度学习的特征提取与图像识别方法应用于喉区极光的识别，提出一种全新的，高准确率、高召回率的喉区极光识别模型，可以对黄河站原始观测数据是否是喉区极光进行实时判别。

为了实现上述目的，本发明提供了一种全天空喉区极光识别方法，所述方法包括：

获取原始极光观测数据，进行预处理后得到去除噪声的图像数据；

将去除噪声的图像数据输入预先训练好的喉区极光分类器，得到图像是否包括喉区极光的分类结果。

作为上述方法的一种改进，所述获取原始极光观测数据，进行预处理后得到去除噪声的图像数据，具体包括：

读取原始极光观测数据并转换成常规图像的格式；

通过减暗电流消除由观测设备引起的系统噪声；

将图像像素值压缩在[0,4000]范围内，并对图像进行灰度值拉伸，将16位图像线性压缩成8位；

旋转图像使南北极走向与坐标轴吻合，正北向上；

圆形掩膜并剪裁，消除四周灯光、山脉的干扰。

作为上述方法的一种改进，所述喉区极光分类器为分类模型Densenet121，该模型由1个7*7卷积层，池化层、58个增加了特征复用支路的密集连接模块、3个过渡层和全连接层组成；

每一个卷积层都是对图像的局部区域做一次前馈计算，不同的卷积核提取不同的特征，随着层数的加深，得到更高维度的抽象特征，第l层的第j个特征图

其中，M

密集连接模块由若干个卷积层组成，其中每一层的输入都是前面每一层的输出在通道维度的连接；

过渡层由1*1卷积层和平均池化层组成，用于特征降维；

全连接层为一个2分类的全连接层，实现正负样本的二分类。

作为上述方法的一种改进，所述方法还包括：采用基于监督学习对喉区极光分类器进行训练的步骤，具体包括：

建立喉区极光数据集；

对分类模型Densenet121采用Xavier初始化方法随机初始化权重后，先在大数据集ImageNet数据集的1000类的图像样本上进行预训练，收敛后得到模型除全连接层前每一层的预训练权重；

在预训练权重的基础上，在喉区极光数据集上对喉区极光分类器进行进一步训练，得到训练好的喉区极光分类器。

作为上述方法的一种改进，所述建立喉区极光数据集，具体包括：

从极地中心获取喉区极光时间可能发生时间段的原始全天空极光数据；

将原始全天空极光数据转换成图像格式，并进行去噪裁剪预处理；

根据领域专家对喉区极光形态的定义，对预处理后的数据进行是否含有喉区极光的标注对处理后的图像以含有喉区极光结构为正样本，不含喉区极光结构为负样本进行标注，得到领域专家认可的有标签可用数据集，该数据集为喉区极光数据集。

作为上述方法的一种改进，所述将原始全天空极光数据转换成图像格式，并进行去噪裁剪预处理，具体包括：

读取原始极光观测数据并转换成常规图像的格式；

通过减暗电流消除由观测设备引起的系统噪声；

将图像像素值压缩在[0,4000]范围内，并对图像进行灰度值拉伸，将16位图像线性压缩成8位；

旋转图像使南北极走向与坐标轴吻合，正北向上；

圆形掩膜并剪裁，消除四周灯光、山脉的干扰。

作为上述方法的一种改进，所述方法还包括：所述在预训练权重的基础上，在喉区极光数据集上进行进一步训练，得到训练好的喉区极光分类器，具体包括：

参数更新采取SGDM随机梯度下降法，同时用动量M保留之前的更新方向；

参数更新公式如下：

其中，y

本发明还提供了一种全天空喉区极光识别系统，所述系统包括：训练好的喉区极光分类器、预处理模块和分类模块；

所述预处理模块，用于获取原始极光观测数据，进行预处理后得到去除噪声的图像数据；

分类模块，用于将去除噪声的图像数据输入预先训练好的喉区极光分类器，得到图像是否包括喉区极光的分类结果。

本发明的优势在于：

1、本发明的方法用于全天空极光图像的研究中，对其中的特殊极光结构——喉区极光进行精准实时自动识别；该方法可以将图像特征提取与分类器训练这两个任务结合成一个端到端的一阶任务，从而大大提高图像识别的准确率和效率；

2、本发明首次将计算机视觉技术引入喉区极光图像的识别，首次实现全天空喉区极光图像的自动识别；且所采用的深度学习模型DenseNet特有的密集连接结构，有效的将特征提取，多维特征融合以及分类器训练结合起来，比以往极光图像分类问题种所采取的传统分类器更加准确高效简洁；

3、本发明收集并标注了领域专家认可的喉区极光数据集，并通过深度有监督学习的方法训练出基于DenseNet121的喉区极光分类器，基于深度学习的方法能有效地从图像中学到更具有代表性的高维特征，从而得到优于传统分类器的分类结果；该分类器对喉区极光的识别准确率0.96，召回率0.88，f1值0.92，在新的年份数据上也能达到同样的准确率，泛化性能良好，能有效应用于喉区极光领域的研究。本技术包含了完整的从数据处理到分类的过程，可对北极黄河站的原始观测数据进行直接的处理和分类。

附图说明

图1为本发明的全天空喉区极光识别方法的流程图；

图2为本发明的分类模型的DenseNet结构图。

具体实施方式

下面结合附图对本发明的技术方案进行详细的说明。

如图1所示，基于深度学习，本发明提出了一种全天空喉区极光识别方法，该方法包括：

步骤1)数据收集：从极地中心获取喉区极光时间可能发生时间段的原始全天空极光数据。

原始数据由极地中心提供，来自我国北极黄河站(78°55′N、11°56′E)三波段极光全天空CCD成像观测系统的越冬极光观测数据，为排除弥散极光带来的干扰，只选用630.0nm波段(红色波段)的观测数据。喉区极光发生时间集中在磁正午(MLN)附近，对应于世界时上午10：00左右，只选取可能发生喉区极光的时间段内的样本，即2003-2017年间，世界时9：00-11：00内的原始数据。原始极光数据2003～2009年为.IMG遥感影像格式，2010～2017年是.FITS格式，FITS(Flexible Image Transport System)是国际天文学会(IAU)1982年确定的世界各天文台之间用于数据传输、交换的统一标准格式。

步骤2)数据预处理：读取原始数据转换成图像格式，并进行去噪裁剪等预处理。

参考现有的文献中极光数据集中对于全天空极光图像的预处理步骤，同时结合自己的对比实验与分析，最终完整的预处理过程包括：

(1)读取原始极光数据转换成常规图像的格式；

(2)减暗电流，即消除由观测设备引起的系统噪声；

(3)排除过大的噪声，将像素值压缩在[0,4000]范围内，并对图像进行灰度值拉伸，将16位图像线性压缩成8位；

(4)旋转图像使南北极走向与坐标轴吻合，正北向上；

(5)圆形掩膜并剪裁，消除四周灯光、山脉等的干扰。

步骤3)数据标注：基于专家经验指导对处理后的图像以含有喉区极光结构为正样本，不含喉区极光结构为负样本进行标注，得到领域专家认可的有标签可用数据集。

根据领域专家对喉区极光形态的定义，对预处理后的数据进行是否含有喉区极光的标注，精细筛选出典型正负样本，剔除部分模能两可，难以判断的干扰样本，和云雾干扰严重、曝光干扰严重的异常样本，以含有喉区极光结构为正样本，不含喉区极光结构为负样本，共得到11076幅正样本图像和40130幅负样本图像，标注结果得到喉区极光研究领域专家的认可。

步骤4)数据集划分：采用基于监督学习的方法训练分类器，需要遵循独立同分布原则划分训练集、验证集和测试集。

首先将2003～2015年间的样本，遵循独立同分布原则划分成训练集、验证集和测试集完成实验：抽取1/10作为测试集，剩余部分作为训练集和验证集，为减少分布带来的干扰，随机分成五个set进行五折交叉验证，再将2016-2017年的样本作为额外的测试集dataset3。由于连续的极光图像形态过于相似，直接随机划分难以保证数据集的独立，基于极光事件不跨天的空间物理认知，在划分时以天为粒度进行划分，保证同一天的数据只出现一个set中。

步骤5)分类模型的建立和预训练：

建立分类模型DenseNet121，基于迁移学习的思想，先在大型数据集上得到预训练权重。

在众多对比实验后选择深度学习分类模型Densenet121作为最终采用的分类器，该模型由1个7*7卷积层，池化层、58个增加了特征复用支路的密集连接模块(DenseBlock)、3个过渡层(Transition layer)和全连接层组成，如图2所示。

其中M

相对于数据驱动的深度学习算法所需数据量，训练数据量仍偏少，因此采取迁移学习的策略，搭建模型并采用Xavier初始化方法随机初始化权重后，先在大数据集ImageNet数据集的1400万分为1000类的图像样本上进行预训练，收敛后得到模型除全连接层外前面每一层的预训练权重。

步骤6)在喉区极光数据集上训练：在预训练权重的基础上，在步骤3)所的得到的喉区极光数据集上进行进一步训练，得到最终的喉区极光分类器。

基于深度学习的方法将图像的特征提取与分类器训练结合起来，不再需要人工设计特征提取策略，DenseNet特有的密集连接结构将多维特征融合与特征提取结合起来，模型通过迭代学习，自主提取最能代表类别属性的高维特征，同时训练分类器，得到高准确率、高召回率的分类器。以上一步所得的结果为预训练模型，在此基础上在喉区极光标注数据集上进行进一步训练，直到模型收敛。

对于输入模型的图像数据需要做以下处理：(1)下采样至224*224；(2)对正样本做过采样使正负样本比例达到1：1；(3)为缓解过拟合，对有限的样本做数据增强，包括沿南北轴做随机镜像翻转、亮度随机调整、加随机噪声等；(4)白化处理。

参数更新采取SGDM(Stochastic Gradient Descent with Momentum)方法，即随机梯度下降法，同时用动量M保留之前的更新方向。参数更新公式如下

L是损失函数，在此处，二分类问题中我们采用的损失函数是交叉熵损失函数：

其中y

具体实施步骤：

步骤1：从极地中心获取原始全天空极光观测数据，进行筛选、预处理和正负样本的标注以及合理的数据集划分，得到领域专家认可的可用有标签数据集。共得到11076幅正样本图像和40130幅负样本图像，其中2003至2005年间的9560正样本和34510负样本遵循独立同分布原则划分训练集、验证集和测试集，另外将2016～2017年的1550正样本和5620负样本作为额外的测试集用于测试模型在新的年份数据上的泛化性能。该标注数据集也将用于未来对喉区极光图像识别技术的更多探索中。

步骤2：基于pytorch框架搭建分类模型DenseNet121，服务器配置为2块NVIDIATesla K80 GPU。先对搭建好的网络进行预训练，训练数据为ImageNet数据集1400万张，1000个类别的图像，将图像resize到我们的模型DenseNet121匹配的大小即224*224，并作常规的数据增强和白化操作。预训练至模型收敛后，保留模型除全连接层外前面所有层的权重，将全连接层换成随机初始化的2类输出全连接层，再在喉区极光数据集上用小的学习率进一步精细化微调，同样要将喉区极光数据集中的图像resize到模型匹配的输入尺寸224*224，并坐数据增强和白化后送入网络，充分利用深度网络的学习能力提取图像的高维抽象特征并进行分类。采用交叉熵损失函数，SGDM优化器更新参数，动态调节学习率，得到最好的收敛结果。

步骤3)获取黄河站的原始极光观测数据(.IMG或.FITS格式)，进入预处理系统处理成去除噪声的图像数据，再送入分类器进行测试，得到最终分类结果。对单张图像的分类可达实时速度，步骤简洁高效。

本发明还提供了一种全天空喉区极光识别系统，所述系统包括：训练好的喉区极光分类器、预处理模块和分类模块；

所述预处理模块，用于获取原始极光观测数据，进行预处理后得到去除噪声的图像数据；

分类模块，用于将去除噪声的图像数据输入预先训练好的喉区极光分类器，得到图像是否包括喉区极光的分类结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：佟欣;邹自明;
专利申请人：中国科学院国家空间科学中心;

上一篇：一种无醛添加人造板及其制作方法
下一篇：一种强噪声环境下基于深度神经网络的深海声源定深方法