一种神经形态脉冲信号去噪和超分辨方法及装置

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种神经形态脉冲信号去噪和超分辨方法及装置。

背景技术

随着计算机技术发展，计算机算力逐渐加强，机器学习、深度学习技术快速进步，计算机视觉相关技术逐渐应用到各个场景，例如手机相机的人脸检测、修图美图、夜间拍照等功能，无人驾驶中的行人检测、道路识别，移动支付与车站身份检测的人脸识别，或是机器人的同步定位与建图任务等。随着大数据、智能化时代的来临，越来越多的应用场景需要计算视觉技术的支持，海量的视频、图像数据亟待处理，更凸显底层视觉任务的重要意义。由此，底层图像处理技术的不可替代性及其对于更高语义层次任务的重要意义，受到社会广泛关注。低噪声、低模糊、高空间分辨率、高时间分辨率、高动态范围等特性的成像，作为计算摄像学的基础任务，其发展对于其他计算机视觉技术来说极其重要。

然而经过数十年的发展，传统数字相机进入了人们生活的各个领域。随着近年来人工智能的研究热潮到来，传统数字相机在解决自动驾驶、无人机控制、智能机器人等应用领域的视觉问题时显得无能为力。其原因在于，这些新兴应用对于高速运动的捕捉具有很高的要求，而传统数字相机固定帧率的采样方式，在面对高速运动时只能产生模糊的图像或视频。近年来逐渐热门的仿照生物视网膜成像原理的神经形态脉冲传感器，以其高动态范围、高时间分辨率等优势，已进入众多视觉分析应用领域。然而，高噪声和低分辨率的缺点制约了脉冲相机在工业视觉领域的应用。

相比传统数字相机，脉冲相机抛弃了“帧”和“曝光”的概念，每个像素独立地对光枪进行感知并积分，当光强的积分超过阈值时发放一个脉冲，并以二进制的形式传递出来，0表示该时刻该像素没有脉冲，1表示该时刻该像素输出一个脉冲。随着光强变化不断产生的脉冲构成了脉冲序列。不同于传统2D的图片或视频序列，触发的脉冲时间序列以三维时空点云的形式呈现。由于脉冲相机特殊的成像原理，以及现有的传感器制造工艺水平的局限性，当前的脉冲相机存在噪声大，空间分辨率低等问题，这制约了脉冲相机在工业视觉领域的应用。当脉冲相机用于目标跟踪、物体检测等任务时，可能会造成特征失真或缺失，导致结果出现较大的退化。当脉冲相机用于高帧率图像生成、图像去模糊、图像高动态范围恢复的任务时，可能会出现细节纹理丢失，视觉体验较差等问题。

针对脉冲信号的去噪问题，目前还没有相关方法。而与脉冲相机同属于神经形态相机的事件相机的信号去噪问题，目前主要有以下三种方法来解决：方法1)基于局部时空块内事件信号的时空关联性来去除噪声事件，如Super Resolve Dynamic Scene fromContinuous Spike Streams。方法2)通过利用DVS中同步记录的视频帧和相机运动信息来预测局部时空块内的事件是否为噪声的概率，从而标注训练样本，进而基于神经网络学习事件噪声分类网络，然后对事件信号进行噪声去除，如Event Probability Mask(EPM)andEvent Denoising Convolutional Neural Network(EDnCNN)for NeuromorphicCameras)。方法3)搭建事件相机和传统相机的混合相机系统，通过计算时空梯度来建立图像信号和事件信号的关系，从而利用图像信号低噪声高分辨率的特征并通过引导滤波的方式来提升事件信号的质量(Joint Filtering of Intensity Images and NeuromorphicEvents for High-Resolution Noise-Robust Imaging)。但是这三种方法都存在自身的问题，方法1)和方法2)无法处理所拍运动场景较为复杂的事件信号，无法实现事件的超分辨率处理，且只能消除被标注为噪声的事件，不能对未触发的事件进行恢复；方法3)的性能依赖图像信号的质量，且需要计算局部时空块的光流信息，处理速度较慢。

针对脉冲信号的上述超分辨率问题，目前主要有两种方法来解决：方法4)基于图像强度和脉冲信号之间的时空关联，建立由运动光流引导完成的由低分辨率脉冲信号到高分辨率图像的超分辨率算法。方法5)利用脉冲信号仿真器形成数据集，基于深度学习网络来学习低分辨率脉冲信号到高分辨率图像的映射网络。然而，方法4)由于包含了光流估计和逐像素估计的过程，因此超分辨率速度极慢。方法5)由于已有的脉冲信号仿真器难以仿真真实脉冲信号的噪声和高时间精度，因此所训练的网络缺乏对真实脉冲信号的兼容性。

发明内容

本发明针对现有技术的缺陷，提出一种基于真实样本采集和深度学习的神经形态脉冲信号去噪和超分辨方法，通过用脉冲相机同步拍摄不同分辨率的相同场景来得到用于网络训练的大量真实数据集，解决了脉冲信号仿真器无法准确生成事件数据的问题；同时利用3D-UNet网络模型来学习脉冲信号去噪和超分辨率重建的端到端的映射模型，避免了现有方法依赖视频帧和IMU信息，省去了求解光流信息的过程，节省了大量的运行时间。

为了实现上述目的，本发明提供如下技术方案：

一方面，本发明提供了一种神经形态脉冲信号去噪和超分辨方法，包括以下步骤：

S1、训练数据采集：通过用脉冲相机同步拍摄不同空间分辨率的相同场景，从而得到真实的训练数据集，利用显示屏同步展示不同分辨率的运动视频，然后在脉冲相机拍到的数据中截取出不同分辨率的脉冲数据，最终形成一个完整的RGB帧+多分辨率脉冲的数据集；

S2、脉冲数据转换：采用3D卷积神经网络对事件信息进行Encoder-Decoder处理；

S3、脉冲去噪和空间上采样：基于L2范数的卷积神经网络在学习中得到事件信号的去噪模型，求得去噪模型的最优解，输出3D tensor形式的去噪和上采样之后的重建图像；

S4、脉冲信号重分布：将3D tensor形式的重建图像通过均等间隔分配时间戳的方式进行脉冲重新分配，还原出高分辨率的脉冲信号。

进一步地，步骤S1的每组拍摄到的脉冲数据包含的信息组合为{RGB帧，S1A，S1B，S2，时间戳序列}，{RGB帧，S1A，S2，时间戳序列}的信息组合用来完成2倍超分辨网络的训练，{RGB帧，S1A，S1B，时间戳序列}的信息组合用来完成去噪网络的训练。

进一步地，步骤S1的原始脉冲数据中，每一秒包含40000个H×W的0-1矩阵，以25μs的时间精度记录每个像素上是否有脉冲，0表示没有脉冲，1表示有脉冲。

进一步地，步骤S2中，Encoder-Decoder处理前先对原始的脉冲信号利用基于脉冲间隔的方法进行图像重建预处理。

进一步地，预处理过程为：利用每个像素上前后两个相邻脉冲的时间间隔来表示该时刻光强的倒数，从而形成每个时刻初步的重建图像，即每秒重建出40000帧初步的图像，以作为后面网络的输入。

进一步地，步骤S3中去噪模型最优解表示为：

其中S是受到噪声污染的输入和输出训练数据，Ω是求得的去噪模型。

进一步地，步骤S3利用3D UNet的结构来同时实现去噪和超分辨任务，在2倍超分辨网络中，3D UNet每个层级增加了3D反卷积层来进行跨层级特征融合，以实现分辨率的放大。

进一步地，在训练期间，从采集到的数据中生成了24000个LR-HR脉冲对作为训练集；Benchsize设定为8，并训练了100个epoch；优化器为ADAM，损失函数loss由权重比为1：0.005的Charbonnier loss和TV loss组合而成；初始学习率为0.001，每50个周期衰减0.5倍。

另一方面，本发明还提供了一种神经形态脉冲信号去噪和超分辨装置，包括显示屏和脉冲相机，以及以下模块以实现上述任一项所述的方法：

训练数据采集模块：用于通过脉冲相机同步拍摄不同空间分辨率的相同场景从而得到真实的训练数据集，并利用显示屏同步展示不同分辨率的运动视频在脉冲相机拍到的数据中截取出不同分辨率的脉冲数据，最终形成一个完整的RGB帧+多分辨率脉冲的数据集；

脉冲数据转换模块：用于采用3D卷积神经网络对事件信息进行Encoder-Decoder处理；

脉冲去噪和空间上采样模块：用于获得事件信号的去噪模型并求得去噪模型的最优解，输出3D tensor形式的去噪和上采样之后的重建图像；

脉冲信号重分布模块：用于将3D tensor形式的重建图像通过均等间隔分配时间戳的方式进行脉冲重新分配，还原出高分辨率的脉冲信号。

又一方面，本发明还提供了一种设备，包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；其中：

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一项所述的方法。

与现有技术相比，本发明的有益效果为：

本发明的神经形态脉冲信号去噪和超分辨方法和装置，通过在显示屏中设置不同分辨率的相同视频，并用脉冲相机来拍摄显示屏，从而得到不同分辨率的真实脉冲数据对，用实拍数据集作为训练集，避免了由于仿真数据与真实数据的差距太大而导致训练后的网络对真实数据不兼容的问题，解决了脉冲信号仿真器无法准确生成事件数据的问题。同时使用深度学习的方法，利用3D-UNet网络模型来学习脉冲信号去噪和超分辨率重建的端到端的映射模型，在输入只有脉冲序列的情况下，就可以有效实现对事件的去噪和超分辨任务，避免了现有方法依赖视频帧和IMU信息，省去了求解光流信息的过程，节省了大量的运行时间，极大的提升了处理速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的神经形态脉冲信号去噪和超分辨方法流程图。

图2为本发明实施例提供的训练数据采集装置示意图。

图3为本发明实施例提供的拍摄系统示意图。

图4为本发明实施例提供的显示器中的三个视窗视角。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明的神经形态脉冲信号去噪和超分辨方法，如图1所示，包括训练数据采集、脉冲数据转换、脉冲信号空间上采样和脉冲信号重分布步骤，具体如下：

S1、训练数据采集

由于现有的仿真器无法精准的仿真事件数据的分布模型，因此，本发明提出通过用脉冲相机(如Vidar)同步拍摄不同空间分辨率的相同场景，从而得到真实的“低分辨率-高分辨率”训练数据集，利用显示屏同步展示不同分辨率的运动视频，然后在脉冲相机拍到的数据中截取出不同分辨率的脉冲数据，最终形成一个完整的RGB帧+多分辨率脉冲的数据集。每组拍摄到的脉冲数据包含的信息组合为{RGB帧，S1A，S1B，S2，时间戳序列}，{RGB帧，S1A，S2，时间戳序列}的信息组合用来完成2倍超分辨网络的训练，{RGB帧，S1A，S1B，时间戳序列}的信息组合用来完成去噪网络的训练。

S2、脉冲数据转换

由于本发明采用3D卷积神经网络对事件信息进行Encoder-Decoder处理，为了是输入信息中包含更多的空间图像信息，本发明首先对原始的脉冲信号进行预处理。在原始脉冲数据中，每一秒包含40000个H×W的0-1矩阵，以25μs的时间精度记录每个像素上是否有脉冲(0表示没有脉冲，1表示有脉冲)。本发明利用TFI图像重建方法，利用每个像素上前后两个相邻脉冲的时间间隔的来表示该时刻光强的倒数(如图4中(a)所示)，从而形成每个时刻初步的重建图像，即每秒重建出40000帧初步的图像，以作为后面网络的输入。作为ground truth的高分辨率脉冲序列也需要做这一预处理操作。

S3、脉冲去噪和空间上采样

虽然步骤S1中采集到的低分辨率和高分辨率数据都是受到噪声污染的，但是由于脉冲信号的噪声基本符合高斯分布的规律，因此，本发明采用基于L2范数的卷积神经网络在学习中得到事件信号的去噪模型，求得去噪模型的最优解，输出3D tensor形式的去噪和上采样之后的重建图像；最优解求解公式如下：

其中S是受到噪声污染的输入和输出训练数据，Ω是求得的去噪模型。

因此，本发明仅利用真实的有噪声数据就可以训练出可去噪的网络模型。如图4所示，本发明利用3D UNet的结构来同时实现去噪和超分辨任务。

S4、脉冲信号重分布

由于网络输出的去噪和上采样之后的事件以3D tensor的形式输出，因此，必须将tensor中的数转化成脉冲的表达形成，才能最终实现输入是事件输出也是事件的功能。由于预处理的时候本发明基于脉冲间隔初步重建了图像，因此输出图像的每个像素的值表示该像素所在时间点在时间轴上前后两个脉冲的间隔，基于这一原理，可以通过输出结果还原二进制模式的脉冲信号。具体地，本发明将3D tensor形式的重建图像通过均等间隔分配时间戳的方式进行脉冲重新分配，还原出高分辨率的脉冲信号。

本发明采用步骤S1中拍摄到的不同分辨率的真实数据对神经网络进行训练，具体训练过程如下：

(1)拍摄训练数据集

a)在网上下载公开的高速慢放视频数据集。

b)重新合成新的视频，视频的每一帧包含多个时间同步内容相同但空间分辨率不同的局部视窗，对应1倍，2倍分辨率(如果后续有更大分辨率的脉冲相机，也可以增加到4倍和8倍)。

c)搭建如下图所示的数据采集装置，如图2所示，包括显示器和神经形态脉冲相机(或时间相机)，还可包括水平仪和瞄准装置等，如图3所示，要确保事件拍摄的视角正对且平行于显示器。

d)拍摄数据：开始进行拍摄时，除显示屏外，室内环境光源全部关闭，以减小外部环境对数据拍摄的影响。然后拍摄处理后的视频。

e)处理脉冲数据：对每一组拍摄到的脉冲数据，依次截取局部区域，形成独立的不同分辨率的脉冲数据，分别对应为不同分辨率的脉冲数据，最终形成一个完整的RGB帧+多分辨率脉冲的数据集，每组包含的信息组合为{RGB帧，S1A，S1B，S2，时间戳序列}。在下面的网络训练中，本发明采用{RGB帧，S1A，S2，时间戳序列}的组合来完成2倍超分辨网络的训练，用{RGB帧，S1A，S1B，时间戳序列}组合来完成去噪网络的训练。

(2)神经网络的训练

a)事件信息预处理：在训练去噪和上采样网络时，LR(低动态范围)和HR(高动态范围)事件都被合并到一个32通道事件tensor中以完成有监督训练。在每个通道中每个像素对该时间区间内的事件进行求和。我们还尝试了不同的通道号，发现32个通道具有最佳性能。

b)整个网络主要模块是3D UNet，在2倍超分辨网络中，网络为3D UNet每个层级的跳跃连接增加了3D反卷积层，以及跨层级特征融合，以实现分辨率的放大。在去噪网络中，不需要添加上述的反卷积网络。输入和输出的脉冲信号先采用基于脉冲间隔的方法进行初步的图像重建预处理，输出的tensor要四舍五入取整数值，便得到了超分去噪之后的重建图像，然后通过均等间隔分配时间戳的方式进行脉冲重新分配，可以还原出高分辨率的脉冲信号。

c)在训练期间，我们从采集到的数据中生成了24000个LR-HR脉冲对作为训练集。Benchsize设定为8，并训练了100个epoch。优化器为ADAM，loss为权重比为1：0.005的Charbonnier loss和TV loss组合而成的损失函数，初始学习率为0.001，每50个周期衰减0.5倍。使用PyTorch 1.6和NVIDIA 2080Ti GPU共花费了大约12个小时。

d)在测试过程中，仅需要输入实拍的脉冲序列就可以进行去噪和超分辨。

相应于上述本发明实施例提供的方法，本发明提供了一种神经形态脉冲信号去噪和超分辨装置，包括显示屏和脉冲相机，以及以下模块以实现上述实施例任一项所述的方法：

脉冲数据转换模块：用于采用3D卷积神经网络对事件信息进行Encoder-Decoder处理；

脉冲去噪和空间上采样模块：用于获得事件信号的去噪模型并求得去噪模型的最优解，输出3D tensor形式的去噪和上采样之后的重建图像；

脉冲信号重分布模块：用于将3D tensor形式的重建图像通过均等间隔分配时间戳的方式进行脉冲重新分配，还原出高分辨率的脉冲信号。

本发明的方法或装置在应用时，可采用以下步骤：

a)在网上下载公开的高速慢放视频数据集，该数据集包含45个视频序列对应所有彩色帧，帧率调整为30fps，每个帧的空间分辨率为1280×720。

b)如图4为例，重新合成对应的新的45个视频，每个视频的帧率调整360fps，分辨率为1280×720。视频的每一帧包含3个时间同步内容相同但空间分辨率不同的局部视窗，其中最大的一个视窗分辨率为720×720，最小的两个视窗分辨率为360×360。为方便在拍摄时有充足的时间播放视频且开始相机拍摄，每个视频的开头和结尾帧都静置两秒。

c)搭建系统如图2所示的数据采集装置：本实施例中，显示屏的型号为ASUSPG259QNR，分辨率为1920×1080，刷新率为360Hz。型号为VidarOne，分辨率为400×250，镜头为F/1.4的事件相机水平放置在显示屏的正前方约180cm处。为了确保拍摄的视角正对且平行于显示器。

d)相机视角和显示屏显示区域配准：如图3所示，在配准时，显示器中心点设置十字靶心，相机正前方(由面包板限定)放置瞄准点，并通过三点一线的方法最终确保相机平面和显示器平面平行，且中心点的连线垂直于两个平面。并通过在相机和显示器上放置水平仪来限制相机和显示屏的水平旋转角相同。从而确保相机视角和显示屏显示区域完全配准。配准后事件相机的视角如图4所示，视角内分别对应了显示器中的三个视窗的区域，其中最大视窗对应在脉冲相机分辨率为240×240，最小的两个视窗对应的分辨率为120×120。

e)开始进行拍摄时，除显示屏外，室内环境光源全部关闭，以减小外部环境对数据拍摄的影响。然后依次拍摄45个处理后的视频。

f)处理脉冲数据：实现完成脉冲数据和彩色视频的时间配准。利用在拍摄是预留的标记来完成开始和结束的时间点对齐。对每一组拍摄到的事件数据，依照上图中空间坐标位置，依次截取局部区域，形成独立的不同分辨率的事件数据，分别对应为S1A，S1B，S2三个数据。本发明最终形成一个完整的45组RGB帧+多分辨率脉冲的数据集，每组包含的信息组合为{RGB帧，S1A，S1B，S2，时间戳序列}。在下面的网络训练中，本发明采用{S1A，S2，时间戳序列}的组合来完成2倍超分辨网络的训练，用{S1A，S1B，时间戳序列}组合来完成去噪网络的训练。

综上，相比现有技术，本发明先用实拍数据集作为训练集，避免了由于仿真数据与真实数据的差距太大而导致训练后的网络对真实数据不兼容的问题。并通过在显示屏中设置不同分辨率的相同视频，并用脉冲相机来拍摄显示屏，从而得到不同分辨率的真实脉冲数据对。同时使用深度学习的方法，在输入只有脉冲序列的情况下，就可以有效实现对事件的去噪和超分辨任务，且极大的提升了处理速度。

相应于上述本发明实施例提供的方法，本发明实施例还提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述本发明实施例提供的方法流程。

上述控制设备设备中提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字终端设备线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：施柏鑫;段沛奇;马逸;周鑫渝;施新宇;
专利申请人：北京大学;

上一篇：声场中心的自适应调整方法、装置、设备以及存储介质
下一篇：一种幂律模型InSAR对流层延迟改正方法