掌桥专利:专业的专利平台
掌桥专利
首页

一种基于混合神经网络的事件场合成孔径成像算法

文献发布时间:2023-06-19 11:29:13


一种基于混合神经网络的事件场合成孔径成像算法

技术领域

本发明属于图像处理领域,特别涉及用事件相机实现合成孔径成像。

背景技术

合成孔径成像(Synthetic aperture imaging,SAI)作为光场计算成像领域的重要分支,克服了单一视角拍摄时对遮挡目标无法有效成像的问题。通过将相机在多视角下拍摄的帧图像进行映射和合成,合成孔径成像可等效于一个虚拟的大孔径和小景深相机成像,因此能够虚化远离对焦平面的遮挡物,实现对被遮挡目标的成像,在遮挡物去除、目标识别与跟踪以及场景三维重建等方面具有极高的应用价值。

当前的合成孔径成像方法大多基于帧格式的光学相机。当遮挡物过于密集时,普通光学相机捕获的帧图像中有效目标信息减少且遮挡物干扰增加,严重影响了成像结果的清晰度和对比度,并且常常引入模糊噪声。此外,由于普通光学相机的动态范围较低,传统合成孔径成像方法在过亮/过暗等极端光照条件中不可避免地会产生过曝光/欠曝光的问题,导致无法对目标有效成像。

而基于生物视觉感知机制的事件相机成为了解决以上难题的突破口。与传统光学相机不同,事件相机仅仅感知场景的对数域亮度变化,以异步的事件流取代了传统帧的表现形式,具有低延时、高动态范围、低带宽需求和低功耗等特性。与传统光学相机相比,事件相机能够以极低的延时响应场景亮度的瞬时变化。因此在密集遮挡的环境中,事件相机能够连续地对场景和目标进行感知,从而捕获充分的有效目标信息,提升成像质量。而事件相机自身高动态范围的特性也使得极端光照条件下的目标重建成为可能。

发明内容

基于上述分析,本发明的目的在于提供一种基于事件相机的合成孔径成像算法,该方法利用事件相机低延时、高动态范围等优势,实现了密集遮挡与极端光照条件下的合成孔径成像。并利用混合神经网络的时空处理能力对输入事件数据进行噪声去除,从纯事件流中重建出无遮挡、高质量的视觉图像,达到“透视”的效果。

本发明提供的基于事件相机的合成孔径算法包括以下具体步骤:

步骤1:场景光线信息的捕获;利用事件相机在多个视角下捕获场景信息,并输出事件流;

步骤2:事件重聚焦;将多个视角下捕获的事件数据通过相机的多视角几何关系映射到合成孔径成像平面;

步骤3:构建和训练混合神经网络;用重聚焦后的事件数据和与之匹配的无遮挡视觉图像训练混合神经网络;

步骤4:视觉图像的重建;利用训练好的混合神经网络从纯事件数据中重建出无遮挡的目标图像。

在上述的基于事件相机的合成孔径成像算法,在步骤1中需要使用事件相机在多个视角下进行密集遮挡场景的数据捕获,可以使用例如事件相机阵列、事件相机移动拍摄等方法;在构建数据集时需要用普通光学相机额外拍摄无遮挡的图像形成训练样本对;

步骤1所述多个视角下场景事件数据集为:

event

其中,event

步骤1所述多个视角下场景无遮挡图像数据集为:

frame

其中,frame

在上述的基于事件相机的合成孔径成像算法,步骤2中所述在多个视角下场景事件数据集中,将第s个视角下产生的事件点数据即

其中,

第s个视角下产生的重聚焦后事件点数据表示为:

第s个视角下重聚焦后事件数据集表示为:

将所有视角下捕获的事件数据映射到参考视角r后的事件数据集表示为:

在上述的基于事件相机的合成孔径成像算法,步骤3中神经网络为由脉冲神经网络与卷积神经网络组成的混合网络,其中脉冲神经网络需要由带有漏电机制的神经元构成,例如Leaky integrate-and-fire(LIF)神经元;混合网络模型的输入为步骤2中所述多个视角下重聚焦到参考视角的事件数据集event

在上述的基于事件相机的合成孔径成像算法,步骤4中输入的事件数据首先需要进行步骤2中将多个视角场景事件数据集通过相机的多视角几何关系映射到合成孔径成像平面,得到多个视角下重聚焦到参考视角的事件数据集,然后输入训练好的神经网络后即可得到相应的视觉图像。

本发明提供了一种基于混合神经网络的事件场合成孔径成像算法,综合利用了事件相机的机制优势,实现了密集遮挡与极端光照条件下的图像重建,大大拓展了合成孔径成像的可应用范围。并利用混合神经网络的时空处理能力,从时间维度上对输入事件点进行去噪,大幅度提升了图像重建的质量。

附图说明

图1为实验场景示意图,包括安装在可编程滑轨上的事件相机,密集木栅栏和受遮挡目标。

图2为本发明所提出的合成孔径成像算法流程图。

图3为事件相机移动拍摄过程示意图。

图4为LIF脉冲神经元工作机制示意图。

图5为神经网络结构示意图,前端为脉冲神经网络编码器,后端为卷积神经网络解码器,输入为不同时间间隔下的事件帧,输出为视觉图像。

图6为与不同合成孔径成像算法的结果对比。从左到右第一列为参考图像,第二列为基于传统光学相机合成孔径成像算法(F-SAI),第三列为基于传统光学相机和卷积神经网络的合成孔径成像算法(F-SAI+CNN),第四列为基于事件相机和累加方法的合成孔径成像算法(E-SAI+ACC),第五列是基于事件相机和卷积神经网络的合成孔径成像算法(E-SAI+CNN),第六列是基于事件相机和混合神经网络的合成孔径成像算法(E-SAI+Hybrid)。从上到下第一到四行为密集遮挡下的重建结果,第五和第六行为过亮、过暗环境下的重建结果。

图7为放大细节后的比较结果。

图8a是在良好光照条件下捕获的参考图像。

图8b是基于传统帧的SAI重建结果。

图8c是基于本发明的事件相机的SAI重建结果。

具体实施方式

为了更清楚地了解本发明,下面具体介绍本发明技术内容。

通过一个安装在可编程滑轨上的事件相机(如附图1),可以实现对被遮挡目标的多视角拍摄。在使用事件相机拍摄完受遮挡的目标后,再使用普通光学相机拍摄无遮挡下的目标作为参考图,将参考图与事件流数据配对即可构建数据集。但由于实地拍摄的数据规模有限,需要用数据增强的方法来进行样本扩充。深度学习是一种数据驱动的方法,训练数据集越大,训练的模型泛化能力越强。然而,实际中采集数据时,很难覆盖所有场景,而且采集数据也需要大量成本,这就导致实际中训练集有限。如果能够根据已有数据生成各种训练数据,就能做到更好的开源节流,这就是数据增强的目的。虽然事件流数据没有帧的结构,但仍可以根据每个事件点的像素位置进行相应的变换,得到增强后的事件流。常用的数据增强技术有:

(1)翻转:翻转包括水平翻转和垂直翻转。

(2)旋转:旋转就是顺时针或者逆时针的旋转,注意在旋转的时候,最好旋转90-180°,否则会出现尺度问题。

(3)缩放:图像可以被放大或缩小。放大时,放大后的图像尺寸会大于原始尺寸。大多数图像处理架构会按照原始尺寸对放大后的图像进行裁切。

(4)裁剪:裁剪图片的感兴趣区域,通常在训练的时候,会采用随机裁剪出不同区域,并重新放缩回原始尺寸。

事件相机产生的事件点数据可表示为e=(p,x,t),其中p∈{+1,-1}为事件点极性,x为事件点的像素位置,t为事件点生成时间。由于拍摄过程中所获得的事件流数据是在不同视角下产生的,因此需要对事件点进行重对焦。以拍摄参考图时的相机位姿作为参考位姿θ

其中

为从重对焦后的事件数据中重建出高质量的视觉图像,我们构建由脉冲神经网络和卷积神经网络组成的混合神经网络进行事件数据的处理。该架构一方面利用脉冲神经网络的时空处理能力进一步降低噪声事件点的干扰,提高模型的鲁棒性,另一方面使用卷积神经网络强大的学习能力进行高质量视觉图像重建,保障模型整体性能。为有效处理噪声事件点的干扰,脉冲神经网络需由拥有漏电机制的神经元构成。以LIF神经元为例(工作机制如附图4所示),当接收到外界刺激时LIF神经元并不会马上激活,而是将外界输入转化为胞体电流对自身膜电势u(t)进行充电,并且在膜电势超过脉冲发射阈值U

其中

其中U

(1)LIF神经元以α的泄露率逐渐泄露自身膜电势。

(2)当自身发射脉冲时,即

而第二项

搭建好混合神经网络后,首先将重聚焦后的事件数据按一定时间间隔Δt切成N个时间间隔,并在每个时间间隔内将事件点累加形成尺寸为2×H×W的事件帧(2代表正负极性,H,W为事件帧的高度和宽度)。随后按时间顺序将事件帧输入脉冲神经网络。当N张事件帧都输入完毕后,脉冲神经网络将各个时间间隔的输出脉冲整合为一个多通道张量输入卷积神经网络中。将整个混合神经网络输出的图像与事先采集的无遮挡参考图进行损失函数计算,即可将损失值反向传播实现混合神经网络的联合监督训练。由于脉冲神经网络中存在的微分困难问题,其反向传播训练过程中可用基于代理函数的方法,例如Spatio-temporal back propagation(STBP)算法、Back propagation through time(BPTT)算法等。

附图6、7展示了本方法在密集遮挡与极端光照条件下的合成孔径成像结果。通过对比以下几种合成孔径成像算法:

(1)F-SAI:基于传统光学相机和累加方法的合成孔径成像算法。

(2)F-SAI+CNN:基于传统光学相机和卷积神经网络的合成孔径成像算法。

(3)E-SAI+ACC:基于事件相机和累加方法的合成孔径成像算法。

(4)E-SAI+CNN:基于事件相机和卷积神经网络的合成孔径成像算法。

(5)E-SAI+Hybrid(Ours):是基于事件相机和混合神经网络的合成孔径成像算法。我们衡量了相同数据集下的数值指标:

表1模型测试结果

在有参考图像的实验中使用峰值信噪比(PSNR)和结构相似度(SSIM)作为衡量标准,二者具体定义如下:

PSNR=10*log10(255

SSIM=[L(X,Y)

其中

其中m为图像中不同像素值的总个数,p(i)为第i类像素值再图像中的归一化概率。图像熵的值越高代表图像中信息量越大。此外标准差STD也用来衡量图像的对比度,STD值越大代表对比度越强。

相关技术
  • 一种基于混合神经网络的事件场合成孔径成像算法
  • 一种基于事件相机的合成孔径成像方法及系统
技术分类

06120112943523