掌桥专利:专业的专利平台
掌桥专利
首页

一种基于事件相机辅助的暗光视频增强方法及装置

文献发布时间:2024-04-18 19:52:40


一种基于事件相机辅助的暗光视频增强方法及装置

技术领域

本发明涉及视频生成技术领域,尤其涉及一种基于事件相机辅助的暗光视频增强方法及装置。

背景技术

近年来,快速迭代更新的手机摄像头让每个人都能够成为随手摄影师,无人机在社会和工业场景的大规模应用也促进其摄像能力不断提升。目前,光线不足时高速场景下的摄影问题仍是业界的难题。在摄影中,人们常用极快的快门速度来在避免产生模糊的情况下捕捉快速运动,然而这同时也带来了极低的信噪比。更慢的快门速度可以提高信噪比,但同时也带来了运动模糊。这个快门速度的权衡问题使用现有的去模糊或多曝光融合方法皆难以处理。在体育录像和电影制作等专业摄像领域,一个常见的选择是在场景中放置大型补光灯,但其在一般摄影场景中的使用受限于便携性和功耗需求。

为了通过计算的手段来增强暗光高速场景下所拍摄视频的质量,人们常常使用视频增强算法来处理拍摄得到的原始暗光视频,以此提高退化图像的质量。视频增强的关键是利用视频帧之间的冗余性,融合前后帧之间一致的信息从而提高视频质量。其性能在很大程度上取决于基于视频帧的光流估计算法的质量,该算法有两个基本假设:i)场景中同一点在时空上的平移非常小;ii)场景中同一点在运动过程中其亮度保持不变,即亮度恒定性。然而,对于特征不太明显且受到噪声污染的暗光视频帧,这两个假设变得非常脆弱,难以被用于建立场景中运动着的点的匹配关系。尽管近年来深度学习的出现让许多基于学习的暗光视频增强方法的性能提上了一个台阶,但在像素位移较大的快速运动场景,视频帧质量的提升仍然十分具有挑战性。

现有技术1(Seeing Dynamic Scene in the Dark:A High-Quality VideoDataset With Mechatronic Alignment),基于端到端的深度学习,将欠曝光的暗光视频映射到正常光照的视频,其网络结构基于Retinex理论设计,包括帧间对齐、噪声抑制和光照增强三个基本模块。实现过程的算法流程如图1所示。具体为:

(1)在左边的帧间对齐模块f

(2)在右下的噪声抑制模块f

其中

(3)在右上的光照增强模块f

其中

(4)最后的结果通过下式得到:

然而,由于暗光视频帧中的对比度和信噪比极低,直接从单张暗光视频帧估计对应的正常光照视频帧是一个极具不适定性的问题,现有技术通过在训练时额外加入光流的引导可以对提高增强后视频帧之间的稳定性带来一定效果,但无法很好地克服问题本身的不适定性。

基于多帧暗光视频帧之间的对齐和融合可以一定程度上克服暗光视频增强问题的不适定性,提高视频帧的信噪比,但是由于暗光下噪声大和本身对比度低的影响,视频帧的特征点幅值弱、帧间匹配关系难以建立,这会极大地影响结果的质量。

事件相机以高动态范围、低延迟和低功耗异步记录对数亮度变化,为暗光高速场景下的摄影问题提供了有前景的方向。事件相机具有微秒级别的高时间分辨率,对于运动估计具有独特的优势,能够为高速运动场景中的帧之间提供可靠的帧间相关性,从而辅助视频增强。事件相机没有曝光时间的概念,因此不受困于使用长曝光时间引起的强模糊和使用短曝光时间引起的低信噪比之间的两难问题。综上所述,利用事件的高时间分辨率和高动态范围信息来引导暗光视频增强是暗光高速场景下得到高质量视频的一个极具潜力的方向。

现有技术2(Learning to See in the Dark with Events),将暗光下用事件相机捕捉的具有高动态范围的事件转化为标准的清晰图像,使用无监督领域适应方法来回避收集成对的事件-图像训练数据的困难,显式将领域不变特征(例如场景结构)与领域特定特征(例如细节纹理)分开,以简化表示学习,另外使用一个细节增强分支以残差方式从领域不变表示中重构出特定于白天光照的特征,并通过排名损失进行正则化。实现过程的算法流程如图2所示。具体为:

(1)正常光照事件和暗光事件被输入到共享的编码器E

(2)通过加法操作,通过与鉴别器D的对抗训练来保证调制后的正常光照特征

(3)细节增强分支T

(4)最后,一个共享的解码器R使用领域特定和共享表示来重构强度图像。“R/F”代表实际或伪造的逻辑值。

现有技术2通过将事件相机捕捉到的具有高动态范围的事件流转换成对应的光强值来得到正常光照的视频帧,然而,事件异步记录亮度变化,而帧同步记录绝对亮度,他们之间的直接转换具有很大的不适定性,而噪声的存在进一步增加了其困难。

发明内容

本发明针对现有技术在暗光高速场景下由于特征点的弱幅值导致帧间匹配关系难以建立的的问题,提出一种基于事件相机辅助的暗光视频增强方法及装置,通过对场景中同一点建立匹配关系来引导时空一致帧间信息的互补融合,从而提高视频的信噪比,通过在特征空间中建立事件和帧之间的多尺度全对的相关性,以补偿由于模态之间的差别以及暗光条件下难以逐像素对齐而导致的事件和帧之间空间和模态不对齐问题。

为了实现上述目的,本发明提供如下技术方案:

本发明提供一种基于事件相机辅助的暗光视频增强方法,包括以下步骤:

S1、采用帧相机和事件相机的混合摄像系统获取连续多帧暗光视频帧序列

S2、利用两个模态特征编码器

S3、帧特征

S4、当前帧特征

S5、将帧特征

进一步地,步骤S3中多模态相关性模块所提取的四维相关体

首先通过单模态光流估计器

然后通过以下方式获得用四维相关体

其中p和q分别表示从帧和事件提取的特征的像素索引;

然后使用内积的指数函数计算相关性分数。

进一步地,所述多模态相关性模块对四维相关体

进一步地,步骤S3中,所述多模态相关性模块利用四维相关体

通过一个投影矩阵M

其中,

进一步地,步骤S3中,所述多模态相关性模块利用四维相关体

通过单模态光流估计器

进一步地,在暗光视频帧L

其中,r为局部区域的半径,δ为p为像素p的位移变量,

其中,

进一步地,步骤S4中,通过时间相关性传播模块融合成噪声抑制的特征

S41、当前暗光视频帧L

一部分光流

S42、根据联合估计的光流S

在前后两帧当前之间的B个时间戳之间估计运动,得到事件特征

其中

其中Z用于归一化,时序一致性C

S43、从当前帧特征

其中,

其中,

然后,特征

进一步地,步骤S4中,曝光估计模块使用参数为1/2.2的伽马曲线来近似相机响应函数,并选择曝光参数网络

进一步地,步骤S4中,通过曝光估计模块得到曝光参数图P

S44、给定事件和帧的特征,曝光参数网格

S45、根据输入暗光帧L

其中

另一方面,本发明还提供了一种基于事件相机辅助的暗光视频增强装置,包括以下模块以实现上述任一项所述的方法:

帧相机和事件相机的混合摄像系统,用于获取连续多帧暗光视频帧序列以及这段时间内触发的对应事件信号,其中事件相机的空间分辨率为低于帧相机的空间分辨率,帧相机和事件相机分别采用相同的镜头并通过一个分光镜连接,分光镜将入射光平分为两束出射光,同步进入两台相机;

两个模态特征编码器

多模态相关性模块,用于将帧特征

时间相关性传播模块,用于将帧和事件对齐的特征

曝光估计模块,用于将特征

解码器

与现有技术相比,本发明的有益效果为:

1、本发明提出的基于事件相机辅助的暗光视频增强方法,通过高动态范围事件流来结合暗光视频帧本身一起对合适的曝光程度进行估计,从而恢复出对比度高的视频帧。

2、本发明引入事件相机的辅助来帮助暗光视频帧进行帧间运动信息估计,解决暗光高速场景下由于特征点的弱幅值导致帧间匹配关系难以建立的问题,通过对场景中同一点建立匹配关系来引导时空一致帧间信息的互补融合,从而提高视频的信噪比。

3、本发明在特征空间中建立事件和帧之间的多尺度全对的相关性,以补偿由于模态之间的差别以及暗光条件下难以逐像素对齐而导致的事件和帧之间空间和模态不对齐问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为现有技术1的方法流程图。

图2为现有技术2的方法流程图。

图3为本发明提供的方法流程图。

图4为本发明实施例提供的混合相机系统。

具体实施方式

为了更好地理解本技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实例仅仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出的一种基于事件相机辅助的暗光视频增强方法,如图3所示,包括以下步骤:

S1、采用帧相机和事件相机的混合摄像系统获取连续多帧暗光视频帧序列

S2、利用两个模态特征编码器

S3、帧特征

S4、帧和事件对齐的特征

S5、将曝光参数图P

其中,⊙表示逐元素相乘,f

每个模块都有相应设计的神经网络来实现不同的功能,具体介绍如下。

1、多模态相关性模块

多模态相关性模块

首先通过单模态光流估计器

然后通过以下方式获得用四维多模态相关性模块(相关体,correlation volume)

其中p和q分别表示从帧和事件提取的特征的像素索引;

然后使用内积的指数函数计算相关性分数。使用内积的指数函数计算相关性分数时,以矫正强相关性的大小并抑制由于不对齐的像素或模态差异引起的弱相关性。

为了进一步扩大感知域,所述多模态相关性模块

步骤S3中,使用

通过一个投影矩阵M

其中,

本发明考虑到全局特征对齐可以建模事件和帧之间的传感器不对齐和相机运动,另外使用像素级的运动积分来处理由曝光时间内的物体运动或补丁重复引起的剩余对应关系。本发明从事件和帧联合估计光流S

对于运动估计,事件相机具有压倒性的优势,特别是对于大位移和遮挡。然而,它们通常具有较低的空间分辨率,并且仅在具有“运动边缘”的区域中触发,缺少低纹理区域的信息。幸运的是,尽管特征较弱,但在边界时间戳处的暗光视频帧中仍然保留了高分辨率的细粒度外观,这可以补充事件中的运动信息。

本发明中,所述多模态相关性模块

通过单模态光流估计器

为了计算的效率,本发明仅考虑在暗光视频帧L

其中,r为局部区域的半径,δp为像素p的位移变量,

其中,

2、时间相关性传播模块

步骤S4中,通过时间相关性传播模块融合成噪声抑制的特征

S41、当前帧L

S42、根据联合估计的光流S

在前后两帧L

其中

其中Z用于归一化,时序一致性C

S43、c)为了补偿事件和帧之间的时间不对齐,本发明从当前帧特征

其中,

其中,

然后,特征

3、曝光估计模块

本发明的曝光估计模块使用参数为1/2.2的伽马曲线来近似相机响应函数,并选择曝光参数网络

具体地,步骤S4中,通过曝光估计模块得到曝光参数图P

S44、给定事件和帧的特征,曝光参数网格

S45、根据输入暗光帧L

其中

本发明采用合成数据对神经网络进行训练,具体训练过程如下:

1、获取合成数据集

训练数据集使用了视频分割数据集DAVIS,包含107对合成的正常光和暗光视频(6208帧),随机分为训练集87个视频和测试集20个视频。本发明使用伽马校正和线性缩放来合成暗光视频帧,从正常光帧I

L

其中α,β,γ从均匀分布

为了满足对事件和暗光视频的混合输入的要求,我们使用视频到事件模拟器v2e进一步合成事件。所有帧的空间分辨率为854×480,而事件的空间分辨率为427×240,以模拟两种模态之间的空间分辨率差异。在实际中,混合摄像机系统中的事件和帧很难完美对齐,因此本发明在两个模态之间应用了随机透视变换来模拟。

在暗光条件下的噪声是本发明关注的关键因素。对于事件,本发明利用V2E模拟器模拟了不足的照明可能会带来的退化,如有限的带宽、更多的漏光事件和光子噪声。对于帧,为了使提出的方法能够在复杂的现实情况下实现泛化,本发明使用更实际的暗光帧退化过程。在强度较小时,泊松分布与信号相关的高斯分布具有非常不同的特性,因此本发明将光子噪声从泊松分布中采样,噪声尺度从

2、神经网络的实现细节

事件信息预处理:原始事件信号表示为在像素

其中R

其中

事件和帧的光流估计器

3、神经网络训练

整个网络使用端到端的训练方式,使用了l

其中λ

前两项用于在强度和梯度域中规范化预测的正常光帧I

第三项用于规范化曝光参数,以正确增强暗光帧的模糊版本为其正常光对应物:

其中

数据增强:训练时随机截取暗光视频帧和其对应事件信号128×128的块,并应用了水平翻转和旋转进行数据增强,旋转角度包括90、180和270度。

代码依赖PyTorch框架实现,使用Adam优化器来优化神经网络,初始学习率为1×10

相应于上述方法,本发明还提供了一种基于事件相机辅助的暗光视频增强装置,包括以下模块以实现上述任一项所述的方法:

帧相机和事件相机的混合摄像系统,用于获取连续多帧暗光视频帧序列以及这段时间内触发的对应事件信号,其中事件相机的空间分辨率为低于帧相机的空间分辨率,帧相机和事件相机分别采用相同的镜头并通过一个分光镜连接,分光镜将入射光平分为两束出射光,同步进入两台相机;

两个模态特征编码器

多模态相关性模块,用于将帧特征

时间相关性传播模块,用于将帧和事件对齐的特征

曝光估计模块,用于将噪声抑制的特征

解码器

本发明的具体实施例如图4所示,包括以下步骤:

1、搭建混合相机系统。混合相机系统包含一个普通帧相机(FLIR Chameleon3Color,空间分辨率1920×1280,事件分辨率20fps)和一台事件相机(DAVIS346,空间分辨率346×260,时间精度约1微秒),通过分光镜(Thorlabs CCM1-BS013)连接。两台相机采用相同的镜头,分光镜将入射光分分为两束出射光,同步进入两台相机传感器。

2、事件信号预处理:离散的事件信号转换成体素网格的表达方式。

3、将帧相机拍摄的多帧暗光视频帧和对应的事件信号的体素网格表示输入训练好的神经网络,得到最终增强的正常光照视频结果。

本发明通过引入高时间分辨率的事件相机,辅助暗光视频帧之间运动信息及其相关性的提取,利用多帧对齐和融合的思想增强暗光视频帧的对比度和信噪比,其增强结果大大超越现有的暗光视频增强方法。相比于现有技术要求事件相机和帧相机在空间上准确对齐,本发明通过多模态相关性建模模块能够应对在现实暗光高速场景中事件相机和帧相机非准确对齐的情况,适用范围大。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

相关技术
  • 一种琼脂糖固态电解质膜的制备方法及其在固态锂离子电池中的应用
  • 一种基于氟离子穿梭的全固态氟离子电池的制备方法
  • 一种聚合物电解质及其制备方法以及由其制备的全固态锂离子电池
  • 一种固态电解质及其制备方法和锂离子电池
  • 一种全固态薄膜锂离子电池3D薄膜负极及其制备方法
  • 一种一体化半固态双反应区铝离子电池及其制备方法
  • 一种一体化半固态双反应区铝离子电池及其制备方法
技术分类

06120116333246