掌桥专利:专业的专利平台
掌桥专利
首页

一种基于立体注意力机制的多尺度残差双目图像超分辨率方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及一种基于立体注意力机制的多尺度残差双目图像超分辨率方法,属于图像处 理技术领域。

背景技术

图像作为人类感觉系统的视觉根本,饰演捕捉信息、分析信息、表达信息以及传递信息 的重要角色,图像处理技术对人类有不可或缺的意义。近现代以来,随着自动化技术、电子 信息技术和计算机网络技术的快速发展,图像携带的自然景观中形状、颜色、纹理等数字化 信息,提供了视觉信息的量化表示。

相较于模拟图像处理,数字图像处理有再现性好、精度高、灵活度高的特点,而数字图 像处理技术作为一种“软技术”,其发展为后续的大量研究奠定了基础,例如图像重建、图 像分析、目标检测、语义理解等。基于对图像质量的需求,高分辨率图像在很多应用场合都 极其重要。然而,由于传感器排列密度的限制及技术工艺的制约,通过提升成像装置的分辨 率直接提升图像分辨率显然不太切合实际,图像超分辨率重建则提供了另一种更为高效便捷 的方式,即利用一张或多张低分辨率图像通过计算机软件生成高分辨率图像,并尽可能恢复 原图像中的细节纹理和遮挡区域,在降低成本的同时获取更好的视觉效果。

仿照人类双眼的成像过程,立体视觉通过左右相机同步成像的视觉差异,在图像中还原 其在三维空间中的相对位置,作为主流的视觉方案之一,与其他视觉方案相比有突出的优势。 双目视觉的使用场景广泛,可以同时提供二维(图像)和三维(距离)信息,通过调整相机 间的基线能够调控测量范围,同时搭载图像处理芯片后,对于场景的纹理、结构、颜色等也 能有较好的实时性识别。立体视觉以灵活、方便、成本低的特点在视觉检测、3D虚拟现实技 术、计算机辅助技术及高级驾驶辅助系统中具有重要的研究价值。

立体视觉现阶段的研究重点在于通过利用双目视图间的视差信息进行场景的三维重建, 作为底层图像处理过程,双目图像超分辨率本质上是多输入多输出的过程,即输入低分辨率 左右视图,通过利用图像间的交互信息重建出相应的高分辨率双目图像。为满足深度估计、 立体匹配等高级视觉任务对于输入图像质量的要求,双目图像超分辨率的研究一方面需要借 鉴上层任务的建模思想,另一方面需要克服双目成像中的固有缺陷(如环境光照影响、纹理 单一或过于复杂等造成的匹配不当问题)。

双目图像能够仿知人眼视觉系统的重要前提是不同深度的物体在成像过程中会出现在不 同的位置。同时由于外极线约束,成像物体的相对位置只存在水平变化,极少有纵向变化, 也就说明,视差补偿沿水平极线展开的效益是最高的。

发明内容

技术问题:本发明的目的是提供一种基于立体注意力机制的多尺度残差双目图像超分辨 率方法,针对现有技术的不足,通过立体视差注意力机制,在解决极线视差问题的前提下利 用左右视图的互补信息提高双目图像的分辨率。

技术方案:本发明公开了基于立体视差注意力机制的双目图像超分辨率方法,包括以下 步骤:

步骤S1.建立双目图像训练集:通过训练样本随机进行上下翻转、左右翻转操作增强训 练样本;

步骤S2.设计网络结构:整体网络由特征提取、立体视差提取及特征重建三个模块组成, 其中,特征提取模块通过引入共享权值的多尺度残差结构分别对输入网络的低分辨率左右视 图进行特征提取;立体视差提取模块根据立体视差注意力机制计算得到的视差注意力图进行 左右视图特征张量的融合;特征重建模块通过密集残差块和上采样模块对融合得到的特征张 量进行超分辨率重建,恢复出高分辨率的左右视图图像;

步骤S3.设置训练参数训练网络,将步骤S1得到的训练样本送到步骤S2设计的网络中, 选择合适的优化器,设置损失函数、学习参数及最大迭代次数对网络进行训练,直至训练结 束得到最终的网络模型;

步骤S4.测试该网络性能,将低分辨率的双目图像测试对输入步骤S3得到的网络中,输 出高分辨率的双目图像对。

其中,

所述步骤S1建立的双目图像训练集具体为,挑选四个常见双目图像数据集中的图片对作 为双目图像训练集,每对图像包括同一场景下的左视图和右视图两张高分辨率图像,通过双 三次下采样得到对应的低分辨率图像对,训练样本由高分辨率图像对和低分辨率图像对裁剪 的图像块构成。双三次插值是专业术语,又称立方卷积插值(bicubicinterpolation)利用待采 样点周围16个点的灰度值作三次插值,用来实现图片的缩放,此处的“双三次下采样”是指通 过双三次插值的逆运算实现图像的缩小。后续的“双三次上采样”是指通过双三次插值算法实 现图像的放大。

所述步骤S2设计网络结构:包含以下三个步骤:

步骤S2.1.特征提取:利用共享权值的多尺度残差网络对输入网络中低分辨率的左视图 和右视图进行特征提取,分别得到其特征张量;

步骤S2.2.立体视差提取:利用残差单元分别对步骤S1.1中左视图和右视图的特征张量 进行二次处理得到调和后的左右特征张量;以左视图的处理为例,经过左视图特征张量与右 视图转置的特征张量的批次化矩阵相乘和Softmax归一化操作生成立体视差注意力图,对右 视图特征张量进行卷积操作,并与立体视差注意力图进行批次化矩阵相乘,将得到的结果与 左特征张量进行拼接,通过卷积操作得到融合后的左视图立体视差特征张量;对调步骤S1.1 中的左右视图特征张量通过类似操作得到融合后的右视图立体视差特征张量;

步骤S2.3.特征重建:利用残差稠密块组分别对步骤S2.2中融合的左右视图特征张量进 行处理,利用反卷积网络对高维特征张量进行操作,融合输入低分辨率图像的双三次上采样 结果,恢复出高分辨率的左右视图图像。

在步骤S3中,所述训练网络使用Nvidia GTX1080Ti GPU训练网络结构,基于Pytorch1.8 部署训练;所述的优化器为Adam优化器,初始学习率设置为2×10

在步骤S4中,将经过双三次上采样的双目图像对与利用本方法超分辨率后的双目图像对 进行视觉效果的比较。

有益效果:本发明由于采取以上的技术方案,与现有技术相比,具有以下优点:

(1)与基于副本平移的双目图像超分辨方法相比,本方法不局限于固定视差图像的超分 辨率处理,利用卷积神经网络直接构建低分辨率图像和高分辨率图像之间的映射关系,提高 了方法的性能。

(2)与基于立体匹配的双目图像超分辨率相比,本方法不需要根据三维或四维的匹配代 价估计视图间视差,通过立体注意力机制并行提取左右视图间交互信息,对双目图像中的视 差变化具有更好的鲁棒性,提高了方法的效率。

附图说明

图1为本发明的整体步骤流程图;

图2为本发明网络设计的总体结构示意图;

图2(a)为特征提取中残差空洞空间卷积池化金字塔块的结构示意图;

图2(b)为立体视差提取中立体视差注意力模块的结构示意图;

图2(c)为特征重建中残差稠密模块的结构示意图;

图3为本发明与现有技术在实施例下的结果对比图。

具体实施方式

下面结合附图及实施例对本发明进行详细的阐述,本发明提出的基于立体注意力机制的 图像超分辨率方法,具体包含如下步骤:

图1为本发明的整体步骤流程图,具体包含以下步骤:

步骤S1.建立双目图像训练集:挑选四个常见双目图像数据集中的860对双目图像(每 对图像包含一张左视图及一张右视图)作为双目图像训练集中的高分辨率图像,通过双三次 下采样得到对应的低分辨率图像对。训练样本由高分辨率图像对和低分辨率图像对裁剪后的 图像块构成。

步骤S2.设计网络结构:图2为本发明中卷积神经网络的总体结构示意图,由图可知, 本发明的整体网络由特征提取、立体视差提取及特征重建三个模块组成。其中,特征提取模 块通过引入共享权值的多尺度残差结构分别对输入网络的低分辨率左右视图进行特征提取; 立体视差提取模块通过立体视差注意力机制计算得到的视差注意力图进行左右视图的特征张 量的融合;特征重建模块通过密集残差块和上采样模块对融合得到的特征张量进行超分辨率 重建,恢复出高分辨率的左右视图图像。具体过程如下:

步骤S2.1.特征提取:利用共享权值的多层卷积神经网络对输入的低分辨率左视图和右 视图进行特征提取,得到特征张量

步骤S2.1.1.通过3×3卷积层和基础残差块提取输入图像的浅层特征,以LeakyReLU 为激活函数,馈送至多尺度残差模块中进行多尺度特征的捕获;

步骤S2.1.2.多尺度残差模块由两组残差空洞空间卷积池化金字塔块(ResidualAtrous Spatial Pyramid Pooling Module,resASPP)和基础残差块级联组成,前者负责生成多尺度信息, 后者则进行信息融合。其中,单个resASPP结构如图2(a)所示,由膨胀率为1、2、5的空洞 卷积组合而成,通过1×1卷积控制输出通道数为64。

步骤S2.2.立体视差提取:通过引入立体视差注意力模块(如图2(b)所示),建立沿极线 位置之间的相似度。具体如下:

步骤S2.2.1.利用一个共享权值的残差块分别对步骤S2.1得到的特征张量

其中,H

步骤S2.2.2.以左视图的立体视差注意力图

步骤S2.2.3.图3展示了以Middlebury数据集中Toy图片对为实施例得到的视差注意力 图,由图分析,立体视察注意力模块对于特征相似度的计算集中在准确差异化特征上,并不

强制收集所有像素特征点间的相似性,只关注沿极线的最大相似特征,所以视差注意力图是 稀疏的。采用掩膜机制对于步骤S2.2.2中的立体视差注意力图进行补偿,以左视图特征张量 的掩膜计算为例,过程如下:

步骤S2.2.4.在实际训练中,将掩膜的阈值τ设置为0.1,通过批次化矩阵相乘得到视差 注意力图与输入图像之间的交互特征张量:

步骤S2.2.5.将步骤S2.2.1中的特征张量、步骤S2.3中的掩膜与步骤S2.4中的交互特征 张量连接,利用1×1卷积对级联后的特征张量进行特征融合,得到最终的立体视差特征张量, 表示如下:

其中,

步骤S2.3.特征重建:利用四个残差稠密块对步骤S2.2.5中融合后的立体视差特征张量 进行卷积操作,单个残差稠密块的结构如图2(c)所示。在实施例中,每个残差稠密块设置4 个3×3卷积层和ReLU函数组,通过反卷积层对特征张量进行反卷积操作,反卷积层由3× 3卷积组成,利用卷积层将特征张量映射到RGB空间,融合输入低分辨率图像的双三次上采 样结果,得到最终输出的左右视图高分辨率图像。

步骤S3.设置训练参数训练该网络:将步骤S1中生成的训练样本送入设计好的网络中进 行训练,设置代价函数为超分辨率图像与真实高分辨率图像的均方误差,在NvidiaGTX1080Ti GPU上基于Pytorch1.8部署训练,使用Adam优化器进行优化,初始学习率设置为2×10

步骤S4.测试该网络性能:将低分辨率双目测试图像输入训练好的网络中,输出对应的高分辨 率双目图像对。图3为经过双三次上采样的双目图像对与利用本方法超分辨率后的双目图像对的视 觉效果对比。通过该图中的细节放大部分可以看出,本方法在文字细节和结构方面有较强的重建能 力,通过左右视图间的视差补偿,能够取得较为优异的视觉效果。

技术分类

06120114724737