多尺度细节特征增强的矿井图像单目深度估计方法

文献发布时间：2024-04-18 20:00:50

技术领域

本发明涉及图像处理技术领域，尤其涉及一种多尺度细节特征增强的矿井图像单目深度估计方法。

背景技术

在计算机视觉中，三维重建的过程是指通过使用图像或视频等二维数据来推断场景的三维结构和深度信息。在单目深度估计中，仅使用单张图像来估计场景中各个像素点的深度，由于单视图的信息不完全，因此，三维重建需要利用经验知识。而多视图的三维重建相对比较容易，其方法是先对摄像机进行标定，即计算出摄像机的图像坐标与世界坐标系的关系，然后利用多个二维图像中的信息重建出三维信息，在整个过程中，如何准确获得深度信息是能否从二维图像重建出三维信息的关键，然而大多数应用场景中，往往只有一个摄像机对三维场景图像进行采集，因此，单目深度估计技术在三维场景重建中显得至关重要。

现有单目深度估计方法所有的密集预测体系结构大多数是基于U－net架构，它的结构由编码器和解码器组成，通过对称连接的方式结合了底层特征和高层语义信息，通过编码器和解码器之间的特征传递和融合，U－net能够充分利用图像中的多层次信息进行像素级别的预测，其中：编码器负责从输入图像中提取特征，并逐渐减少特征的空间尺寸，增大感受野，减少参数数量，解码器负责将编码器提取的特征进行上采样，并逐渐恢复到原始输入图像的尺寸，如此操作，会存在以下缺陷：

1、编码器在输入图片下采样的过程中会丢失图像的特征和细节信息，这些特征和细节信息在解码过程中无法恢复；

2、图像中物体边界丰富的深度信息没有提取利用；

3、未对局部细节进一步处理，导致深度图出现模糊伪影。

发明内容

本发明要解决的技术问题是：为了解决现有单目深度估计网络模型深度估计后深度图出现模糊伪影的技术问题，本发明提供一种多尺度细节特征增强的矿井图像单目深度估计方法，通过单目深度估计网络模型的改进，能够改善深度图出现的模糊伪影。

本发明解决其技术问题所采用的技术方案是：一种多尺度细节特征增强的矿井图像单目深度估计方法，包括以下步骤：

S1、获取相机拍摄的原始图像集；

S2、构建第一单目深度估计网络模型，并利用步骤S1中获取的原始图像集对所述第一单目深度估计网络模型进行训练，获得最优单目深度估计网络模型；

S3、利用所述最优单目深度估计网络模型对相机拍摄的实时图像进行深度估计，输出该图像对应的最优深度图以得到单目深度估计结果。

由此，通过对第一单目深度估计网络模型的训练，得到最优单目深度估计网络模型，并利用该最优单目深度估计网络模型对相机拍摄的实时图像进行深度估计，能够改善该图像对应最优深度图出现的模糊伪影。

进一步地，所述步骤S2包括以下步骤：

S2－1、通过可训练的Sobel算子并执行卷积对步骤S1中获取的原始图像集的目标帧图像I

S2－2、在第二单目深度估计网络模型中加入全局结构感知模块和浅层－深层特征融合模块以得到所述第一单目深度估计网络模型，并利用所述第一单目深度估计网络模型中的深度估计网络对步骤S2－1中获取的目标帧图像I

S2－3、获取步骤S1中原始图像集中的源帧图像I

S2－4、利用所述相机位姿关系T

S2－5、对步骤S2－1中获取的目标帧图像I

S2－6、多次重复上述步骤S2－1至步骤S2－5，直至原始图像集中所有的目标帧图像I

其中：将满足输出精度的所述第一单目深度估计网络模型设为最优单目深度估计网络模型。由此，通过可训练的Sobel算子并执行卷积对目标帧图像I

进一步地，在步骤S2－2中，全局结构感知模块是指：

边缘信息特征图X的特征维度为：H＊W＊C，该边缘信息特征图X线性投影到相同维度查询的计算公式为：

Q＝XW

键值的计算公式为：

K＝XW

值的计算公式为：

V＝XW

其中：W

进一步地，在步骤S2－2中，交叉协方差注意力用于增强输入的计算公式为：

增强特征非线性的计算公式为：

其中：Attention(Q,K,V)＝V·Softmax(Q

进一步地，在步骤S2－2中，浅层－深层特征融合模块是指：

首先，利用卷积层将特征维度匹配一致，然后，将这些特征沿着通道维度连接起来，并通过两个3＊3卷积归一化ReLU层，最后，将该卷积层和Sigmoid层产生一个双通道注意力图；其中：每个浅层特征和深层特征与每个通道相乘，这些相乘的特征逐元素相加。由此，能够关注重要位置，以构建混合特征。

进一步地，在步骤S2－4中，目标帧图像I

重建图I

其中：proj()为转换函数，＜·＞为局部亚可微的双线性采样算子。

进一步地，在步骤S2－5中，目标帧图像I

光度重建误差ρ的计算公式为：

光度重投影损失L

其中：l()为照片透明度函数，c()为图片对比度函数，s()为图像结构函数。由此，由于真实环境中光照条件并非固定不变，通过结构相似度损失SSIM能够更好地处理复杂光照的变化。

进一步地，在步骤S2－5中，边缘光滑损失L

其中：

进一步地，在步骤S2－5中，尺度一致性损失L

其中：将源帧深度图D

进一步地，在步骤S2－5中，总损失L的计算公式为：

L＝μL

其中：μ＝[min

与现有技术相比，本发明的有益效果是：

1、本发明通过可训练的Sobel算子并执行卷积对目标帧图像I

2、本发明通过引入全局感知模块，使得目标帧的深度图D

3、本发明通过引入浅层－深层特征融合模块，将来自编码器的浅层全局结构特征和来自上一层解码器的深层局部细节特征通过注意力图自适应的融合特征，以改善简单的通道叠加导致深度图出现的模糊伪影。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明的多尺度细节特征增强的矿井图像单目深度估计方法的流程图；

图2为本发明的步骤S2的流程图；

图3为本发明的第一单目深度估计网络模型的网络图；

图4为本发明的第一单目深度估计网络模型编码器的结构图；

图5为本发明的第一单目深度估计网络模型解码器的结构图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1至图5所示，是本发明最优实施例，本实施例的多尺度细节特征增强的矿井图像单目深度估计方法，包括以下步骤：

S1、获取相机拍摄的原始图像集；

S2、构建第一单目深度估计网络模型，并利用步骤S1中获取的原始图像集对所述第一单目深度估计网络模型进行训练，获得最优单目深度估计网络模型；

S3、利用所述最优单目深度估计网络模型对相机拍摄的实时图像进行深度估计，输出该图像对应的最优深度图以得到单目深度估计结果。由此，通过对第一单目深度估计网络模型的训练，得到最优单目深度估计网络模型，并利用该最优单目深度估计网络模型对相机拍摄的实时图像进行深度估计，能够改善该图像对应最优深度图出现的模糊伪影。

在本实施例中，所述步骤S2包括以下步骤：

S2－1、通过可训练的Sobel算子并执行卷积对步骤S1中获取的原始图像集的目标帧图像I

S2－3、获取步骤S1中原始图像集中的源帧图像I

S2－4、利用所述相机位姿关系T

S2－5、对步骤S2－1中获取的目标帧图像I

S2－6、多次重复上述步骤S2－1至步骤S2－5，直至原始图像集中所有的目标帧图像I

其中：将满足输出精度的所述第一单目深度估计网络模型设为最优单目深度估计网络模型。由此，通过可训练的Sobel算子并执行卷积对目标帧图像I

换言之，在步骤S2－2中，输出目标帧的深度图D

具体的，可训练的Sobel算子引入了可学习参数A，该参数的值在训练过程中可自行优化调整自适应。

换言之，首先，对输入目标帧图像I

在本实施例中，在步骤S2－2中，全局结构感知模块是指：

边缘信息特征图X的特征维度为：H＊W＊C，该边缘信息特征图X线性投影到相同维度查询的计算公式为：

Q＝XW

键值的计算公式为：

K＝XW

值的计算公式为：

V＝XW

交叉协方差注意力用于增强输入的计算公式为：

增强特征非线性的计算公式为：

浅层－深层特征融合模块是指：

首先，利用卷积层将特征维度匹配一致，然后，将这些特征沿着通道维度连接起来，并通过两个3＊3卷积归一化ReLU层，最后，将该卷积层和Sigmoid层产生一个双通道注意力图；其中：每个浅层特征和深层特征与每个通道相乘，这些相乘的特征逐元素相加；

其中：W

在本实施例中，在步骤S2－4中，目标帧图像I

重建图I

其中：proj()为转换函数，＜·＞为局部亚可微的双线性采样算子。

在本实施例中，在步骤S2－5中，目标帧图像I

光度重建误差ρ的计算公式为：

光度重投影损失L

边缘光滑损失L

尺度一致性损失L

其中：

总损失L的计算公式为：

L＝μL

其中：l()为照片透明度函数，c()为图片对比度函数，s()为图像结构函数，

换言之，深度预测值是指：输出深度图每个像素对应的深度值。

具体的，第一单目深度估计网络模型的架构包括：深度估计网络和位姿估计网络，深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息，位姿估计网络用于预测两个视图或视频两帧之间的相对运动关系，第一单目深度估计网络模型通过训练一个模型从源图像的不同视点预测目标图像，利用深度映射作为桥接变量，对图像合成过程进行训练和约束，这样的模型既需要目标图像的深度预测图，又需要一对目标图像和源图像之间的估计相对位姿；光度重建误差ρ是光度损失L1(光度损失L1的范数表示为：||||

在本实施例中，α＝0.85，ξ1＝ξ2＝ξ3＝1，相机的参数K保持不变，γ＝0.1，τ＝0.5。

综上所述，本发明通过可训练的Sobel算子并执行卷积对目标帧图像I

以上所述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要如权利要求范围来确定其技术性范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：天地(常州)自动化股份有限公司;中煤科工集团常州研究院有限公司;

上一篇：一种基于分层解把机构的烟包分层解把控制方法
下一篇：一种螺栓检测设备