掌桥专利:专业的专利平台
掌桥专利
首页

一种透明物体深度信息估计模型的建立方法及装置

文献发布时间:2024-04-18 19:59:31


一种透明物体深度信息估计模型的建立方法及装置

技术领域

本发明属于计算机视觉技术领域,尤其涉及一种透明物体深度信息估计模型的建立方法及装置。

背景技术

深度估计任务的目标是根据给定的RGB图像和稀疏深度测量图来完成深度估计。稀疏深度测量图是通过深度相机得到的,深度相机主要使用红外激光进行深度测量,但由于透明物体透过大部分光,深度相机无法获得准确的深度信息,在这种情况下,深度补全任务通过推断来补全缺失的深度数据,从而弥补深度相机的不足。

目前,已有技术中通常采用神经网络方式提取拍摄图像的特征,从而根据该特征识别得到目标的深度信息。但是,这种方法取决于模型的准确性,已有模型提取的图像特征通常难以全面表征深度信息,从而导致精度难以达到预期。

发明内容

本发明的目的是提供一种透明物体深度信息估计模型的建立方法及装置,结合图像的全局信息和局部信息来提取图像的深度信息,以提升模型的鲁棒性。

本发明采用以下技术方案:一种透明物体深度信息估计模型的建立方法,包括以下步骤:

建立透明物体图像训练数据集,图像训练数据集包括若干个图像组,每个图像组均包括RGB图像、拍摄深度信息图和真实深度信息图;

将图像组中的RGB图像和拍摄深度信息图组成输入信息分别输入ResNet特征提取模块和Swin Transform特征提取模块,并分别得到对应的第一图像特征和第二图像特征;

基于CAS特征融合模块将第一图像特征和第二图像特征进行融合,得到第三图像特征;

根据第三图像特征生成的预测深度信息图、真实深度信息图和损失函数优化模型参数。

优选的,基于CAS特征融合模块将第一图像特征和第二图像特征进行融合包括:

对第一图像特征和第二图像特征进行归一化操作;

在通道维度将归一化后的第一图像特征和第二图像特征进行拼接,得到第一数据矩阵;

将归一化后的第一图像特征和第二图像特征分别进行相加操作和相减操作后再进行拼接,得到第二数据矩阵;

将第一数据矩阵和第二数据矩阵在宽度维度上进行拼接。

优选的,将第一数据矩阵和第二数据矩阵在宽度维度上进行拼接之后还包括:

对拼接后的第三数据矩阵进行卷积操作,得到融合特征。

优选的,得到融合特征后包括:

基于深度特征融合模块对融合特征再次进行融合,得到第三图像特征。

优选的,预测深度信息图的生成方法为:

对第三图像特征进行上采样。

优选的,相加/相减操作包括:

将归一化后的第一图像特征和第二图像特征中每个元素值进行相加/相减。

优选的,将归一化后的第一图像特征和第二图像特征分别进行相加操作和相减操作后再进行拼接包括:

将归一化后的第一图像特征和第二图像特征分别进行相加操作和相减操作后再在通道维度上进行拼接。

优选的,损失函数为:

其中,

优选的,模型参数包括ResNet特征提取模块的参数、Swin Transform特征提取模块的参数和CAS特征融合模块的参数。

本发明的另一种技术方案,一种透明物体深度信息估计模型的建立装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的方法。

本发明的有益效果是:本发明分别通过ResNet特征提取模块和Swin Transform特征提取模块分别提取图像中的局部特征和全局特征,以获得更全面和丰富的目标深度信息,从而可以生成更加准确的深度信息图,提升模型识别的鲁棒性,使得透明物体的深度估计更加准确。

附图说明

图1为本发明实施例一种透明物体深度信息估计模型的建立方法的流程图;

图2为本发明实施例中特征融合流程图;

图3为本发明实施例中初始RGB图像、预测深度信息图和真实深度信息图对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

深度估计在各个领域的广泛研究促使透明物体的深度估计成为越来越受关注的课题。透明物体在计算机视觉研究中具有多种应用,涵盖目标姿态估计和分割等任务。最近的一些研究采用深度网络推断透明物体的表面法线和掩码等信息,进而生成深度图。

深度估计任务分为两种主要类型,一种是是直接从彩色图像回归深度。这类任务通常在大规模的RGB-D相机生成的数据集上进行训练,主要用于解决单目深度估计(Monocular Depth Estimation,MDE)问题,在自动驾驶、机器人导航和增强现实等领域得到广泛应用。

然而,若表面法线预测存在准确性问题,可能导致最终深度预测结果存在显著偏差,且多组件预测使得优化和推理过程变得缓慢,且表面法线若出现偏差,可能会导致深度预测的产生显著误差。

在实际应用中,准确估计透明物体的深度对于场景理解和精确的物体操作非常重要。本发明专注于透明物体深度估计任务,旨在解决由于透明物体的光学特性导致深度相机难以获得准确深度的挑战,通过特定的方法和数据处理来补全透明物体的深度信息。

本发明公开了一种透明物体深度信息估计模型的建立方法,如图1所示,包括以下步骤:建立透明物体图像训练数据集,图像训练数据集包括若干个图像组,每个图像组均包括RGB图像、拍摄深度信息图和真实深度信息图;将图像组中的RGB图像和拍摄深度信息图组成输入信息分别输入ResNet特征提取模块和Swin Transform特征提取模块,并分别得到对应的第一图像特征和第二图像特征;基于CAS特征融合模块将第一图像特征和第二图像特征进行融合,得到第三图像特征;根据第三图像特征生成的预测深度信息图、真实深度信息图和损失函数优化模型参数。

在本发明实施例中,RGB图像、拍摄深度信息图和真实深度信息图均可以采用图片数据格式进行输入,例如,jpg格式。这里的拍摄深度信息图实质上是不完整的深度信息图,所以需要本发明的模型来重新生成新的深度信息图。

本发明分别通过ResNet特征提取模块和Swin Transform特征提取模块分别提取图像中的局部特征和全局特征,以获得更全面和丰富的目标深度信息,从而可以生成更加准确的深度信息图,提升模型识别的鲁棒性,使得透明物体的深度估计更加准确。

ResNet作为经典的卷积神经网络,能够有效地从RGB图像中提取局部特征。而SwinTransform将图像划分为一系列大小相等的小patch,并在每个patch内通过自注意力机制进行特征提取,从而充分捕获图像的全局特征。这种并行的特征提取方式充分结合了ResNet和Swin Transform的优势,使得网络能够兼顾局部细节和全局语义信息,从而在深度估计任务中取得更为准确的结果。

在一个实施例中,基于CAS特征融合模块将第一图像特征和第二图像特征进行融合包括:对第一图像特征和第二图像特征进行归一化操作;在通道维度将归一化后的第一图像特征和第二图像特征进行拼接,得到第一数据矩阵;将归一化后的第一图像特征和第二图像特征分别进行相加操作和相减操作后再进行拼接,得到第二数据矩阵;将第一数据矩阵和第二数据矩阵在宽度维度上进行拼接。

具体的,将第一数据矩阵和第二数据矩阵在宽度维度上进行拼接之后还包括:对拼接后的第三数据矩阵进行卷积操作,得到融合特征。得到融合特征后,基于深度特征融合模块对融合特征再次进行融合,得到第三图像特征。

更为具体的,相加/相减操作包括:将归一化后的第一图像特征和第二图像特征中每个元素值进行相加/相减。然后,将归一化后的第一图像特征和第二图像特征分别进行相加操作和相减操作后再在通道维度上进行拼接。

如图2所示,首先对ResNet和Swin Transform提取到的特征(其实质为数据矩阵)进行归一化操作,以确保不同尺度特征的值范围相近,从而减少因数值差异而导致的特征不稳定性。接着,在通道维度上将两种特征拼接到一起,以便将它们结合起来。

在特征融合的过程中,本实施例采用了相加和相减的方式来拼接。通过相加操作,可以增强两种特征之间的互补性,使得网络能够充分利用不同特征的优势。通过相减操作,可以消除特征之间的冗余信息,从而减少特征的维度和复杂性。随后,再次进行归一化操作,以确保融合后的特征值范围合理。

然后,将相加与相减得到的特征在通道维度进行拼接,以便将它们结合成一个更为综合和全面的特征表示。

随后,将这一融合得到的特征与ResNet和Swin Transform提取到的特征在宽度的维度上进行拼接,以进一步增强特征的多样性和表征能力。

最后,使用3*3的卷积核对整个拼接好的特征模块进行卷积操作,以获取融合之后的特征。这样的卷积操作有助于对特征进行进一步加工和优化,从而提高特征的表达能力和判别性。

最终,融合后的特征将作为输入传递给后续的解码器模块,用于生成精细化的深度图。解码器可以采用文献TODE-Trans:Transparent Object Depth Estimation withTransformer提出的深度特征融合模块,该模块通过建模不同尺度特征之间的相关性,以提高不同尺度特征的融合关系,并进一步加强特征提取,对于不同尺度的特征,增强了重要特征的表达,同时减弱了不重要特征的影响,使得最终提取到的特征更为有效和有意义。

最后,对第三图像特征进行上采样,生成预测深度信息图。

在一个实施例中,针对透明物体的深度估计问题,将其定义为一个密集回归问题,并采用损失函数来进行优化,损失函数为:

其中,

具体的,第一项是二阶损失,用于对每个像素的深度回归进行计算,以最小化预测值与真实值之间的L

通过上述的损失函数,可以反向优化模型参数,模型参数包括ResNet特征提取模块的参数、Swin Transform特征提取模块的参数和CAS特征融合模块的参数等。

为了进一步验证本发明方法的有效性,还将其与其他已有方法进行实验比对。在实验中,使用了两个数据集:ClearGrasp数据集和Omniverse Object dataset(OOD)数据集。

ClearGrasp数据集是由Synthesis AI平台构建的专门用于透明物体深度估计和机器人操纵任务中的3D姿态估计的大型合成数据集。该数据集被细分为五个主要部分:

Syn-train:包含5个物体的合成数据集;

Syn-known:训练物体的合成验证集;

Syn-novel:4个新物体的合成测试集;

Real-known:训练集5个物体的真实世界测试集;

Real-novel:5个新物体的真实世界测试集。

OOD数据集是用Omniverse平台生成的数据集,值得注意的是,OOD数据集只包含了训练集,没有验证集和测试集部分。OOD数据集中的部分3D对象是从ClearGrasp数据集中收集而来的,这进一步增强了研究的数据多样性和丰富性。

实验中采用了多种基准方法作为对比,包括文献RGB-D Local ImplicitFunction for Depth Completion of Transparent Objects所使用的基准RGB-FCN网络、NLSPN方法、Cleargrasp方法(CG)、LIDF-Refine方法以及TODE方法。其中,基准RGB-FCN网络是通过ResNet34直接回归透明物体的深度信息,NLSPN是一种在NYUv2数据集和KITTI数据集上的深度估计方法。Cleargrasp是专门用于透明物体深度估计的方法,而LIDF-Refine是文献RGB-D Local Implicit Function for Depth Completion of Transparent Objects中提出的局部隐式函数方法(the Local Implicit Depth Function prediction)的缩写,TODE方法使用Swin Transform回归深度。

根据之前的研究,本实施例选取了以下评价指标来衡量本发明方法的性能,其中,

均方根误差((Root Mean Squared Error,RMSE),RMSE是常用的深度估计评价指标之一,它衡量了预测深度与真实深度之间的误差的平均值,并用均方根的形式进行表征:

绝对相对差(Absolute Relative Difference,REL),REL指标用于衡量预测深度与真实深度之间的相对误差。它通过计算预测深度和真实深度之间的绝对差异,并将其除以真实深度来获得相对误差:

平均绝对误差(Mean Absolute Error,MAE),MAE是另一种常见的深度估计评价指标,它衡量了预测深度与真实深度之间的平均绝对误差:

阈值,即预测深度中满足下面公式的像素数量占所有像素的百分比:

实验中将参数δ的大小设置为1.05、1.10和1.25。

另外,RMSE、REL、MAE等指标越低越好,满足阈值的占比越高越好。

具体的,在Intel(R)Xeon(R)Bronze 3206R CPU和Nvidia RTX3090 GPU上进行的实验。首先对所有输入图像进行了统一的预处理,将它们的分辨率设置为320×240像素,此外,还采用了旋转裁剪等数据增强处理技术。在训练过程中,使用了批量大小(batchsize)为16的设置,实验总共进行了60个训练周期(epoch),超参数β的大小设置为0.01,以平衡损失函数中的两个项。

本实施例方法中的初始RGB图像、预测深度信息图和真实深度信息图如图3所示,图3(a)为三张初始RGB图像,图3(b)为对应的预测深度信息图,图3(c)为对应的真实深度信息图,根据预测深度信息图和真实深度信息图可见,预测深度信息图中的深度信息与真实深度信息图中的深度信息基本一致,这表明本发明方法的准确性高。

在实施例中,将深度估计方法在ClearGrasp数据集上的实验结果进行分析。采用了本发明方法(即Ours)和四个基准方法进行对比,包括文献RGB-D Local ImplicitFunction for Depth Completion of Transparent Objects所使用的基准RGB-FCN网络、NLSPN方法、Cleargrasp方法以及LIDF-Refine方法。

实验结果如表1所示,通过对实验结果的全面分析,得出以下结论:本发明的模型在透明物体深度估计任务中表现出优越性和有效性。从表中的结果可以明显观察到,本发明方法在大多数评价指标上均取得了显著的改进,尤其是在测试集上,本发明模型在各项评价指标上都明显超越了之前的方法,表现出更高的准确性和稳定性。

值得特别强调的是,与LIDF-Refine方法相比,本发明模型在测试集上的表现有了显著提升,这证明了本发明方法的有效性和优越性。然而,在Cleargrasp Syn-known数据集上,本发明方法的表现略低于LIDF-Refine方法。这可能是由于在验证集上的一些特定场景中,Cleargrasp Syn-known数据集与LIDF-Refine方法在一些方面存在相似之处,导致了表现的相对接近。

然而,当将模型应用于更广泛和真实的测试集上时,本发明模型表现出了更好的性能。

表1本发明方法与各种基准网络实验结果对比

应当注意的是本发明模型在真实世界测试集上的表现优于真实世界验证数据集。这种差异可以归因于两个数据集之间难度级别的固有差异。验证集被有意设置为更具挑战性,用于在模型开发过程中进行严格的评估。另一方面,测试集包含在训练阶段未见过的不同对象,并且采样条件相对不那么严格。这些因素共同导致了两个数据集之间性能的差异。因此,本发明方法构建的模型在真实世界测试集上表现出色,这表明了本发明模型的鲁棒性和泛化能力,在透明物体深度估计的实际应用中具有重要意义。

TODE模型提供了Cleargrasp数据集上测试的部分实验结果,本发明借鉴了TODE模型的实验结果,并在此基础上进行了进一步优化。首先,本发明在联合的Cleargrasp数据集和OOD数据集上进行了训练,训练周期为40个epoch,得到一个在Cleargrasp数据集上性能最佳的训练模型。然后,在第二阶段,将选择的最佳模型进一步在Cleargrasp数据集上进行单独的训练,将训练周期延长至80个epoch。这样的单独训练有助于进一步优化模型,使其更加偏向于Cleargrasp数据集的特征和性能。

本发明通过合理的训练策略,在此基础上优化了模型,取得了优于TODE的实验结果,实验结果如表2所示。在当前的透明物体深度估计领域,值得关注的是提升准确度的难度已经显著增加。这是因为已有方法已经取得了一定的突破,但进一步提升方法性能和模型的准确性变得相对困难,提升的难度在于需要更多的创新、高质量的数据和高效的方法,以满足复杂的应用需求。所以,虽然根据表2的实验结果本发明模型的精度提升不是很大,但是,已经足以表明本发明方法相对于已有方法具有了精度方面的提升。

表2本发明网络与TODE网络的对比结果

综上,本发明采用了一阶段的深度估计网络,通过直接从输入图像中预测深度信息,避免了传统方法中多阶段处理所引入的信息丢失和错误累积问题。这不仅减少了计算复杂度,还提高了深度估计的效率和准确性。该一阶段网络结合了卷积神经网络(CNN)等技术,能够有效地从图像中提取局部特征,使得透明物体的深度估计更加精准。

为了进一步提升透明物体深度估计的准确性,本发明引入了CAS特征融合模块,本发明中的CAS表示了拼接(Concatnate)、相加(Add)和相减(Subtraction),该模块将从一阶段深度估计网络中获取的局部特征与从其他源(如Transform)获取的全局特征进行融合,以获得更全面和丰富的深度信息。特征融合模块不仅能够充分利用各种特征的优势,还能够在深度估计过程中进行动态调整,以适应不同透明物体场景的需求。

本发明还公开了一种透明物体深度信息估计模型的建立装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的方法。

本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本发明还提供了一种计算机程序产品,当计算机程序产品在数据存储设备上运行时,使得数据存储设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到存储设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

相关技术
  • 一种音频设备的确定方法、装置、设备和存储介质
  • 一种问卷调查对象确定方法、装置、电子设备和存储介质
  • 一种车位确定方法、装置、电子设备、车辆及存储介质
  • 一种类簇中心的确定方法、装置、计算机设备及存储介质
  • 一种网元耗电量确定方法、装置、存储介质及计算设备
  • 一种单位管辖机关的确定方法、装置、设备和介质
  • 一种对多类型管辖单位进行收费返拨的方法
技术分类

06120116521303