掌桥专利:专业的专利平台
掌桥专利
首页

一种等变性注意力迭代稀疏采样的物体6D姿态估计方法及系统

文献发布时间:2024-04-18 20:00:50


一种等变性注意力迭代稀疏采样的物体6D姿态估计方法及系统

技术领域

本发明属于物体6D姿态估计技术领域,具体涉及一种等变性注意力迭代稀疏采样的物体6D姿态估计方法及系统。

背景技术

6D位姿估计是计算机视觉的一项基本任务,它的目的是求解相机坐标系与世界坐标系的转换关系。近年来,随着深度学习的发展,二维目标检测技术已经能够成熟应用在各种场景,而在机器人抓取、自动驾驶和虚拟现实技术等领域中,需要检测目标的三维甚至六维信息,二维目标检无法满足这一实际需求。因此,6D位姿估计是计算机视觉领域中的研究热点之一。

目前,有关6D位姿估计的方法大多集中在实例级位姿估计,一般需已知物体的显式3D模型。但为每一个待估计位姿的物体准备显式3D模型是非常耗时和昂贵的,这将导致位姿估计技术难以投入到实际生产应用。例如,在自动驾驶中,道路情况复杂,人们无法为每一个车辆提前建立三维模型。因此,为了缓解对物体建模的压力,近年来有不少研究提出类别级位姿估计,利用同类物体的形状、大小和颜色等具有相似性的特点,使同类实例共享一个规范模型,这在一定程度上降低了位姿估计任务对显式3D模型的依赖。然而,现实物体种类复杂多样,已有的数据集无法满足实际应用需求。因此,目前有部分研究将三维重建和6D位姿估计任务结合,先使用物体的一组参考图像重建物体的隐式模型,再对物体隐式模型进行渲染,最后通过最小化渲染图像和观察图像的差异来优化位姿,实现对新视角下的图像位姿估计。虽然该方法无需建立物体的显式3D模型,仅需一组物体的参考图像就能估计6D位姿,但该过程耗时较长。

发明内容

基于当前技术存在的上述现状,本发明提出一种等变性注意力迭代稀疏采样的物体6D姿态估计方法及系统,本发明探索使用渲染图和观察图的部分像素点估计6D位姿,实现提升匹配残差位姿的速度和精度。

本发明采取以下技术方案:

一种等变性注意力迭代稀疏采样的物体6D姿态估计方法,其包括如下步骤:

S1.制作观察图的数据集,它包含RGB图和深度图;

S2.从观察图的RGB上采样一组2D坐标序列,并将其与深度图对齐,获得采样点的3D坐标;

S3.随机初始化一个姿态作为渲染位姿;

S4.设置渲染位姿,生成在采样2D坐标上对应的渲染像素和3D坐标;

S5.将观察像素、渲染像素以及它们对应的3D坐标输入到等变性注意力迭代网络的模型中,输出观察图和渲染图的残差位姿;

S6.将残差位姿反馈到上一次的渲染位姿,得到新的渲染位姿,并重复执行数次(优选16次)步骤S4-S5;

S7.重复执行步骤S2-S6,对数据集进行迭代训练,直到模型收敛,结束迭代并保存模型的权重文件;

S8.利用训练好的模型对测试图片进行6D位姿估计。

进一步的,步骤S1中,制作观察图像数据集,其使用Blender渲染器渲染物体在不同观察位姿下的RGB图和深度图;并将数据集按比例划分为训练集和测试集。Blender是一个3D建模软件,内置多种渲染器,通过在软件中设置相机内参和外参,实现渲染物体在不同观察位姿下的图像。

进一步的,步骤S2中,使用特征点检测器从观察图的RGB上采样N个感兴趣像素点,记录像素的2D坐标序列

进一步的,从对应的深度图上获取2D坐标序列P

其中,H,W,f分别是图像的宽、高和相机焦距,这些参数可以在渲染器中根据实际需求进行设置。

进一步的,步骤S3中,随机初始化一个位姿

进一步的,步骤S4中,设置渲染器的渲染位姿

进一步的,根据步骤S2中所述公式计算渲染像素对应的3D坐标

进一步的,步骤S5中,整理等变性注意力迭代加权网络模型所需要的输入,包括四个参数:C

进一步的,用等变性注意力迭代网络提取输入的旋转平移等变特征

其中,x

进一步的,将提取的旋转等变特征输入到全连接层进行残差位姿预测,其输出为

进一步的,步骤S6具体如下:

S61、将预测的残差位姿反馈到输入,得到新的渲染位姿T

其中,

S62、根据新位姿T

S63、设置位姿反馈次数为16,重复执行S4-S5,获得最终的估计位姿T。计算原理如下:假设

进一步的,步骤S7中,重复步骤S2-S6对数据集进行迭代训练,直到模型收敛,结束迭代并保存模型的权重文件。

进一步的,步骤S8中,利用训练好的模型对测试图片进行数次(优选16次)位姿反馈,最终得到物体的6D位姿。

本发明还公开了一种等变性注意力迭代稀疏采样的物体6D姿态估计系统,基于上述的方法,其包括如下模块:

数据集制作模块:制作观察图的数据集,包含RGB图和深度图;

3D坐标获取模块:从观察图的RGB上采样一组2D坐标序列,并将其与深度图对齐,获得采样点的3D坐标;

初始化模块:随机初始化一个姿态作为渲染位姿;

渲染位姿设置模块:设置渲染位姿,生成在采样2D坐标上对应的渲染像素和3D坐标;

观察图和渲染图的残差位姿获取模块:将观察像素、渲染像素以及对应的3D坐标输入到等变性注意力迭代网络的模型中,输出观察图和渲染图的残差位姿;

位姿反馈模块:将残差位姿反馈到上一次的渲染位姿,得到新的渲染位姿,并由观察图和渲染图的残差位姿获取模块重复执行数次(优选16次);

迭代训练模块:3D坐标获取模块、初始化模块、渲染位姿设置模块、观察图和渲染图的残差位姿获取模块、位姿反馈模块依次重复执行,对数据集进行迭代训练,直到模型收敛,结束迭代并保存模型的权重文件;

模型测试模块:利用训练好的模型对测试图片进行6D位姿估计。

与现有技术相比,本发明采用具有如下优点:

(1)本发明使用稀疏的采样点进行特征匹配,此技术特征可以加快匹配速度。

(2)本发明使用等变性注意力迭代网络提取有效特征,该网络在卷积过程中保持三维旋转平移等变性,使得提取的有效特征对输入的旋转平移变换十分敏感。此技术特征使得在采样点稀疏的情况下,也能学习到关于三维旋转与平移的信息。

(3)本发明使用位姿迭代优化过程,此技术特征能够降低网络预测残差位姿的负担,从而减小估计误差。

附图说明

图1为本发明优选实施例一种等变性注意力迭代稀疏采样的物体6D姿态估计方法流程图。

图2为等变性注意力迭代网络模型。

图3为位姿反馈匹配过程的效果图。

图4为本发明优选实施例一种等变性注意力迭代稀疏采样的物体6D姿态估计系统框图。

具体实施方式

下面结合具体实施例和附图,对本发明进一步阐述。但此处所描述的实施例仅用于解释本发明,并不用于限制本发明。

如图1所示,本发明实施例提供了一种等变性注意力迭代稀疏采样的物体6D姿态估计方法,其具体包括步骤:

S1.制作观察图的数据集,它包含RGB图和深度图;

S2.使用特征点检测器从观察图的RGB上采样一组2D坐标序列,并将其与深度图对齐,获得采样点的3D坐标;

S3.随机初始化一个姿态作为渲染位姿;

S4.设置渲染器的渲染位姿,生成在采样2D坐标上对应的渲染像素和3D坐标;

S5.将观察像素、渲染像素以及它们对应的3D坐标输入到等变性注意力迭代网络的模型中,输出观察图和渲染图的残差位姿;

S6.将残差位姿反馈到上一次的渲染位姿,得到新的渲染位姿,并重复执行16次步骤S4-S5;

S7.重复执行步骤S2-S6,对数据集进行迭代训练,直到模型收敛,结束迭代并保存模型的权重文件;

S8.利用训练好的模型对测试图片进行6D位姿估计。

下面对各步骤进行详细的介绍。

在步骤S1中,制作观察图像数据集。本实施例中,选用小车3D模型,使用Blender渲染器渲染物体在200个不同观察位姿下的RGB图和深度图,并将数据集按7:3划分为训练集和测试集。其中,图片分辨率为100×100,相机焦距为102.539。

在步骤S2中,使用SIFT算法作为特征点检测器,SIFT算法是图像处理中一种常用的特征提取算法,其特征描述子具有高区分度和强鲁棒性。通过特征点检测器从观察图的RGB上采样N=128个感兴趣像素点,记录像素的2D坐标序列

其中,H=100,W=100,f=102.539分别是图像的宽、高和相机焦距,这些参数可以在渲染器中根据实际需求进行设置。

在步骤S3中,随机初始化一个位姿

在步骤S4中,设置渲染器的渲染位姿

在步骤S5中,将C

其中,x

接着,使用具有不同参数的卷积网络分别对

在步骤S6中,将预测的残差位姿反馈到输入,得到新的渲染位姿T

其中,

根据新位姿T

步骤S8中,重复步骤S2-S7对数据集进行迭代训练,直到模型收敛,结束迭代并保存模型的权重文件。在训练过程中,设置学习率为0.0001并使用动量为0.9的Adam优化器。

步骤S9中,利用训练好的模型对测试图片进行16次位姿反馈,最终得到物体的6D位姿。迭代匹配过程的效果图如图3所示。

如图4所示,本发明优选实施例公开了一种等变性注意力迭代稀疏采样的物体6D姿态估计系统,基于上述方法实施例,其包括如下模块:

数据集制作模块:制作观察图的数据集,包含RGB图和深度图;

3D坐标获取模块:从观察图的RGB上采样一组2D坐标序列,并将其与深度图对齐,获得采样点的3D坐标;

初始化模块:随机初始化一个姿态作为渲染位姿;

渲染位姿设置模块:设置渲染位姿,生成在采样2D坐标上对应的渲染像素和3D坐标;

观察图和渲染图的残差位姿获取模块:将观察像素、渲染像素以及对应的3D坐标输入到等变性注意力迭代网络的模型中,输出观察图和渲染图的残差位姿;

位姿反馈模块:将残差位姿反馈到上一次的渲染位姿,得到新的渲染位姿,并由观察图和渲染图的残差位姿获取模块重复执行16次;

迭代训练模块:3D坐标获取模块、初始化模块、渲染位姿设置模块、观察图和渲染图的残差位姿获取模块、位姿反馈模块依次重复执行,对数据集进行迭代训练,直到模型收敛,结束迭代并保存模型的权重文件;

模型测试模块:利用训练好的模型对测试图片进行6D位姿估计。

本实施例其他内容可参考上述方法实施例。

综上,本发明在使用稀疏采样点的情况下估计物体6D姿态估计,实现提升匹配残差位姿的速度和精度。

以上仅为本发明的较佳实施例。专业技术人员应理解,本发明并不仅限于上述特定实施例,而是可进行各种明显的变化、调整和替代,而不超出本发明的保护范围。因此,尽管以上实施例对本发明进行了详细说明,但本发明不仅限于所述实施例,只要不脱离本发明的构思,还可以包括其他等效实施例。

相关技术
  • 一种轻型直线轴承
  • 一种预紧消隙直线轴承及其直线轴承系统
技术分类

06120116539001