掌桥专利:专业的专利平台
掌桥专利
首页

移动机器人平台下基于双目图像的抓取引导方法及系统

文献发布时间:2024-04-18 19:58:53


移动机器人平台下基于双目图像的抓取引导方法及系统

技术领域

本发明涉及机器人抓取引导控制技术领域,特别涉及一种移动机器人平台下基于双目图像的抓取引导方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。

视觉抓取引导技术是融合视觉感知、轨迹规划、运动控制等内容为一体的交叉融合技术方案,主要用于智能制造或者智慧物流当中的机械臂抓取、移动机器人抓取等场景下。具有智能抓取能力的移动机器人是实现智能制造或者智慧物流的主要作业平台。机器人根据预设需求,在到达初始作业位置之后开始作业,抓取目标物体,并根据场景使用需求在抓取完成之后进行后续动作。在目标物体抓取过程中,机器人的视觉系统对目标物体的精确定位和距离测算是抓取成功的先决条件,持续在线的对运动控制系统提供精确的视觉感知信号与抓取参考信息,才能保证抓取任务的成功完成。

专利号CN201810063064.4公开了一种面向机器人智能抓取应用的视觉识别与定位方法,其采用RGB-D图像作为输入,进入卷积神经网络中,并经过计算恢复出目标物体的整体点云结构,进而从整体物体点云图中获得目标物体的相对姿态与距离信息,该方法中需要对目标物体整体进行三维建模,且使用的深度相机成本相对更高,受到干扰的概率也更大。

专利号CN202010932018.0公开了一种基于双目视觉引导的机械臂实时跟踪方法,其采用双目立体视觉标定、校正与匹配,结合手眼标定的模式进行相机-机器人的坐标转换,然后在后续抓取过程中进行视觉跟踪控制,该方法中仅通过固定的标定矩阵来进行立体匹配过程,这种方式对环境依赖性更强,在移动机器人平台下如果机器人经历过长时间运动或者存在场景切换、作业距离变化等情况,这种方式无法获得高精度的匹配和重建结果;此外,该专利不包含抓取点检测这一过程,在抓取过程中需要对目标物体进行人工标定或者摆放为固定位姿来进行抓取,会造成额外工作量或者降低工作适应性。

发明内容

为了解决现有技术的不足,本发明提供了一种移动机器人平台下基于双目图像的抓取引导方法及系统,移动机器人起始工作位置使用双目相机进行目标物体的RGB图像采集,并使用深度学习算法推理来计算移动机器人与目标物体的相对距离、相对位姿和最佳抓取位置等信息,结合光流跟踪在抓取过程中进行在线抓取信息校准,从而实现了更精准的视觉抓取引导。

为了实现上述目的,本发明采用如下技术方案:

第一方面,本发明提供了一种移动机器人平台下基于双目图像的抓取引导方法。

一种移动机器人平台下基于双目图像的抓取引导方法,包括以下过程:

对当前时刻移动机器人的左目图像和右目图像分别进行特征提取,得到对应的左目特征图和右目特征图;

对左目特征图和右目特征图进行立体匹配,得到视差图;左目特征图和右目特征图进行抓取点检测,得到抓取位置;

根据视差图、抓取位置以及双目相机外参矩阵,进行抓取目标的三维重建,结合三维重建结果得到移动机器人与目标物体的相对位姿以及当前抓取点距离移动机器人的距离;

在移动机器人靠近抓取物的过程中,采用光流进行关键特征点跟踪,根据关键特征点跟踪结果,修正移动机器人与目标物体的相对位姿以及当前抓取点距离移动机器人的距离,直至完成抓取。

作为本发明第一方面进一步的限定,对当前时刻移动机器人的左目图像和右目图像分别进行特征提取,包括:

基于空洞卷积的深度神经网络进行左目图像和右目图像的图像语义特征的提取;其中,左目图像和右目图像特征提取用的深度神经网络的结构和参数相同。

作为本发明第一方面进一步的限定,左目特征图和右目特征图进行抓取点检测,得到抓取位置,包括:

在左目特征图和右目特征图上对每个位置的可抓取度进行评分,最高分的位置视为抓取位置。

作为本发明第一方面进一步的限定,对左目特征图和右目特征图进行立体匹配,得到视差图,包括:

将左目特征图和右目特征图进行基于三维神经网络的特征匹配,得到视差图。

作为本发明第一方面更进一步的限定,在每个视差级别上将左目特征图与右目特征图进行连接以形成一个代价容量矩阵,所述代价容量的矩阵维度为4,分别为高度、宽度、视差和特征尺寸;

对代价容量矩阵使用基础残差结构的三维卷积进行处理,通过双线性插值将三维卷积处理后的热区图向上采样恢复到原始图像尺寸,应用回归计算得到设定大小的视差图。

作为本发明第一方面进一步的限定,关键特征点,包括:抓取点和ORB特征点。

第二方面,本发明提供了一种移动机器人平台下基于双目图像的抓取引导系统。

一种移动机器人平台下基于双目图像的抓取引导系统,包括:

特征提取模块,被配置为:对当前时刻移动机器人的左目图像和右目图像分别进行特征提取,得到对应的左目特征图和右目特征图;

立体匹配模块,被配置为:对左目特征图和右目特征图进行立体匹配,得到视差图;

抓取点检测模块,被配置为:左目特征图和右目特征图进行抓取点检测,得到抓取位置;

抓取信息计算模块,被配置为:根据视差图、抓取位置以及双目相机外参矩阵,进行抓取目标的三维重建,结合三维重建结果得到移动机器人与目标物体的相对位姿以及当前抓取点距离移动机器人的距离;在移动机器人靠近抓取物的过程中,采用光流进行关键特征点跟踪,根据关键特征点跟踪结果,修正移动机器人与目标物体的相对位姿以及当前抓取点距离移动机器人的距离,直至完成抓取。

作为本发明第二方面进一步的限定,立体匹配模块中,将左目特征图和右目特征图进行基于三维神经网络的特征匹配,得到视差图,包括:

在每个视差级别上将左目特征图与右目特征图进行连接以形成一个代价容量矩阵,所述代价容量的矩阵维度为4,分别为高度、宽度、视差和特征尺寸;

对代价容量矩阵使用基础残差结构的三维卷积进行处理,通过双线性插值将三维卷积处理后的热区图向上采样恢复到原始图像尺寸,应用回归计算得到设定大小的视差图。

第三方面,本发明提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的移动机器人平台下基于双目图像的抓取引导方法中的步骤。

第四方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的移动机器人平台下基于双目图像的抓取引导方法中的步骤。

与现有技术相比,本发明的有益效果是:

1、现有的抓取引导算法一般都是面向固定平台的机械手臂抓取,然后将数据传输到控制端,机械手臂基座位置固定而仅调动其抓取部分,这种抓取系统不能适配于移动机器人平台;本发明采用双目相机完成视觉检测与三维重建,输出物体的抓取点位置、相对姿态与相对距离信息,提高了抓取工作的准确度与效率,增强了物体抓取系统的适应性。

2、现有的抓取点检测算法仅能进行单一的抓取点信息输出,即判断每个像素点的抓取评分与宽度、角度等辅助信息,在图像上输出抓取点之后没有后续的进一步处理,且在抓取过程中对新采集的图像序列逐帧进行独立处理,未能有效的利用视频的空间连续性;针对在这种情况,本发明利用光流点对抓取点进行了跟踪,保证了视频处理过程的连续性,对于突发的检测错误或者因遮挡、目标物体异动引起的状态异常具备良好的鲁棒性。

3、现有的基于深度学习的双目深度估计一般被使用于自动驾驶或者三维建图场景,在抓取场景当中,由于场景尺度小且抓取工作不要求全局视差信息,故而未能得到充分利用;本发明采用在输出全局视差图之后仅采用抓取点位置处的信息参与进行三维重建,高效率的过滤了视差图当中的有效信息,且在训练过程中使用结构光数据进行监督、RGB数据进行推理,训练过程更为简洁高效,推理过程更为准确。

4、现在的抓取结构多采用线性抓取行为操作,即给定初始抓取信息,然后规划好机器人抓取行为,接着执行已规划好的抓取动作,由于中间状态信息的缺失不能实现在线抓取行为校准;本发明当中通过跟踪、匹配和更新重建结果的处理链,实现了抓取过程中状态信息的持续输出,可以通过接受当前抓取信息来实现抓取行为的实时校准。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为本发明实施例1提供的移动机器人平台下基于双目图像的抓取引导方法的流程示意图;

图2为本发明实施例1提供的抓取信息计算的流程示意图;

图3为本发明实施例2提供的移动机器人平台下基于双目图像的抓取引导系统的示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

实施例1:

如图1所示,本发明实施例1提供了一种移动机器人平台下基于双目图像的抓取引导方法,移动机器人在起始工作位置开始启动抓取引导系统,利用事先经过标定的双目相机与训练好的目标检测算法框定当前目标的视觉区域,采集到目标物体的RGB图像,并通过对图像的处理获得最佳抓取位置,同时输出抓取位置相对于移动机器人的距离和抓取姿态信息,完成这一过程之后移动机器人逐渐靠近目标物体并持续进行抓取姿态信息获取,控制系统利用抓取点位置、抓取点相对距离等信息,在逐渐接近目标物体的过程中不断调整移动机器人自身的位姿,直至完成抓取过程;

本实施例中,优选的获取到的是双目相机采集到的目标区域的RGB图像信息,其双目相机在使用前提前进行过视觉标定并得到外参矩阵;可以理解的,在其他一些实现方式中,也可以采用光相机或者TOF相机,而非双目RGB相机,只要能形成类双目相机的结构并最终生成的是RGB图像(可以转化即可),这里不再赘述。

具体的,如图1所示,包括以下过程:

S1:通过基于空洞卷积的深度神经网络进行图像语义特征的提取,分别输出来自左目相机与右目相机的特征图;

S2:将左目特征图与右目特征图进行基于三维神经网络的特征匹配,得到左右目相机的视差图;

S3:在左目特征图与右目特征图上对每个位置的可抓取度进行评分,最高分的位置视为抓取位置;

S4:使用视频序列中的视差图、原始RGB图像的外参矩阵以及抓取点位置进行三维位姿重建,获得最终的移动机器人与目标物体的相对位姿以及当前抓取点距离移动机器人的距离。

本发明通过深度学习图像特征完成了双目匹配重建与抓取点主动选择,并将两者结合实现了实时在线抓取信息反馈,对目标抓取作业具备极强的适应性与稳定性。

S1中,更具体的,包括:

移动机器人进行实时感知时,通过双目RGB图像对周边环境进行数据流获取,在数据流上使用训练好的目标检测算法对目标进行图像区域过滤处理;

图像区域过滤处理当中检测算法会在双目相机的RGB图像上将目标物体的左右两目的目标物体二维图像分别截取出来,图像截取完成之后进入深度学习算法模块进行处理;

特征提取过程的图像特征编码器由空间金字塔池模块和空洞卷积组成,编码器采用网络开源抓取数据集(例如YCBLINEMOD等抓取数据集)进行模型预训练,同时使用部分自有数据参与预训练过程,由于原始数据集足够丰富,因此通过预训练模型学到的特征可以有效地作为通用模型适用于抓取任务当中,图像特征编码器对左右目图像进行相同的特征提取过程,即两目图像处理当中所用的算法模型是同一个模型,提取出特征图之后分别进入立体匹配模块和抓取点检测模块进行特征图的处理。

S2中,更具体的,包括:

获取到左目特征图和右两目特征图后,首先将其缩放到300×300尺寸,然后使用同一个深度神经网络对两个特征图分别进行抓取点检测处理,这里的深度神经网络采用GG-CNN相似的结构,整体由三个卷积层与三个转置卷积层组成;

在抓取点检测的推理阶段,特征图进入深度神经网络之后在每一个像素点上都输出该像素点对应的抓取分数,此外根据实际需求可以输出抓取角度以及抓取宽度;在其训练阶段,采用自主收集的人工标注数据和网络开源数据作为数据来源,使用Pytorch框架对算法模型进行搭建并进行有监督训练过程,抓取点检测的最终输出为:

其中,q代表抓取点对应的抓取分数,s为图像像素坐标,后两者为相应的抓取角度与宽度,若抓取分数最大的点其分数大于抓取阈值,且抓取角度与宽度满足系统范围,则该点最终选定的抓取点,再通过图像变换从300×300的特征图映射到原始图像当中,作为最终的抓取点输出,左目特征图和右目特征图均得到这一输出之后,结合立体匹配结果进行抓取信息计算;

其中,q代表当前像素抓取质量,只能由单个浮点数表示,例如可以为0.9或0.8等;

更具体的,针对抓取分数,包括:

抓取检测算法是一个由深度神经网络构成的算法,其输出结果是一个与原始图像相同大小的矩阵,每个矩阵元素对应原始图像上的一个像素点,而这个矩阵的每个矩阵元素当中共有五个值,对应公式(1)中的五个参数;

训练神经网络时,通过人为标注的方式,在图像上选取抓取点,被选中的抓取点赋予抓取分数100,其他点抓取分数设置为0,同时抓取点还需要人为设置抓取宽度和抓取角度,非抓取点这两个数值自动赋值为-1。

可以理解的,在其他一些实现方式中,抓取点检测可以不使用深度学习方法而使用哈里斯特征点或其他视觉特征点进行检测,这里不再赘述。

S3中,具体的,包括:

获取到左目特征图和右目特征图之后,通过深度学习算法输出当前状态下目标物体的视差图,深度学习算法的网络结构采用PSMnet的网络结构,左右目特征图经过简单卷积之后,在每个视差级别上将左特征图与其对应的右特征图进行连接以形成一个代价容量矩阵(cost volume),其矩阵维度为4,分别为高度、宽度、视差和特征尺寸;

获得代价容量矩阵之后使用基础残差结构的三维卷积进行处理,这种三维卷积是简单地用残差块构成的,含12个3×3×3的卷积层;然后通过双线性插值将三维卷积处理后的热区图向上采样恢复到原始图像尺寸;最后,应用回归来计算大小为H×W的视差图,上述过程对应立体匹配的推理过程;

在训练过程中,采用scence flow、kitti等开源数据对立体匹配模块进行预训练,然后使用自主收集数据进行网络微调,自主收集收集数据来源于结构光、TOF等非纯RGB传感器,其中图像数据作为网络输入,视差数据作为监督进行训练,训练过程中采用PSMnet相同的loss函数进行训练:

其中:

其中,N代表图像中像素总个数,i代表像素序号,

S4中,具体的,包括:

得到视差图、双目的抓取点位置之后,可以结合双目相机外参矩阵,完成视觉目标的三维重建,得到三角化之后的深度信息;

更具体的,在先前的操作中,将视差图与抓取点图缩放到了相同的尺寸,而后可将视差图与抓取点图进行图像覆盖对齐,抓取点所在的像素位置可对应到视差图相同的像素位置,因此视差图这一像素点上的视差信息就是抓取点的视差信息d;

除去视差信息之外,三角化过程中还需要用到左右目相机光心位置、光心距离T以及相机焦距f(左右目使用相同相机,因此f相同)。

以左目相机三角化为例,假设左目相机抓取点的像素位置为x

其中,Xw、Yw和Zw代表以抓取系统坐标中心为原点、代表抓取点位置的三维世界坐标,XY分别代表其笛卡尔三轴的量。

本实施例中,抓取点检测之后在双目图像当中分别输出图像上的最佳抓取位置以及相应的分数,当分数超过阈值且左右目图像匹配正确的时候,确定抓取点的像素坐标点,并结合三维重建的结果获取抓取点的深度信息与相对于移动机器人的参考坐标值;

移动机器人在完成初始化深度与坐标值获取之后,开始进行抓取操作,并在后续采集的双目视频序列中通过光流进行关键特征点跟踪(关键特征点当中包含抓取点和ORB特征点两部分,提取出的可抓取点一般数量比较少,在图像当中比较稀疏,因此我们通过ORB特征点来补充可抓取点,提升跟踪稳定性),同时并持续获得抓取点的距离信息和相对坐标来进行抓取校准,直至抓取完成;

本发明所述的关键特征点包含两部分,一部分为前文计算出的可抓取点,另一部分为ORB特征点,以这些点作为基础点集,通过帧间图像匹配实时获得更新之后的特征点索引与像素坐标,并使用像素坐标实时更新三维世界坐标Xw、Yw和Zw,来完成抓取点在线校准。

如图3所示,为具体的抓取信息计算的流程示意图,其中的非线性优化采用光束平差法原理,其具体公式如下:

其中,i为关键特征点的代号,n为关键特征点的总数,K为相机内参,T为表示位姿的矩阵,ui为第i个关键特征点的像素坐标;Si为第i个关键特征点相对于坐标原点的距离,由Xw、Yw和Zw求得(其中Xw、Yw和Zw这三个量是通过视差求得的),公式为

图3中,在更新深度和位姿后,若没有新的信息输入,则当前计算完的位姿就是最终位姿;若有新的信息输入,则把最新的位姿返回参与计算;至于新信息是否进入,取决于抓取机器人系统是否关闭位姿估计进程,而关闭控制部分并不属于本发明考虑的内容,而取决于具体的使用场景。

实施例2:

如图3所示,本发明实施例2提供了一种移动机器人平台下基于双目图像的抓取引导系统,包括:

特征提取模块,被配置为:对当前时刻移动机器人的左目图像和右目图像分别进行特征提取,得到对应的左目特征图和右目特征图;

立体匹配模块,被配置为:对左目特征图和右目特征图进行立体匹配,得到视差图;

抓取点检测模块,被配置为:左目特征图和右目特征图进行抓取点检测,得到抓取位置;

抓取信息计算模块,被配置为:根据视差图、抓取位置以及双目相机外参矩阵,进行抓取目标的三维重建,结合三维重建结果得到移动机器人与目标物体的相对位姿以及当前抓取点距离移动机器人的距离;在移动机器人靠近抓取物的过程中,采用光流进行关键特征点跟踪,根据关键特征点跟踪结果,修正移动机器人与目标物体的相对位姿以及当前抓取点距离移动机器人的距离,直至完成抓取。

所述系统的工作方法与实施例1提供的移动机器人平台下基于双目图像的抓取引导方法相同,这里不再赘述。

实施例3:

本发明实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明实施例1所述的移动机器人平台下基于双目图像的抓取引导方法中的步骤。

实施例4:

本发明实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明实施例1所述的移动机器人平台下基于双目图像的抓取引导方法中的步骤。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于双目视觉引导的自动抓取档案机器人控制系统及方法
  • 一种基于双目视觉引导的物体抓取与放置系统
技术分类

06120116507391