掌桥专利:专业的专利平台
掌桥专利
首页

基于自监督表示学习的视觉抓取检测方法及系统

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及视觉抓取检测技术领域,具体地,涉及一种基于自监督表示学习的视觉抓取检测方法及系统。

背景技术

随着机器人技术的不断发展,机器人逐渐应用于工业和家庭等场景,这些应用场景通常要求机器人能够进行自主抓取。目前,大多数工业机器人仍然基于固定位置抓取来执行重复性任务。为了适应机器人技术的发展,机器人自主抓取应运而生。自主抓取涉及感知、规划和控制等内容,机器人需要与环境互动并自主完成任务,即知道该抓取哪个对象以及如何抓取。

一个完整的机器人抓取过程可以分为以下三个步骤:抓取检测、轨迹规划和运动控制。抓取检测是定位物体并生成该物体抓取姿势的过程,可以大致分为两类方法:基于几何分析方法和数据驱动方法。基于几何分析方法通常通过分析和计算物理模型的几何和运动学进行抓取检测。数据驱动方法主要基于机器学习方法,通常需要大量人为标记样本。

专利文献CN109702741A公开了一种基于自监督学习神经网络的机械臂视觉抓取系统,包括:景深摄像头、实例分割模块、位姿估计神经网络模块、立体位姿获取模块及机械臂控制模块,其中,所述景深摄像头输出色彩图像到实例分割模块,输出景深图像到立体位姿获取模块;所述实例分割模块将分类、框体或分割信息的至少一种输入位姿估计神经网络模块;所述位姿估计神经网络模块再输出平面位姿到立体位姿获取模块,与所述景深图像融合,获取立体位姿;机械臂控制模块获取所述立体位姿,并根据所述立体位姿实现机械臂抓取操作。但该方法并未有效地解决视觉抓取标注昂贵和提升视觉抓取性能的技术问题。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于自监督表示学习的视觉抓取检测方法及系统。

根据本发明提供的一种基于自监督表示学习的视觉抓取检测方法,包括:

步骤1:根据获取到的深度图像,得到有标注图像数据集和无标注图像数据集;

步骤2:在编码器中通过孪生网络对无标注图像数据集进行训练,并且通过度量学习损失方法提取相似抓取对象之间的共同特征;

步骤3:利用有标注图像数据集对解码器进行微调,得到训练模型;

步骤4:通过训练模型进行视觉抓取。

优选地,步骤1,包括:

步骤101:通过3D相机获取深度图像;

步骤102:对深度图像中的第一部分进行标注处理,得到有标注图像数据集;

步骤103:根据深度图像中的其余部分,得到无标注图像数据集。

优选地,步骤2,包括:

步骤201:对无标注图像数据集中的深度图像进行数据增强处理后,输入到孪生网络进行训练,得到增强图像;

步骤202:利用度量学习的损失值提取增强图像中相似抓取对象之间的共同特征。

优选地,步骤3,包括:

步骤301:利用反向传播算法和梯度优化算法对有标注图像数据集进行微调,得到训练模型。

优选地,步骤4,包括:

步骤401:根据训练模型,输入深度图像,输出抓取质量图;

步骤402:根据抓取质量图,得到抓取质量点,进行视觉抓取。

根据本发明提供的一种基于自监督表示学习的视觉抓取检测系统,包括:

模块M1:根据获取到的深度图像,得到有标注图像数据集和无标注图像数据集;

模块M2:在编码器中通过孪生网络对无标注图像数据集进行训练,并且通过度量学习损失方法提取相似抓取对象之间的共同特征;

模块M3:利用有标注图像数据集对解码器进行微调,得到训练模型;

模块M4:通过训练模型进行视觉抓取。

优选地,模块M1,包括:

子模块M101:通过3D相机获取深度图像;

子模块M102:对深度图像中的第一部分进行标注处理,得到有标注图像数据集;

模块M103:根据深度图像中的其余部分,得到无标注图像数据集。

优选地,模块M2,包括:

子模块M201:对无标注图像数据集中的深度图像进行数据增强处理后,输入到孪生网络进行训练,得到增强图像;

子模块M202:利用度量学习的损失值提取增强图像中相似抓取对象之间的共同特征。

优选地,模块M3,包括:

子模块M301:利用反向传播算法和梯度优化算法对有标注图像数据集进行微调,得到训练模型。

优选地,模块M4,包括:

子模块M401:根据训练模型,输入深度图像,输出抓取质量图;

子模块M402:根据抓取质量图,得到抓取质量点,进行视觉抓取。

与现有技术相比,本发明具有如下的有益效果:

1、本发明中的编码器-解码器体系结构融合了低层轮廓特征信息和高层语义特征信息,实现了空间更为精确和语义更为丰富的表示,减轻数据标注的负担、加快了模型训练,提升抓取检测时的泛化能力。

2、本发明在编码器中使用孪生网络,从输入数据中过滤出冗余信息。同时,通过各种数据增强技术,借助度量学习损失,提取相似抓取对象之间的共性,提升了模型的泛化能力。

3、本发明利用已标注的数据对解码器进行微调,从抓取质量图和后续抓取规划生成的抓取位姿中推断出最佳抓取候选,从而提升视觉抓取能力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明的流程示意图;

图2为本发明的自监督表示学习结构示意图;

图3为本发明的网络结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

下面对本发明中涉及的名词进行解释:

自监督学习(Self-Supervised Learning):是指无监督学习的一种,是学习一种用于表达下游任务通用特征的一种方法。自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,学习到对下游任务有价值的表征。

表示学习(Representation Learning):是指一种将高维数据投影到低维空间的数据预处理方法,从而更容易找到对于原始数据更好的表达,以便后续任务。

图1为本发明的流程示意图,如图1所示,本发明提供了一种基于自监督表示学习的视觉抓取检测方法,包括如下步骤:

步骤1:根据获取到的深度图像,得到有标注图像数据集和无标注图像数据集。

具体地,步骤1,包括:步骤101:通过3D相机获取深度图像;步骤102:对深度图像中的第一部分进行标注处理,得到有标注图像数据集;步骤103:根据深度图像中的其余部分,得到无标注图像数据集。

其中,3D相机可以为RGB-D深度相机。

本发明中对于第一部分的选取并不做限制,可以根据具体情况进行设置,示例性的,可以为所有深度图像数据的30%。

在一种可选的实施方式中,可以利用RGB-D相机采集大量深度图像,并且人工标注部分深度图像数据制作成有标注图像数据集,其余的部分为无标注图像数据集。

具体地,具有少量标注信息的深度图像以物体周围的抓取矩形的形式呈现,具体地表示为公式(1):

g=(x,y,θ,ω); (1)

其中,(x,y)表示在深度图像中抓取矩形框的中心坐标;θ表示抓爪沿着z轴逆时针的旋转角度;ω表示预测抓取矩形框的宽度。

需要说明的是,因为抓取矩形框不能反映生成抓取矩形的质量,所以必须生成多个候选者,从中选出最佳抓取矩形框,这个步骤非常耗时。为了解决该问题,使用抓取图G作为解码器的输出,作为描述抓取状态的像素级方法,可以通过公式(2)表示:

其中,G表示抓取图;G包括抓取质量图Q、抓取角度图Θ和抓取宽度图W。抓取质量图

步骤2:在编码器中通过孪生网络对无标注图像数据集进行训练,并且通过度量学习损失方法提取相似抓取对象之间的共同特征。

其中,步骤2,包括:步骤201:对无标注图像数据集中的深度图像进行数据增强处理后,输入到孪生网络进行训练,得到增强图像;步骤202:利用度量学习的损失值提取增强图像中相似抓取对象之间的共同特征。

具体地,利用数据增强技术将无标注图像数据集中无标注信息的深度图像进行尺度变换、平移和旋转等操作,然后输入到孪生网络中去训练,得到增强图像,利用度量学习的损失值来提取不变特征,使其能够捕捉到不同物体在不同角度的相似特性。

在一种可选的实施方式中,将RGB-D图像x,经过不同的数据增强方法,生成

其中,||·||表示l

进一步地,损失函数L定义为公式(4):

L=D(p

其中,p

在本发明中为了避免所求得的解发生模式崩塌,将损失函数L修改为公式(5):

L=D(p

其中,stopgrad操作表示不进行梯度更新,在经过stopgrad操作后,z

步骤3:利用有标注图像数据集对解码器进行微调,得到训练模型。

其中,步骤3,包括:步骤301:利用反向传播算法和梯度优化算法对有标注图像数据集进行微调,得到训练模型。

具体地,利用少量有标注图像数据集中的具有标注信息的深度图像数据对解码器进行微调,采用反向传播算法和梯度优化算法优化目标函数的梯度,使得检测得到的抓取模型与真实值差异最小化,得到训练模型。目标函数可以通过公式(6)表示:

其中,L表示网络输出的与真实值之间的差异;

在一种可选的实施方式中,利用少量具有标注信息的深度图像数据对解码器进行微调,图3为本发明的网络结构示意图,如图3所示,包括,RGB-D相机、工作空间和整体网络。编码器由四块组成,每一块都包含一个3*3卷积(Convolutional,Conv)层、线性整流函数(Linear Rectification function,ReLU)、批标准化(Batch Normalization,BN)层和步幅为2的最大池化层(MaxPooling)。解码器由一个反卷积神经网络组成,经过上采样(UpSamping),使得输出逐渐恢复到与输入尺寸相同的大小。编码器的输出经过跨层连接(Skip connections)对应到解码器的对应层。最后一层是1*1卷积(Convolutional,Conv)层。该网络将编码器输出的数据解码成与输入大小相同的抓取质量图、抓取角度图和抓取宽度图。微调过程采用反向传播算法和梯度优化算法,使得检测得到的抓取模型与真实值差异最小化,得到训练模型。

步骤4:通过训练模型进行视觉抓取。

其中,步骤4,包括:步骤401:根据训练模型,输入深度图像,输出抓取质量图;步骤402:根据抓取质量图,得到抓取质量点,进行视觉抓取。

具体地,根据训练得到的基于自监督表示学习的训练模型,输入真实的深度图像数据,输出抓取质量图、抓取角度图和抓取宽度热力图,根据抓取质量图,得到抓取质量点,进行视觉抓取。

在一种可选的实施方式中,根据训练得到的抓取检测模型,即训练模型,将真实RGB-D图像作为输入,输出三张像素级抓取质量图、抓取角度图和抓取宽度热力图。结果抓取点是抓取质量图中质量分数最高的位置。

本发明可以用于高效处理图像数据,提升视觉抓取能力。

下面为本发明提供的基于自监督表示学习的视觉检测方法对应的算法:

具体地,输入为一组未标注图像D、有标注图像D′、图像变换分布

首先为自监督训练,对应的算法如下:

然后,使用少量有标注深度数据进行微调。

本发明还提供了一种基于自监督表示学习的视觉抓取检测系统,包括:

模块M1:根据获取到的深度图像,得到有标注图像数据集和无标注图像数据集。

其中,模块M1,包括:子模块M101:通过3D相机获取深度图像;子模块M102:对深度图像中的第一部分进行标注处理,得到有标注图像数据集;模块M103:根据深度图像中的其余部分,得到无标注图像数据集。

模块M2:在编码器中通过孪生网络对无标注图像数据集进行训练,并且通过度量学习损失方法提取相似抓取对象之间的共同特征。

其中,模块M2,包括:子模块M201:对无标注图像数据集中的深度图像进行数据增强处理后,输入到孪生网络进行训练,得到增强图像;子模块M202:利用度量学习的损失值提取增强图像中相似抓取对象之间的共同特征。

模块M3:利用有标注图像数据集对解码器进行微调,得到训练模型。

其中,模块M3,包括:子模块M301:利用反向传播算法和梯度优化算法对有标注图像数据集进行微调,得到训练模型。

模块M4:通过训练模型进行视觉抓取。

其中,模块M4,包括:子模块M401:根据训练模型,输入深度图像,输出抓取质量图;子模块M402:根据抓取质量图,得到抓取质量点,进行视觉抓取。

本发明的技术原理是:

本发明设计了全新的编码器-解码器(Encoder-Decoder Architecture)结构。通过引入自监督学习,在编码器中使用孪生网络(Siamese Network),从输入数据中过滤冗余信息,同时,通过各种数据增强技术,借助度量学习损失(Metric Learning Loss),提取相似抓取对象之间的共性,利用已标注数据对解码器进行微调,从抓取质量图和后续抓取规划生成的抓取位姿推断出最佳抓取候选,从而提升机器人的视觉抓取能力。自监督学习分为两个阶段:第一个阶段不涉及任何下游抓取任务,即用无标签抓取图像进行预训练;第二个阶段涉及下游抓取任务,即用带标签的数据在下游抓取任务上微调。

与现有技术相比,本发明具有如下的有益效果:

1、本发明设计了全新的编码器-解码器结构,结合低层轮廓特征信息和高层语义特征信息,实现了空间更为精确和语义更为丰富的表示。

2、本发明通过引入自监督学习,减轻数据标注负担,解决视觉抓取标注昂贵的问题,加快了模型训练。

3、本发明在编码器中使用孪生网络,从输入数据中过滤出冗余信息,同时,通过各种数据增强技术,借助度量学习损失,提取相似抓取对象之间的共性,提升了模型的泛化能力。

4、本发明利用已标注数据对解码器进行微调,从抓取质量图和后续抓取规划生成的抓取位姿推断出最佳抓取候选,从而提升视觉抓取能力。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法子模块M进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

相关技术
  • 基于自监督表示学习的视觉抓取检测方法及系统
  • 一种基于文本的行人检索自监督视觉表示学习系统及方法
技术分类

06120114723928