掌桥专利:专业的专利平台
掌桥专利
首页

抓取点预测模型训练方法、物体抓取点确定方法及装置

文献发布时间:2023-06-19 19:30:30


抓取点预测模型训练方法、物体抓取点确定方法及装置

技术领域

本发明涉及计算机视觉技术领域,尤其涉及一种抓取点预测模型训练方法、物体抓取点确定方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在计算机视觉技术和智能机器人抓取领域,可以通过训练深度神经网络模型,辅助得到抓取点。目前,现有的神经网络训练方案,训练效率有待提高。

发明内容

本申请提供了一种抓取点预测模型训练方法及装置,以至少解决提升模型训练效率的问题。

根据本申请的一方面,提供了一种抓取点预测模型训练方法,包括:获取训练图片;所述训练图片内包括一个或多个物体以及所述物体的二维抓取点位置标注信息;将所述训练图片输入目标神经网络模型的图像特征提取模型,得到图像特征信息;所述目标神经网络模型包括所述图像特征提取模型、所述实例特征生成模型和所述抓取点生成模型;将所述图像特征信息输入所述实例特征生成模型,得到实例特征信息;生成所述实例特征信息的位置参考点信息;将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数;利用所述损失函数调整所述目标神经网络模型,得到抓取点预测模型。

根据本申请的另一方面,提供了一种物体抓取点确定方法,包括:获取目标图片;将所述目标图片输入抓取点预测模型,得到所述目标图片中物体的二维抓取点;其中,所述抓取点预测模型是通过上述的方法训练后得到的。

根据本申请的另一方面,提供了一种抓取点预测模型训练装置,包括:数据模块,用于获取训练图片;所述训练图片内包括一个或多个物体以及所述物体的二维抓取点位置标注信息;图像模块,用于将所述训练图片输入目标神经网络模型的图像特征提取模型,得到图像特征信息;所述目标神经网络模型包括所述图像特征提取模型、所述实例特征生成模型和所述抓取点生成模型;实例模块,用于将所述图像特征信息输入所述实例特征生成模型,得到实例特征信息;参考点模块,用于生成所述实例特征信息的位置参考点信息;抓取点模块,用于将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数;训练模块,用于利用所述损失函数调整所述目标神经网络模型,得到抓取点预测模型。

根据本申请的另一方面,提供了一种物体抓取点确定装置,包括:获取模块,用于获取目标图片;确定模块,用于将所述目标图片输入抓取点预测模型,得到所述目标图片中物体的二维抓取点;其中,所述抓取点预测模型是通过上述的方法训练后得到的。

根据本申请的另一方面,还提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述的方法。

根据本申请的另一个方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述的方法步骤。

在本申请实施例中,利用包括一个或多个物体以及所述物体的二维抓取点位置标注信息的训练图片输入目标神经网络模型的图像特征提取模型,得到图像特征信息,所述目标神经网络模型包括所述图像特征提取模型、实例特征生成模型和抓取点生成模型;将所述图像特征信息输入所述实例特征生成模型,得到实例特征信息;生成所述实例特征信息的位置参考点信息;将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数;利用所述损失函数调整所述目标神经网络模型,得到抓取点预测模型。本发明实施例通过实例特征信息的位置参考点信息,减小抓取点的预测搜索范围,提高抓取点预测模型训练的效率。

附图说明

在下面结合附图对于示例性实施例的描述中,本申请的更多细节、特征和优点被公开,在附图中:

图1示出了根据本申请示例性实施例的抓取点预测模型训练方法的流程图;

图2示出了根据本申请示例性实施例的抓取点预测模型的整体流程示意图;

图3示出了根据本申请示例性实施例的抓取点生成模块示意图;

图4示出了根据本申请示例性实施例的多任务并行训练示意图;

图5示出了能够用于实现本申请的实施例的示例性电子设备的结构框图;

图6示出了根据本申请示例性实施例的抓取点预测模型训练装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。

应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

考虑到现有的抓取点确定方案中,将待处理图像输入深度学习网络,输出图像中实例的分割掩模;得到的掩模进行一系列后处理,提高掩模的准确性;得到的矫正掩模进行形态学的处理,得到2D的抓取点位置,如计算矫正掩模的中心;结合其他信息(如深度,点云等信息),根据2D抓取点位置得到3D抓取点结果。

现有方案中,2D抓取点的计算需要精确的实例分割掩模,所以在通过深度神经网络得到物体的分割掩模之后,需要对掩模结果进行一系列矫正的步骤;2D抓取点的预测依赖于掩模的形状,错误的分割掩模会导致错误的抓取点的预测。

基于此,本申请提供了一种抓取点预测模型训练方法、物体抓取点确定方法及装置,该抓取点预测模型训练方法可以提供模型的训练效率和精度,并且,得到的抓取点预测模型,可以二维输入(RGB图片)准确地获取图像中每个物体的抓取点。对于输入图像中的每一个物体(实例),都为其预测一个对应的2D抓取点,然后通过简单的后处理可以得到3D抓取点。

首先,对涉及的术语进行说明。

抓取点:指在智能机器人抓取系统中,对于某个待抓取物体,在此系统条件下最佳的抓取位置点,或最佳抓取区域的中心点。

深度图:描述空间中的物体到相机距离(深度)信息的一种数据。

点云:描述物体表面上的点在空间中位置(三维坐标)的一种数据。

深度学习网络:基于卷积等结构搭建的一种深度神经网络模型。

NMS(Non-Maximum Suppression,非极大值抑制):一种检测结果后处理方法,根据检测框的得分去除重复检出的结果。

根据本发明实施例的一个方面,提供了一种抓取点预测模型训练方法,图1为本发明实施例提供的抓取点预测模型训练方法的流程图,如图1所示,该方法包括如下步骤:

步骤S202,获取训练图片;所述训练图片内包括一个或多个物体以及所述物体的二维抓取点位置标注信息;

在该步骤中,训练图片可以是RGB(工业界的一种颜色标准)图像。所述训练图片内包括一个或多个物体以及所述物体的二维抓取点位置标注信息,其中,二维抓取点位置标注信息预先标注在训练图片内,每个物体对应一个抓取点位置标注信息。

步骤S204,将所述训练图片输入目标神经网络模型的图像特征提取模型,得到图像特征信息;所述目标神经网络模型包括所述图像特征提取模型、实例特征生成模型和抓取点生成模型;

在该步骤中,将训练图片输入目标神经网络模型的第一个模型,即图像特征提取模型中,得到图像特征信息。目标神经网络模型包括所述图像特征提取模型、实例特征生成模型和抓取点生成模型,图像特征提取模型的输出作为实例特征生成模型的输入,实例特征生成模型的输出作为抓取点生成模型的输入。

需要说明的是,图像特征提取模型可以是任意的深度神经网络结构。一般而言,在效率要求不高的应用场景下,图像特征提取模型使用计算量较大的网络模型,从而获得更高的精度。而在效率要求比较高的场景下,图像特征提取模型使用计算量较小的网络的模型,使得整体方案的效率更高,但是会略微损失预测的精度。可以根据实际应用对效率以及精度的要求来确定使用的具体结构,本发明实施例对此不作具体限定。

步骤S206,将所述图像特征信息输入所述实例特征生成模型,得到实例特征信息;

在该步骤中,将图像特征信息作为实例特征生成模型的输入,实例特征生成模型会识别图像中的实例,并且输出每个实例对应的特征。

在一种可选的实施方式中,在实例特征生成模型中,首先将图像特征信息输入深度学习网络,得到特征图上每个点的得分,即当前点存在物体的概率。根据此得分选择得分最高的K个特征,对于这些结果预测其对应的检测框和得分,然后经过NMS后处理得到最终的M个结果(M<=K),根据此结果从K个特征中选择M个特征,作为实例特征生成模块的输出。

步骤S208,生成所述实例特征信息的位置参考点信息;

在该步骤中,位置参考点是指某种能够反映实例位置特征的某个点,这个参考点既可以是某些可以直接获取的值,也可以是基于实例特征信息进行计算得到的值。

直接在全图范围内预测一个抓取点的位置,预测结果的搜索范围较大,很难获得一个较为准确的抓取点位置。考虑到实例的二维抓取点必定在实例的表面上,所以可以通过先确定一个与实例相关的参考点,从而减小抓取点的预测搜索空间。

步骤S210,将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数;

在该步骤中,基于每个实例的特征,抓取点生成模型会输出物体的2D抓取点坐标(x,y),即2D抓取点在RGB图像中的位置。对于每个实例特征,都会经过抓取点生成模型预测其抓取点。利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数。

步骤S212,利用所述损失函数调整所述目标神经网络模型,得到抓取点预测模型。

在该步骤中,通过最小化损失函数来调整目标神经网络的参数,得到抓取点预测模型。利用该抓取点预测模型,可以从RGB图像直接输出实例2D抓取点,没有额外的处理步骤,整体方案更加高效和简洁。

在本申请实施例中,利用包括一个或多个物体以及所述物体的二维抓取点位置标注信息的训练图片输入目标神经网络模型的图像特征提取模型,得到图像特征信息,所述目标神经网络模型包括所述图像特征提取模型、实例特征生成模型和抓取点生成模型;将所述图像特征信息输入所述实例特征生成模型,得到实例特征信息;生成所述实例特征信息的位置参考点信息;将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数;利用所述损失函数调整所述目标神经网络模型,得到抓取点预测模型。本发明实施例通过实例特征信息的位置参考点信息,减小抓取点的预测搜索范围,提高抓取点预测模型训练的效率。

考虑到深度学习网络的训练需要一定量的数据来支撑,所以在此方案中提出了一种2D(二维)抓取点的标定方法。在一种可选的实施方式中,获取训练图片,可以按照如下步骤执行:

获取RGB图片和所述RGB图片对应的深度图数据,利用所述RGB图片和所述深度图数据生成所述RGB图片的第一点云数据;获取标定指令,根据所述标定指令生成所述RGB图片中物体的分割掩模,利用所述分割掩模和所述第一点云数据确定所述物体的第二点云数据;接收抓取点生成指令,根据所述抓取点生成指令和所述第二点云数据确定所述物体的三维抓取点,根据所述三维抓取点在所述RGB图片标注所述物体的二维抓取点位置,得到训练图片。

在该可选的实施方式中,标定指令可以人工控制发出,利用标定指令可以确定分割掩模的位置和形状等属性。抓取点生成指令可以根据实际需求由人工控制发出,或者在预先设置的指令中选定。利用上述步骤标定一批RGB图片,从而获得带有物体抓取点标注的训练图片。

在具体实施时,例如,首先基于RGBD相机可以获得一批RGBD数据,即RGB图片和对应的深度图数据。根据RGB图像和深度数据可以获得对应的点云数据。接下来对RGB图片进行实例的标定,可以通过人工标定获得图片中每个实例对应的分割掩模。结合RGB图像中的实例分割掩模和点云信息,可以得到对应实例的点云,即知道其在3D空间中的信息。根据当前抓取系统的偏好,指定抓取点的生成策略,进而生成每个实例对应的3D抓取点。例如,对于某些长方体的物体,指定其上表面的中心为抓取点,而通过此物体的点云信息,可以获得此物体的上表面的中心(3D位置),然后将其映射到RGB图像上,就可以得到当前实例在RGB图像中的2D抓取点。

基于RGBD信息,计算物体的3D抓取点并投影到2D图像中,对RGB图像中的2D抓取点进行标注,从而实现了用深度学习网络直接对2D抓取点进行预测的数据准备。生成大量的有2D抓取点真值的带标签数据,大量的数据是深度学习网络训练的基础,从而可以有效的训练2D抓取点的预测,以及其他和2D抓取点相关的功能。

在一种可选的实施方式中,生成所述实例特征信息的位置参考点信息,可以按照如下步骤执行:接收参考点生成指令,利用所述参考点生成指令和所述实例特征信息确定参考点信息;所述参考点生成指令基于所述实例特征信息的特征位置确定。

在该可选的实施方式中,位置参考点可以是实例特征的特征位置,如实例特征在特征图上对应的坐标位置(x,y),是可以直接获取的值。

在一种可选的实施方式中,生成所述实例特征信息的位置参考点信息,可以按照如下步骤执行:利用参考点生成模型生成参考点信息;所述参考点生成模型通过训练数据对卷积网络训练得到;所述训练数据中包括参考点位置信息。

在该可选的实施方式中,位置参考点可以是实例对应的检测框的中心点,或者是实例掩模的形心等等,可通过预测得到。采用网络预测位置参考点,需要在实例特征生成模型后额外增加一个参考点生成模型,参见图3所示的抓取点生成模块示意图,图中参考点生成子模块,用于执行参考点生成模型涉及的数据计算。此模型可以由简单的几层卷积网络构成,且其输出需要用训练数据的参考点位置(如检测框中心)进行监督。

在一种可选的实施方式中,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数,可以按照如下步骤执行:

利用所述预测抓取点信息和所述参考点信息生成偏移预测结果;利用所述二维抓取点位置标注信息和所述参考点信息生成偏移参考结果;根据所述偏移参考结果和所述偏移预测结果生成损失函数。

在该可选的实施方式中,对预测抓取点信息和参考点信息作差可以得到偏移预测结果,对二维抓取点位置标注信息和参考点信息作差可以得到偏移参考结果。对偏移参考结果和所述偏移预测结果作差,基于该差值确定损失函数。

在具体实施时,可以根据每个实例的特征输出2D抓取点相对于参考点的偏移。使用前期准备的带有实例对应2D抓取点标注的数据作为监督信号,对抓取点生成模块的输出进行监督。在网络训练时,用标定的2D抓取点位置和参考点位置相减,就可以得到相对参考点偏移的真值,利用此真值训练整个抓取点预测模型的参数。假设网络输出的偏移预测为d,而根据标定数据计算得到的偏移为D,则抓取点的损失函数为预测值和真值的L1距离,即,损失函数可以是L

在一种可选的实施方式中,所述目标神经网络模型还包括掩模生成模型和检测框生成模型;得到实例特征信息之后,还可以执行如下步骤:

将所述实例特征信息输入所述掩模生成模型,得到预测掩模信息;将所述实例特征信息输入所述检测框生成模型,得到预测检测框信息;利用所述预测掩模信息、所述预测检测框信息和所述损失函数生成第二损失函数;利用所述第二损失函数调整所述目标神经网络模型,得到第二抓取点预测模型。

在该可选的实施方式中,目标神经网络模型还包括掩模生成模型和检测框生成模型,在得到实例特征信息之后,可以利用抓取点生成模型、掩模生成模型和检测框生成模型并行计算,参见图4所示的多任务并行训练示意图,图中抓取点生成模块可以用于执行抓取点生成模型的数据计算,掩模生成模块可以用于执行掩模生成模型的数据计算,检测框生成模块可以用于执行检测框生成模型的数据计算。之后,利用得到的预测掩模信息、预测检测框信息、预测抓取点信息、二维抓取点位置标注信息和位置参考点信息生成第二损失函数。其中,可以利用预测抓取点信息、二维抓取点位置标注信息和位置参考点信息按照上述步骤生成损失函数,基于预测掩模信息和预测检测框信息分别生成掩模生成模型和检测框生成模型的损失函数,将得到的三个损失函数进行组合,得到第二损失函数。

需要说明的是,除抓取点生成模型、掩模生成模型和检测框生成模型之外,目标神经网络模型还可以包括更多其它的并行模型。并行预测不仅保证了各个预测值之间的独立性,且能使用多任务的监督信号。例如,对于同一个实例特征而言,可以同时受到抓取点,分割掩模,检测框等监督信号的监督,所以此实例特征会获得多次的,各有侧重的信息的指导(如检测框侧重实例的位置信息,分割掩模侧重实例的形状信息,而抓取点两者都需要考虑),从而训练完成后能够获得更好的实例特征表示,有效提升整体模型的预测精度。多任务并行训练时,总体网络的损失函数是所有任务的损失函数的加权和,具体权重取决于其他任务采用的损失函数具体形式,即

在具体实施时,以预测抓取点,分割掩模,检测框三种任务的多任务并行训练为例,若抓取点损失函数使用上述的L1损失函数,分割掩模损失函数使用常用的Dice Loss,检测框损失函数为常用的IoU Loss,则三种损失函数的权重分别为0.5,3和1。即L=0.5*L

在机器人抓取系统中,可能受到实际情况的制约,特殊情况下某些理论的最优抓取点并非实际的最优抓取点。因此,此抓取点预测模型可以扩展到多个抓取点的预测,即对于每个实例预测,预测不止一个抓取点。在一种可选的实施方式中,将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数,可以按照如下步骤执行:

将所述实例特征信息多次输入所述抓取点生成模型,得到多组预测抓取点信息;利用所述参考点信息和所述多组预测抓取点信息生成多组偏移预测结果;利用所述二维抓取点位置标注信息和所述参考点信息生成偏移参考结果;根据所述偏移参考结果和所述多组偏移预测结果生成损失函数。

在该可选的实施方式中,通过增加多组偏移的预测,就可以实现对于同个实例预测多个抓取点的功能。在得到多组预测抓取点信息之后,利用该多组预测抓取点信息得到多组偏移预测结果,对每个偏移预测结果与偏移参考结果生成一个损失函数,从而基于多个损失函数来调整目标神经网络模型的参数,以便可以得到根据图像信息输出多个备选的抓取点。

基于抓取点预测模型,2D抓取的点的预测不需要任务中间变量的结果,抓取点的预测更加独立,且更容易扩展到多个抓取点的预测。

本发明实施例还提供了一种抓取点预测模型训练方法,该方法可以提供抓取点预测模型的训练效率和精度。

根据本发明实施例的另一个方面,还提供了一种物体抓取点确定方法,该方法包括:获取目标图片;将所述目标图片输入抓取点预测模型,得到所述目标图片中物体的二维抓取点;其中,所述抓取点预测模型是通过上述任一种抓取点预测模型训练方法训练后得到的。

在本发明实施例中,参见图2所示的抓取点预测模型的整体流程示意图,图中,图像特征提取模块,可以用于执行图像特征提取模型的数据计算,实例特征生成模块,可以用于执行实例特征生成模型的数据计算,抓取点生成模块,可以用于执行抓取点生成模型的数据计算。利用抓取点预测模型进行预测,输入一幅RGB图像就可以直接输出图像中所有物体的二维抓取点。一张图片可能存在多个物体,网络也会同时输出多个抓取点,每个物体对应一个自己的抓取点位置。

2D抓取点预测的流程可以用成熟优化的深度学习网络结构实现,提高了2D抓取点预测的速度,从而提升了抓取系统的效率。同时,此方案中的抓取点不需要先生成分割掩模,再根据分割掩模计算抓取点。抓取点的预测仅和输入图像有关,步骤更加直接和简洁,并不依赖于实例分割掩模等中间量的结果,减小了错误的中间量结果对2D抓取点预测准确性的影响,提高了2D抓取点预测的正确性。

在一种可选的实施方式中,该方法还可以执行如下步骤:

获取所述目标图片中物体的空间位置信息;利用所述空间位置信息,在所述目标图片中同一物体的多个二维抓取点中确定目标二维抓取点。

在该可选的实施方式中,空间位置信息可以是通过结合其他传感器如双目红外相机等,获得实例的高度,距抓取放置目的地的距离等其他维度的信息。结合这些额外信息和多个抓取点的位置,决定在此抓取系统和场景下的最佳抓取点,即目标二维抓取点。

在一种可选的实施方式中,该方法还可以执行如下步骤:

根据所述二维抓取点和所述目标图片的点云信息生成所述目标图片中物体的三维抓取点。

在该可选的实施方式中,在得到物体的2D抓取点之后,结合RGB图像的深度(或点云)信息,就可以直接获得物体的3D抓取点。机械臂或抓取系统可以根据3D抓取点对物体进行实际抓取。

根据本发明实施例的另一个方面,还提供了一种抓取点预测模型训练装置,图6为本发明实施例提供的抓取点预测模型训练装置的示意图,如图6所示,该抓取点预测模型训练装置包括:包括:数据模块61、图像模块62、实例模块63、参考点模块64、抓取点模块65和训练模块66。下面对该数据分析装置进行详细说明。

数据模块61,用于获取训练图片;所述训练图片内包括一个或多个物体以及所述物体的二维抓取点位置标注信息;图像模块62,用于将所述训练图片输入目标神经网络模型的图像特征提取模型,得到图像特征信息;所述目标神经网络模型包括所述图像特征提取模型、所述实例特征生成模型和所述抓取点生成模型;实例模块63,用于将所述图像特征信息输入所述实例特征生成模型,得到实例特征信息;参考点模块64,用于生成所述实例特征信息的位置参考点信息;抓取点模块65,用于将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数;训练模块66,用于利用所述损失函数调整所述目标神经网络模型,得到抓取点预测模型。

此处需要说明的是,上述数据模块61、图像模块62、实例模块63、参考点模块64、抓取点模块65和训练模块66对应于方法实施例中的步骤S102至S112,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。

在一种可选的实施方式中,获取训练图片,包括:获取RGB图片和所述RGB图片对应的深度图数据,利用所述RGB图片和所述深度图数据生成所述RGB图片的第一点云数据;获取标定指令,根据所述标定指令生成所述RGB图片中物体的分割掩模,利用所述分割掩模和所述第一点云数据确定所述物体的第二点云数据;接收抓取点生成指令,根据所述抓取点生成指令和所述第二点云数据确定所述物体的三维抓取点,根据所述三维抓取点在所述RGB图片标注所述物体的二维抓取点位置,得到训练图片。

在一种可选的实施方式中,生成所述实例特征信息的位置参考点信息,包括:接收参考点生成指令,利用所述参考点生成指令和所述实例特征信息确定参考点信息;所述参考点生成指令基于所述实例特征信息的特征位置确定。

在一种可选的实施方式中,生成所述实例特征信息的位置参考点信息,包括:利用参考点生成模型生成参考点信息;所述参考点生成模型通过训练数据对卷积网络训练得到;所述训练数据中包括参考点位置信息。

在一种可选的实施方式中,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数,包括:利用所述预测抓取点信息和所述参考点信息生成偏移预测结果;利用所述二维抓取点位置标注信息和所述参考点信息生成偏移参考结果;根据所述偏移参考结果和所述偏移预测结果生成损失函数。

在一种可选的实施方式中,所述目标神经网络模型还包括掩模生成模型和检测框生成模型;得到实例特征信息之后,还包括:将所述实例特征信息输入所述掩模生成模型,得到预测掩模信息;将所述实例特征信息输入所述检测框生成模型,得到预测检测框信息;利用所述预测掩模信息、所述预测检测框信息和所述损失函数生成第二损失函数;利用所述第二损失函数调整所述目标神经网络模型,得到第二抓取点预测模型。

在一种可选的实施方式中,将所述实例特征信息输入所述抓取点生成模型,得到预测抓取点信息,利用所述预测抓取点信息、所述二维抓取点位置标注信息和所述位置参考点信息生成损失函数,包括:将所述实例特征信息多次输入所述抓取点生成模型,得到多组预测抓取点信息;利用所述参考点信息和所述多组预测抓取点信息生成多组偏移预测结果;利用所述二维抓取点位置标注信息和所述参考点信息生成偏移参考结果;根据所述偏移参考结果和所述多组偏移预测结果生成损失函数。

根据本发明实施例的另一个方面,还提供了一种物体抓取点确定装置,包括:获取模块,用于获取目标图片;确定模块,用于将所述目标图片输入抓取点预测模型,得到所述目标图片中物体的二维抓取点;其中,所述抓取点预测模型是通过上述的抓取点预测模型训练方法训练后得到的。

在一种可选的实施方式中,该装置还包括:计算模块,用于获取所述目标图片中物体的空间位置信息;利用所述空间位置信息,在所述目标图片中同一物体的多个二维抓取点中确定目标二维抓取点。

在一种可选的实施方式中,该装置还包括:三维模块,用于根据所述二维抓取点和所述目标图片的点云信息生成所述目标图片中物体的三维抓取点。

本申请示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。

本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

参考图5,现将描述可以作为本申请的服务器或客户端的电子设备500的结构框图,其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505,包括:输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备,输入单元506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元508可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,上述抓取点预测模型训练方法或物体抓取点确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述抓取点预测模型训练方法或物体抓取点确定方法。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器));以及键盘和指向装置(例如,鼠标),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

相关技术
  • 一种机器人机械臂抓取物体的抓取点自动定位方法
  • 一种物体抓取方法、装置和系统
  • 一种任意形状物体的抓取点确定方法
  • 基于单目视觉的机器人稳定抓取物体的抓取点获取方法
技术分类

06120115931716