掌桥专利:专业的专利平台
掌桥专利
首页

基于主动感知与交互操作协同的机器人目标搜索方法及机器人仿真平台

文献发布时间:2023-06-19 18:37:28


基于主动感知与交互操作协同的机器人目标搜索方法及机器人仿真平台

技术领域

本发明属于机器人感知交互技术领域,具体涉及一种基于主动感知与交互操作协同的机器人目标搜索方法及机器人仿真平台。

背景技术

目前在智能机器人研究方面,深度学习技术的兴起使机器人对环境的感知与理解达到了前所未有的新高度,智能机器人利用高层次的计算机视觉模型可对场景进行语义和像素级别的解析,视觉、触觉、听觉等多模态数据的融合更进一步提升了机器人的感知能力,使机器人进行视听导航、灵巧操作、人机交互等复杂的感知操作任务时有良好的表现。同样,基于深度强化学习技术,机器人操作技能的学习方面也取得了极大进展,机器人在桌面整理、零件抓取装配等操作任务中有较好的性能提升。

尽管深度学习或者深度强化学习使机器人的感知能力与交互操作能力获得了提升,但当机器人面对复杂非结构化的环境时,不同种类的物体互相堆叠遮挡会严重影响机器人的感知精度。机器人会因为单一固定视角的限制(多个目标互相遮挡导致无法识别目标、多个相似物体产生歧义或单一视角无法观测全部场景)很难完成对目标的检测识别、6D姿态估计及后续的感知操作任务。利用机器人主动视觉中的视角规划策略,可以突破单一固定视角的限制,通过控制视觉传感器运动或者主动调整视觉传感器位姿,可提高复杂环境下的目标可见性,提升对目标检测识别的准确率,引导机器人的后续操作。但如何根据任务环境、硬件设施、传感器自身设置及规划策略提高机器人主动视角规划的质量与效率,是目前亟待解决的技术难题。

在复杂的桌面操作场景中目标往往被堆叠掩藏导致目标不可见,因此仅依靠视角规划并不足以完成任务,非结构化的场景中机器人如何通过环境交互操作解耦空间对的关系从而暴露目标也是技术难题。深度强化学习将深度学习的感知能力与强化学习的决策能力相结合,可以直接根据输入信息控制机器人的行为,赋予了机器人接近人类的思维方式,是机器人获得操作技能的重要方法。机器人的抓取策略目前已有大量的研究工作,但仅依赖抓取一种动作基元对复杂环境的适应能力较差,物体堆叠遮挡的场景往往没有足够的空间供机器人执行抓取操作。其次,复杂的操作环境中,抓取目标的成功率并不高,而现有的方法并没有考虑到机器人如何根据场景动态变化选择最优的抓取点。

综上所述,现有的技术仅做到机器人主动感知结合单一抓取动作基元或者固定视角下进行多动作基元交互操作,孤立了主动感知与交互操作的过程,忽视了感知与交互操作过程之间的信息交互与反馈。

发明内容

本发明的目的之一在于提供一种基于主动感知与交互操作协同的机器人目标搜索方法,协同主动感知与交互操作,环境适应性强,抓取成功率高。

为实现上述目的,本发明所采取的技术方案为:

一种基于主动感知与交互操作协同的机器人目标搜索方法,该机器人具有可操作的机械臂,并且所述机械臂上安装有腕部相机,所述基于主动感知与交互操作协同的机器人目标搜索方法,包括:

步骤1、通过机器人的腕部相机获取场景图像;

步骤2、基于主动视角规划策略调整机器人腕部相机的位姿,直至视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值后进入下一步;

步骤3、基于交互操作策略控制机器人的机械臂执行平推或抓取操作,在机械臂执行平推操作后返回步骤1;或者,在机械臂执行抓取操作且抓取目标物体失败后返回步骤1;或者,在机械臂执行抓取操作且成功抓取目标物体后结束。

以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。

作为优选,所述基于主动视角规划策略调整机器人腕部相机的位姿,直至视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值后进入下一步,包括:

利用目标分割网络处理所述场景图像分割出场景中各物体的分割掩膜以及对应类别;

判断分割出的各物体中是否包含目标物体,若包含目标物体则进入下一小步骤;否则执行步骤3;

将分割出的分割掩膜成对输入部分补全网络得到目标物体的完整掩膜;

根据目标物体的完整掩膜及分割得到的分割掩膜计算目标物体的遮挡比例;

若视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值,则执行步骤3;否则将目标分割网络的中间层特征以及机器人当前的腕部相机的位姿输入机械臂主动视角规划算法,将机械臂主动视角规划算法的输出发送给机器人用以调整机器人机械臂的腕部相机的姿态,并返回步骤1。

作为优选,通过自监督学习的方式训练所述部分补全网络,具体训练过程如下:

生成随机掩膜;

利用随机掩膜随机遮挡目标可见掩膜得到遮挡掩膜;

将遮挡掩膜与随机掩膜成对输入部分补全网络,得到部分补全网络预测输出的目标完整掩膜;

根据目标完整掩膜以及目标可见掩膜计算损失函数并更新网络参数;

持续训练直至达到训练结束条件。

作为优选,所述基于交互操作策略控制机器人的机械臂执行平推或抓取操作,包括:

取腕部相机获取的场景图像,所述场景图像为RGB-D图像;

利用目标分割网络处理所述RGB-D图像分割出场景中各物体的分割掩膜以及对应类别;

将RGB-D图像转化为三维空间中的点云信息;

基于点云信息沿重力的反方向进行正交投影获得RGB、Depth的高度图,基于点云信息以及分割掩膜沿重力的反方向进行正交投影获得掩膜的高度图;

对RGB、Depth和掩膜的高度图进行拼接并经过仿射变换旋转后输入交互操作策略网络,将交互操作策略网络的输出发送给机器人,供机器人根据动作价值最大值索引对应的动作基元、动作位置及动作方向控制机械臂动作,所述动作基元为平推或抓取操作。

作为优选,所述交互操作策略网络包括两个分支,第一个分支为抓取操作分支,包含DenseNet121网络以及GraspNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入GraspNet网络,再由GraspNet网络根据图像特征输出抓取动作的动作价值图;

第二个分支为平推操作分支,包含DenseNet121网络以及PushNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入PushNet网络,再由PushNet网络根据图像特征输出平推动作的动作价值图;

所述交互操作策略网络在两个分支后用Argmax函数根据抓取动作的动作价值图和平推动作的动作价值图,得出动作价值最大值索引对应的动作基元、动作位置及动作方向。

本发明提供的基于主动感知与交互操作协同的机器人目标搜索方法,机器人主动感知部分可根据机械臂腕部相机对当前视角下的场景物体进行分割识别,推测堆叠遮挡关系计算目标物体的遮挡比例并自主调整腕部相机的位姿,优化对目标物体的观测视角。交互操作策略在优化后的观测视角下,选择最优的机械臂平推与抓取动作的组合,分离场景中堆叠物体减小场景复杂度从而暴露目标物体,提高机械臂抓取成功率,最终完成复杂场景下的目标搜索任务。本发明提出的基于主动感知与交互操作协同的机器人目标搜索系统及方法,相比于现有技术,经实验验证,显著提升复杂场景下的机器人感知精度与操作效率,环境适应性强,抓取成功率高。

本发明的目的之二在于提供一种机器人仿真平台,搭载优质算法,提高仿真输出机器人的环境适应性和抓取成功率。

为实现上述目的,本发明所采取的技术方案为:

一种机器人仿真平台,所述机器人为机器人模型或实际机器人,所述机器人具有可操作的机械臂,并且所述机械臂上安装有腕部相机,所述机器人仿真平台包括算法仿真模块,所述算法仿真模块运行预存算法执行如下操作:

步骤1、通过机器人的腕部相机获取场景图像;

步骤2、基于主动视角规划策略调整机器人腕部相机的位姿,直至视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值后进入下一步;

步骤3、基于交互操作策略控制机器人的机械臂执行平推或抓取操作,在机械臂执行平推操作后返回步骤1;或者,在机械臂执行抓取操作且抓取目标物体失败后返回步骤1;或者,在机械臂执行抓取操作且成功抓取目标物体后结束。

作为优选,所述基于主动视角规划策略调整机器人腕部相机的位姿,直至视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值后进入下一步,包括:

利用目标分割网络处理所述场景图像分割出场景中各物体的分割掩膜以及对应类别;

判断分割出的各物体中是否包含目标物体,若包含目标物体则进入下一小步骤;否则执行步骤3;

将分割出的分割掩膜成对输入部分补全网络得到目标物体的完整掩膜;

根据目标物体的完整掩膜及分割得到的分割掩膜计算目标物体的遮挡比例;

若视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值,则执行步骤3;否则将目标分割网络的中间层特征以及机器人当前的腕部相机的位姿输入机械臂主动视角规划算法,将机械臂主动视角规划算法的输出发送给机器人用以调整机器人机械臂的腕部相机的姿态,并返回步骤1。

作为优选,通过自监督学习的方式训练所述部分补全网络,具体训练过程如下:

生成随机掩膜;

利用随机掩膜随机遮挡目标可见掩膜得到遮挡掩膜;

将遮挡掩膜与随机掩膜成对输入部分补全网络,得到部分补全网络预测输出的目标完整掩膜;

根据目标完整掩膜以及目标可见掩膜计算损失函数并更新网络参数;

持续训练直至达到训练结束条件。

作为优选,所述基于交互操作策略控制机器人的机械臂执行平推或抓取操作,包括:

取腕部相机获取的场景图像,所述场景图像为RGB-D图像;

利用目标分割网络处理所述RGB-D图像分割出场景中各物体的分割掩膜以及对应类别;

将RGB-D图像转化为三维空间中的点云信息;

基于点云信息沿重力的反方向进行正交投影获得RGB、Depth的高度图,基于点云信息以及分割掩膜沿重力的反方向进行正交投影获得掩膜的高度图;

对RGB、Depth和掩膜的高度图拼接并经过进行仿射变换旋转后输入交互操作策略网络,将交互操作策略网络的输出发送给机器人,供机器人根据动作价值最大值索引对应的动作基元、动作位置及动作方向控制机械臂动作,所述动作基元为平推或抓取操作。

作为优选,所述交互操作策略网络包括两个分支,第一个分支为抓取操作分支,包含DenseNet121网络以及GraspNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入GraspNet网络,再由GraspNet网络根据图像特征输出抓取动作的动作价值图;

第二个分支为平推操作分支,包含DenseNet121网络以及PushNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入PushNet网络,再由PushNet网络根据图像特征输出平推动作的动作价值图;

所述交互操作策略网络在两个分支后用Argmax函数根据抓取动作的动作价值图和平推动作的动作价值图,得出动作价值最大值索引对应的动作基元、动作位置及动作方向。

附图说明

图1为本发明的基于主动感知与交互操作协同的机器人目标搜索方法的流程图;

图2为本发明主动视角规划策略的流程图;

图3为本发明部分补全网络的训练流程图;

图4为本发明部分补全网络的应用流程图;

图5为本发明交互操作策略的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。

目前,智能机器人在目标搜索任务中的主动感知过程存在对目标的分割识别精度低、缺乏复杂场景下的场景理解能力以及在视角规划控制机器人调整位姿时效率较低等技术问题。此外,现有智能机器人在与环境的交互过程中,往往采用单一的抓取动作基元,在复杂环境中抓取成功率低、适应性差。

针对以上问题,本实施例提出了主动感知与交互操作协同的机器人目标搜索方法。其中机器人具有可操作的机械臂,并且机械臂上安装有腕部相机。容易理解的是,本实施例涉及的机器人本身为现有结构,其通常包含底座、机械臂、腕部相机和动力机构等基础部件,本实施例基于机械臂以及腕部相机实施,并不限定机器人仅包含机械臂以及腕部相机。

如图1所示,本实施例的一种基于主动感知与交互操作协同的机器人目标搜索方法,包括以下步骤:

步骤1、通过机器人的腕部相机获取场景图像。

根据目标搜索需要,本实施例中的腕部相机采用RGB-D深度相机,用以获取RGB-D图像。在其他实施例中,也可以根据实际需求调整相机类型。

步骤2、基于主动视角规划策略调整机器人腕部相机的位姿,直至视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值后进入下一步。

如图2所示,机器人的主动视角规划策略以场景去遮挡提高目标物体视觉可见性为核心,实现机器人的主动感知,可分为三部分:利用RGB-D图像进行多模态数据融合的目标分割;基于部分掩模补全的目标视觉去遮挡;基于深度强化学习的机械臂主动视角规划,各部分对应步骤如下。

步骤2-1、利用目标分割网络处理场景图像分割出场景中各物体的分割掩膜以及对应类别。

目标分割网络主要在目标分割网络RefineNet中加入特征通道交换模块,通道由神经网络中批标准化层的缩放因子度量特征通道重要性,根据批标准化层的缩放系数对特征通道进行动态调整。该目标分割网络利用机械臂腕部相机所采集的RGB-D图像,实现多模态数据融合,提升复杂环境下对目标物体的分割识别精度。

需要说明的是,本实施例采用的目标分割网络为现有网络结构,例如文献“WangY,Huang W,Sun F,et al.Deep multimodal fusion by channel exchanging[C].Advances in Neural Information Processing Systems,2020,4835-4845”中公开的内容。在其他实施例中,还可以采用类似的多模态数据融合方式进行目标物体的分割,例如Segnet、CRFasRNN、PSPNet等目标分割网络。

步骤2-2、判断分割出的各物体中是否包含目标物体,若包含目标物体则进入下一小步骤,即步骤2-3;否则执行步骤3;

在未发现目标物体时,本实施例直接通过机械臂的平推或者抓取动作移除干扰物体,提高后续主动视角规划质量与效率。

步骤2-3、将分割出的分割掩膜成对输入部分补全网络得到目标物体的完整掩膜。

视觉去遮挡中主要使用部分掩模补全方法赋予智能机器人场景理解能力。视觉去遮挡首先通过自监督学习的方式训练部分补全网络来推测场景中物体之间的空间堆叠遮挡关系,并根据物体之间的空间堆叠遮挡关系逐步补全目标物体的完整掩模,完成补全后即可计算目标物体基于视觉的遮挡比例。遮挡比例不仅可度量机械臂腕部相机观测视角的质量而且可作为机械臂主动视角规划算法中的奖励函数。

如图3所示,本实施例通过自监督学习的方式训练部分补全网络,具体训练过程如下:生成随机掩膜;利用随机掩膜随机遮挡目标可见掩膜得到遮挡掩膜;将遮挡掩膜与随机掩膜成对输入部分补全网络,得到部分补全网络预测输出的目标完整掩膜;根据目标完整掩膜以及目标可见掩膜计算损失函数并更新网络参数;持续训练直至达到训练结束条件。

本实施例利用随机掩膜随机遮挡目标可见掩膜来生成各式各样的遮挡掩膜,该训练方法既可避免训练数据采集困难的问题,又保证了训练数据的多样性,从而提高对部分补全网络的训练效果。本实施例优选取PCNet-M网络作为部分补全网络,在其他实施例中可根据实际需求进行调整。

如图4所示,本实施例在预测目标物体的完整掩膜时,将目标分割网络输出的各物体的分割掩膜以轮询配对的方式组成成对的分割掩膜,并将成对的分割掩膜依次输入PCNet-M网络,由PCNet-M网络预测成对掩膜遮挡关系,进而得到场景遮挡关系图,根据场景遮挡关系图进行目标物体的完整掩膜的补全,得到目标完整掩膜用于计算目标物体的遮挡比例。

步骤2-4、根据目标物体的完整掩膜及分割得到的分割掩膜计算目标物体的遮挡比例。

在得到目标物体的完整掩膜后,即可根据目标物体的分割掩膜计算其遮挡比例,计算方式可以是完整掩膜对应面积减去分割掩膜对应面积得到遮挡掩膜,将遮挡掩膜与完整掩膜的比例作为遮挡比例。在其他实施例中,计算遮挡比例时还可以加入其他参数,例如比例系数等,本实施例中不进行限制。

步骤2-5、若视角规划执行步数到达限制或目标物体的遮挡比例小于阈值,则执行步骤3;否则将目标分割网络的中间层特征以及机器人当前的腕部相机的位姿输入机械臂主动视角规划算法,将机械臂主动视角规划算法的输出发送给机器人用以调整机器人机械臂的腕部相机的姿态,并返回步骤1。

机械臂主动视角规划算法基于深度强化学习框架,本实施例中利用软演员评论家(Soft-Actor-Critic,SAC)算法,调整目标为暴露目标物体,即向减小目标物体的遮挡比例的方向进行优化调整。机械臂主动视角规划算法以当前视角下目标分割网络中间层的高维图像特征信息与腕部相机位姿信息作为状态输入,在优化动作策略函数获取高奖励值时也会最大化动作策略的熵值,保证机械臂动作策略有更强的探索能力。

需要说明的是,本实施例中为了降低计算压力,取目标分割网络中间层的高维图像特征信息进行计算,即取目标分割网络的中间某一层输出的维度较小的特征,对于具体取哪一层本实施例中不进行限制,根据实际设备计算能力进行选取即可。并且基于深度强化学习框架,可以采用不同的强化学习算法,根据场景感知信息实时控制机械臂末端姿态来调整腕部相机视角寻找目标。

其中视角规划执行步数指的是机器人机械臂在视角调整中所执行的步数,为了防止在目标物体遮挡比例一直较大时机器人陷入视角调整循环中,本实施例预先设置了极限调整步数,当视角规划执行步数到达限制,即结束本次视角调整,避免计算资源浪费。本实施例优选设置目标物体的遮挡比例的设定阈值为40%,在其他实施例中,可以根据实际需求进行调整。

步骤3、基于交互操作策略控制机器人的机械臂执行平推或抓取操作,在机械臂执行平推操作后返回步骤1;或者,在机械臂执行抓取操作且抓取目标物体失败后返回步骤1;或者,在机械臂执行抓取操作且成功抓取目标物体后结束。

基于深度强化学习框架,本实施例以多动作基元组合交互操作解耦空间堆叠关系为核心提出机械臂的交互操作策略。多动作基元组合的优势在于:首先机械臂末端夹爪执行平推动作对物体重新排布,暴露出被大面积堆叠遮挡的目标物体,同时为后续机械臂抓取提供可操作空间;其次,机械臂执行抓取动作可直接移除场景中的其他物体,减小场景中堆叠的复杂度。

本实施例使机器人可学习环境堆叠状态与平推抓取动作基元之间的潜在映射关系表征,自主与环境交互获得高额动作奖励,不断优化动作基元之间的协同策略,实现对复杂场景下的目标抓取。

容易理解的是,本实施例中的多动作基元组合以平推和抓取为例进行说明,在其他实施例中,根据机器人操作场景需要可以进行替换,例如替换为吸取与抓取、平推与吸取等。

如图5所示,机器人腕部相机采集场景中的RGB-D图像作为交互操作策略的原始输入,后续对RGB与Depth进行图像融合完成场景物体的分割掩模识别,其次RGB-D信息转化为三维空间中的点云信息。点云数据以及分割掩膜沿重力的反方向进行正交投影获取RGB、Depth及掩模的高度图以此表征环境的状态信息。最后,三种高度图进行拼接后并进行仿射变换旋转16次输入交互操作策略网络学习状态与机械臂动作之间的对应关系。机械臂根据交互操作策略网络输出的动作价值最大值索引对应的动作基元、动作位置及动作方向动作。具体步骤如下:

步骤3-1、取腕部相机获取的场景图像,场景图像为RGB-D图像。

步骤3-2、利用目标分割网络处理RGB-D图像分割出场景中各物体的分割掩膜以及对应类别。此处应用的目标分割网络可以与步骤2-1中的目标分割网络相同,以达到资源重复利用的目的,当然也可以根据需求进行调整,本实施例中不做限制。

步骤3-3、将RGB-D图像转化为三维空间中的点云信息。

步骤3-4、基于点云信息沿重力的反方向进行正交投影获得RGB、Depth的高度图,基于点云信息以及分割掩膜沿重力的反方向进行正交投影获得掩膜的高度图。

步骤3-5、对RGB、Depth和掩膜的高度图进行拼接并经过仿射变换旋转后输入交互操作策略网络,将交互操作策略网络的输出发送给机器人,供机器人根据动作价值最大值索引对应的动作基元、动作位置及动作方向控制机械臂动作,动作基元为平推或抓取操作。

其中,交互操作策略网络包括两个分支,第一个分支为抓取操作分支,包含DenseNet121网络以及GraspNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入GraspNet网络,再由GraspNet网络根据图像特征输出抓取动作的动作价值图。

第二个分支为平推操作分支,包含DenseNet121网络以及PushNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入PushNet网络,再由PushNet网络根据图像特征输出平推动作的动作价值图。

并且交互操作策略网络在两个分支后用Argmax函数根据抓取动作的动作价值图和平推动作的动作价值图,得出动作价值最大值索引对应的动作基元、动作位置及动作方向。

机器人的交互操作策略网络的后端结构GraspNet网络及PushNet网络主要是对经DenseNet121网络提取后的图像特征进行进一步处理,输出对应的预测动作价值图Q-Grasp及图Q-Push。GraspNet网络及PushNet网络均为全卷积神经网络,网络结构为BN-Relu-Conv-UpSample,其最后一层为采用双线性插值的上采样层,经上采样后可保证输出图像与原输入图像大小保持一致。

若目标物体在复杂堆叠的场景中完全可见或部分可见,机械臂利用主动视角规划策略可增强目标视觉可见性,引导机械臂后续与环境之间的交互。若目标被其他物体堆叠掩藏导致不可见时,机械臂通过平推或者抓取动作移除干扰物体,提高后续主动视角规划质量与效率。

本实施例机械臂的主动视角规划策略与交互操作策略可交替执行并互相协同。在环境初始化后,腕部相机采集场景RGB-D图像,机械臂主动规划视角调整腕部相机位姿,若视角规划执行步数到达限制或者目标遮挡比例小于设定阈值,则机械臂将根据当前视角下的场景信息进行交互操作,根据动作策略选择最优的平推与抓取动作基元组合,从而提高目标搜索成功率和效率。

在另一个实施例中,提供一种机器人仿真平台,所述机器人为机器人模型或实际机器人,所述机器人具有可操作的机械臂,并且所述机械臂上安装有腕部相机,所述机器人仿真平台包括算法仿真模块,所述算法仿真模块运行预存算法执行如下操作:

步骤1、通过机器人的腕部相机获取场景图像;

步骤2、基于主动视角规划策略调整机器人腕部相机的位姿,直至视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值后进入下一步;

步骤3、基于交互操作策略控制机器人的机械臂执行平推或抓取操作,在机械臂执行平推操作后返回步骤1;或者,在机械臂执行抓取操作且抓取目标物体失败后返回步骤1;或者,在机械臂执行抓取操作且成功抓取目标物体后结束。

目前,训练深度强化学习算法模型通常需要机械臂与环境不断交互积累经验数据,实际情况下若直接利用实际机械臂进行算法模型训练不仅效率低甚至会有安全隐患。本实施例根据实际机器人提供可用于主动感知与交互操作模型训练的机器人仿真平台。本实施例提出的机器人仿真平台以CoppeliaSim仿真软件为基础,PyRep提供CoppeliaSim的远程控制接口,RLBench提供高层的任务调度框架,整个平台包含机器人运动学解算、动力学解算、路径规划、碰撞检测及虚拟视觉、力学传感器等,该仿真平台还能与开源机器人操作系统ROS相连接,控制实际机械人。

基于机器人仿真平台,本实施例建立了多视角遮挡数据集,以针对物体遮挡关系及物体完整掩模预测的算法模型训练,基于该平台,验证了本发明提出的基于主动感知与交互操作协同的智能机器人目标搜索方法的高效性及可靠性。仿真环境中利用域随机化策略采集多视角下的堆叠物体的图像信息,包含每个视角下的RGB-D图像数据、真实的物体分割掩模、物体遮挡堆叠关系及各物体之间的遮挡比例矩阵。

在一个实施例中,所述基于主动视角规划策略调整机器人腕部相机的位姿,直至视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值后进入下一步,包括:

利用目标分割网络处理所述场景图像分割出场景中各物体的分割掩膜以及对应类别;

判断分割出的各物体中是否包含目标物体,若包含目标物体则进入下一小步骤;否则执行步骤3;

将分割出的分割掩膜成对输入部分补全网络得到目标物体的完整掩膜;

根据目标物体的完整掩膜及分割得到的分割掩膜计算目标物体的遮挡比例;

若视角规划执行步数到达限制或目标物体的遮挡比例小于设定阈值,则执行步骤3;否则将目标分割网络的中间层特征以及机器人当前的腕部相机的位姿输入机械臂主动视角规划算法,将机械臂主动视角规划算法的输出发送给机器人用以调整机器人机械臂的腕部相机的姿态,并返回步骤1。

在一个实施例中,通过自监督学习的方式训练所述部分补全网络,具体训练过程如下:

生成随机掩膜;

利用随机掩膜随机遮挡目标可见掩膜得到遮挡掩膜;

将遮挡掩膜与随机掩膜成对输入部分补全网络,得到部分补全网络预测输出的目标完整掩膜;

根据目标完整掩膜以及目标可见掩膜计算损失函数并更新网络参数;

持续训练直至达到训练结束条件。

在一个实施例中,所述基于交互操作策略控制机器人的机械臂执行平推或抓取操作,包括:

取腕部相机获取的场景图像,所述场景图像为RGB-D图像;

利用目标分割网络处理所述RGB-D图像分割出场景中各物体的分割掩膜以及对应类别;

将RGB-D图像转化为三维空间中的点云信息;

基于点云信息沿重力的反方向进行正交投影获得RGB、Depth的高度图,基于点云信息以及分割掩膜沿重力的反方向进行正交投影获得掩膜的高度图;

对RGB、Depth和掩膜的高度图拼接并经过进行仿射变换旋转后输入交互操作策略网络,将交互操作策略网络的输出发送给机器人,供机器人根据动作价值最大值索引对应的动作基元、动作位置及动作方向控制机械臂动作,所述动作基元为平推或抓取操作。

在一个实施例中,所述交互操作策略网络包括两个分支,第一个分支为抓取操作分支,包含DenseNet121网络以及GraspNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入GraspNet网络,再由GraspNet网络根据图像特征输出抓取动作的动作价值图;

第二个分支为平推操作分支,包含DenseNet121网络以及PushNet网络,由DenseNet121网络提取经过仿射变换旋转后的高度图的图像特征,并将图像特征输入PushNet网络,再由PushNet网络根据图像特征输出平推动作的动作价值图;

所述交互操作策略网络在两个分支后用Argmax函数根据抓取动作的动作价值图和平推动作的动作价值图,得出动作价值最大值索引对应的动作基元、动作位置及动作方向。

关于机器人仿真平台的具体限定可参见上述对于基于主动感知与交互操作协同的机器人目标搜索方法的限定,本实施例中不进行赘述。

首先,本实施例中机器人主动视角规划策略相对于现有技术优势在于:采用通道交换算法进行多模态数据的融合,提高目标检测的准确性;针对现有技术在机器人感知过程中缺乏场景理解的问题,利用物体部分掩模预测目标完整掩模,计算目标的可见性比例衡量视角规划质量;结合机器人的场景感知能力,利用深度强化学习算法,极大提高了机械臂自主调整视角的可靠性与效率。

其次,在交互操作策略方面,本发明采取机械臂平推与抓取的动作基元组合,解决目前技术中单一抓取动作基元在复杂环境中适用性差的问题。针对现有技术中交互操作策略的目标不可知问题,本发明将目标检测信息融入状态表征并构建交互操作策略网络及奖励函数,提高了机器人针对掩藏目标的去堆叠遮挡的操作效率。

基于本发明中的机器人仿真平台进行主动感知与交互操作的机器人目标搜索方法的试验验证。首先,实验场景按目标物体的初始可见性划分为三种不同复杂度,即目标在堆叠场景中完全可见、部分遮挡或完全被遮挡,其次对比算法分为四种:固定视角下多动作基元操作、固定视角下单一抓取操作、主动视角下单一抓取操作、主动视角规划协同多动作基元操作。在不同场景复杂度下设置对比实验,分别验证四种算法性能。最后经验证,本发明提出的基于主动感知与交互操作协同的智能机器人目标搜索方法在不同复杂度的场景下,均有较高的任务完成率及较少的交互操作步数,证明本发明相比于现有方法具有更高的效率与可靠性。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

技术分类

06120115637518