掌桥专利:专业的专利平台
掌桥专利
首页

一种基于单轨迹示教的五指机械手抓取与操作系统

文献发布时间:2024-04-29 00:47:01


一种基于单轨迹示教的五指机械手抓取与操作系统

技术领域

本发明涉及模仿学习与强化学习结合的五指机械手操作技术领域,具体而言,尤其涉及一种基于单轨迹示教的五指机械手抓取与操作系统。

背景技术

基于模仿学习和强化学习的五指多自由度机械手(以下简称灵巧手)灵巧操作在非结构化场景、恶劣作工环境、医护治疗等具身智能机器人领域是热点研究问题,已经有很多的优秀研究成果。但是,到目前为止,灵巧手的操作还有很多待解决的问题,需要控制多个自由度完成灵巧类人操作,为灵巧手控制策略的学习和应用带来了巨大的挑战。因此,开发友好的人类示教、易于训练灵巧手策略的方法有重要的意义。

国内外研究人员在人手示教和灵巧手策略学习上尝试了很多研究方案。在人类示教中,Rajeswaran使用VR来收集灵巧操作的演示,使用者佩戴数据手套进行示教,并引入了梯度增强[1][A.Rajeswaran,V.Kumar,A.Gupta,J.Schulman,E.Todorov,and S.Levine,“Learning complex dexterous manipulation with deep reinforcement learning anddemonstrations,”ArXiv,vol.abs/1709.10087,2017.]的算法用于强化学习,然而,该方法使用VR收集数据需要较多人力,并且价格昂贵。有许多后续文献致力于降低专家示教的成本,主要引入了视觉方法,文献[2][A.Handa,K.V.Wyk,W.Yang,J.Liang,Y.-W.Chao,Q.Wan,S.Birchfield,N.D.Ratliff,and D.Fox,“Dexpilot:Vision-based teleop-eration ofdexterous robotic hand-arm system,”2020IEEE International Conference onRobotics and Automation(ICRA),pp.9164–9170,2019.]使用多机位在线将人手动作重定位到allegrohand四指机械手上采集示教数据,但需要搭建繁琐的数据收集系统。文献[3][Li,Shuang,Xiaojian Ma,Hongzhuo Liang,Michael

从专家示教中进行模仿学习,可以让机器人具备专家的一些经验,在强化学习阶段减少无意义的探索,行为更加拟人化,同时可以很大程度上减少奖励函数的复杂度,但是专家数据成本较高。文献[7][Huang,Tao et al.“Demonstration-Guided ReinforcementLearning with Efficient Exploration for Task Automation of Surgical Robot.”arXiv,2023.]等人为了提高专家示教的利用效率,加速RL训练,以模仿学习为主,强化学习用来微调完善策略的学习过程。文献[4]探究了专家示教数量对策略学习的影响,证明以尽可能少的专家示教保证策略能够顺利学习到专家行为仍然是一项挑战。在文献[8][Arunachalam,Sridhar Pandian,Sneha Silwal,Ben Evans and Lerrel Pinto.“Dexterous Imitation Made Easy:A Learning-Based Framework for EfficientDexterous Manipulation.”2023IEEE International Conference on Robotics andAutomation(ICRA)(2022):5954-5961.]中,也将研究重点放在了示教与模仿学习上,同时探讨了不同模仿学习方法对于策略学习的影响。

发明内容

根据上述提出的技术问题,提供一种基于单轨迹示教的五指机械手抓取与操作系统。本发明的目的是仅使用一条示教作为模仿学习数据即可训练灵巧手策略完成对应类的功能性抓取。

本发明采用的技术手段如下:

一种基于单轨迹示教的五指机械手抓取与操作系统,包括:数据集获取单元、遥操作单元、基础学习单元、扩展学习单元以及指标评估单元,其中:

所述数据集获取单元,用于获取数据集;

所述遥操作单元,用于将人手动作映射到仿真中,控制仿真中的灵巧手进行运动,达到遥操控的效果,在与仿真中的物体进行交互后,得到相应的专家示教数据,同时对数据中使用的物体进行手物交互关键点与功能区标注,标注机械手的抓取手型,并将示教物体的功能区通过点云配准的方法迁移到其他同类别物体上;

所述基础学习单元,用于对所述遥操作单元得到的专家示教数据进行基础学习阶段快速训练,得到一个基础策略;

所述扩展学习单元,用于在得到的基础策略的基础上,引进更具泛化能力的扩展策略与基础策略在功能区迁移完成的情况下进行联合训练,得到可以应用的灵巧手策略,完成新物体的抓取和操作;

所述指标评估单元,用于通过计算抓取成功率和学习效率来评估系统的抓取和操作指标。

进一步地,所述数据集获取单元,用于获取数据集,具体包括:

从ShapeNet、DexFuncGrasp、Grab数据集中选取12类物体,每类物体至少选取20个形状不一的物体,包括马克杯、喷壶、钳子工具性质物品。

进一步地,所述遥操作单元包括硬件部分和软件部分,其中:

硬件部分包括两个RGB摄像头,分别固定设置在一个空间的前侧和左侧,用于获取人手实时动作的视频流,并使用OpenCV进行标定,得到各自的内外参数以及相互之间的转换矩阵;

软件部分包括人手检测模块、仿真模块、人手映射与操作模块,其中:

所述人手检测模块在一个空间中移动,用于将获取的转换矩阵经过mediapipe人手2D检测模型,得到人手的2D检测结果,并将人手的2D检测结果映射到3D空间中,得到每一时刻人手的3D检测结果,即21个关键点的3D坐标;

所述仿真模块,基于Mujoco仿真搭建操作平台,包括一个灵巧手、桌子与物体,由人手映射与操作模块来操作仿真中的灵巧手;

所述人手映射与操作模块,用于将人手检测结果以mano模型的形式表示为形状和姿态参数,并统一地以中指根关节为原点建立坐标系;计算出手指相邻关键点之间的向量,再计算向量间夹角在不同平面的映射角,得到人手15个关节在不同坐标方向上的角度;将与机械手对应的人手关节角赋值给机械手,人手每一帧平移矩阵T的相对变化量赋值给机械手,旋转矩阵R转化为xyz方向上的欧拉角赋值给机械手,遥操作机械手跟随人手运动,采集专家示教数据,在示教物体上标注手物交互信息,即五个手指尖与物体接触点,记录抓取物体时的机械手手型,同时使用KDTree算法将五个接触点扩展为物体上被灵巧手抓握的部位。

进一步地,所述基础学习单元使用模仿学习与强化学习结合的方法,仅使用一条示教数据学习专家行为,其中:得到的一个基础策略的状态空间包括物体信息{P

进一步地,所述基础学习单元对所述遥操作单元得到的专家示教数据进行基础学习阶段快速训练,具体包括:

引入梯度增强项作为学习目标:

其中,第一项是标准NPG算法梯度项,第二项是专家数据增强项;

设计强化学习的奖励函数,如下:

R

其中,r

进一步地,所述扩展学习单元用于实现物体被抓取部位的迁移和联合强化学习训练,其中:

物体被抓取部位的迁移:采用柔性配准网络CPDNET将示教物体的点云与目标物体的点云柔性对齐,实现示教物体抓取部位的标注迁移到目标物体相应部位;

联合强化学习训练:训练时采用稀疏奖励函数,表示为:

R

使用两个梯度项分别对基础策略和扩展策略进行训练:

其中,第一项是使用自我探索数据的NPG强化学习梯度项,第二项是基础策略探索数据提供的增强梯度项,λ

进一步地,在所述指标评估单元中,通过抓取成功率和学习效率来评估系统的抓取和操作指标,其中:

抓取成功率:在12类物体上非示教物体进行抓取成功率统计,每个物体随机位置初始化抓取十次,抓住5秒钟以上判定为成功抓取,得到平均成功率;

学习效率:在抓起物体并重置物体的任务上以成功率为指标,训练收敛的迭代轮数。

较现有技术相比,本发明具有以下优点:

1、本发明实现开发一套易于部署、使用人手遥操作示教的灵巧手抓取与操作系统,实现从一条示教数据学习灵巧手操作的目标,无需大量模仿数据作为驱动,效率高,为例如机器人具身化等提供技术手段,能够完成类级别功能抓取的效果,具有较高成功率。

2、本发明提供的基于单轨迹示教的五指机械手抓取与操作系统,示教系统成本低,易于部署,易于实时操作,可以完成大多类人操作的效果,在线进行手的重定位处理。

3、本发明提供的基于单轨迹示教的五指机械手抓取与操作系统,基于经验迁移和联合训练的框架,既具备快速迭代完成训练的效果,同时得到的灵巧手抓取与操作策略具有较高的泛化能力,较好的拟人性。

基于上述理由本发明可在模仿学习与强化学习结合的五指机械手操作等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明系统结构框图。

图2为本发明遥操作单元示意图。

图3为本发明仅使用一条示教数据学习专家行为的示意图。

图4为本发明物体被抓取部位的迁移效果图。

图5为本发明联合强化学习训练流程图。

图6为本发明抓取类人效果图。

图7为本发明与ILAD方法对比本发明抓取类人效果展示。

图8为本发明与DAPG算法在重置物体任务上对比学习效率。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示,本发明提供了一种基于单轨迹示教的五指机械手抓取与操作系统,包括:数据集获取单元、遥操作单元、基础学习单元、扩展学习单元以及指标评估单元,其中:

所述数据集获取单元,用于获取数据集;

所述遥操作单元,用于将人手动作映射到仿真中,控制仿真中的灵巧手进行运动,达到遥操控的效果,在与仿真中的物体进行交互后,得到相应的专家示教数据,同时对数据中使用的物体进行手物交互关键点与功能区标注,标注机械手的抓取手型,并将示教物体的功能区通过点云配准的方法迁移到其他同类别物体上;

所述基础学习单元,用于对所述遥操作单元得到的专家示教数据进行基础学习阶段快速训练,得到一个基础策略;

所述扩展学习单元,用于在得到的基础策略的基础上,引进更具泛化能力的扩展策略与基础策略在功能区迁移完成的情况下进行联合训练,得到可以应用的灵巧手策略,完成新物体的抓取和操作;

所述指标评估单元,用于通过计算抓取成功率和学习效率来评估系统的抓取和操作指标。

具体实施时,作为本发明优选的实施方式,所述数据集获取单元,用于获取数据集,具体包括:

从ShapeNet、DexFuncGrasp、Grab数据集中选取12类物体,每类物体至少选取20个形状不一的物体,包括马克杯、喷壶、钳子工具性质物品。

具体实施时,作为本发明优选的实施方式,所述遥操作单元包括硬件部分和软件部分,其中:

硬件部分包括两个RGB摄像头,分别固定设置在一个空间的前侧和左侧,用于获取人手实时动作的视频流,并使用OpenCV进行标定,得到各自的内外参数以及相互之间的转换矩阵;

软件部分包括人手检测模块、仿真模块、人手映射与操作模块,其中:

所述人手检测模块在一个大约0.5m

所述仿真模块,基于Mujoco仿真搭建操作平台,包括一个灵巧手、桌子与物体,其中手关节自由度为22,手臂自由度为6,物体属性设置与现实相符,由人手映射与操作模块来操作仿真中的灵巧手;

所述人手映射与操作模块,用于将人手检测结果以mano模型的形式表示为形状和姿态参数,并统一地以中指根关节为原点建立坐标系;计算出手指相邻关键点之间的向量,再计算向量间夹角在不同平面的映射角,得到人手15个关节在不同坐标方向上的角度;将与机械手对应的人手关节角赋值给机械手,人手每一帧平移矩阵T的相对变化量赋值给机械手,旋转矩阵R转化为xyz方向上的欧拉角赋值给机械手,遥操作机械手跟随人手运动,采集专家示教数据,在示教物体上标注手物交互信息,即五个手指尖与物体接触点,记录抓取物体时的机械手手型,同时使用KDTree算法将五个接触点扩展为物体上被灵巧手抓握的部位。如图2所示,为遥操作单元示意图。

具体实施时,作为本发明优选的实施方式,所述基础学习单元使用模仿学习与强化学习结合的方法,仅使用一条示教数据学习专家行为,其中:得到的一个基础策略的状态空间包括物体信息{P

具体实施时,作为本发明优选的实施方式,所述基础学习单元对所述遥操作单元得到的专家示教数据进行基础学习阶段快速训练,具体包括:

引入梯度增强项作为学习目标:

其中,第一项是标准NPG算法梯度项,第二项是专家数据增强项;

设计强化学习的奖励函数,如下:

R

其中,r

具体实施时,作为本发明优选的实施方式,所述扩展学习单元用于实现物体被抓取部位的迁移和联合强化学习训练,其中:

物体被抓取部位的迁移:采用柔性配准网络CPDNET将示教物体的点云与目标物体的点云柔性对齐,实现示教物体抓取部位的标注迁移到目标物体相应部位,效果如图4所示。

联合强化学习训练:如图5所示,引入扩展策略,将扩展策略与基础策略联合,基于强化学习的策略优化得到扩展策略;基础策略在训练前期提供高效率训练与高回报的探索,使用经验迁移与策略提炼将其经验迁移到扩展策略中并进行增强,训练时,扩展策略与基础策略的状态空间不同,其状态空间表示为物体信息{P

R

在联合训练框架中,基础策略仅使用自己探索得到的数据进行训练,扩展策略使用状态空间蒸馏后的基础策略数据和自己探索产生的数据进行训练,并在训练后期逐渐减少使用基础策略探索得到的数据。使用两个梯度项分别对基础策略和扩展策略进行训练:

其中,第一项是使用自我探索数据的NPG强化学习梯度项,第二项是基础策略探索数据提供的增强梯度项,λ

具体实施时,作为本发明优选的实施方式,在所述指标评估单元中,通过抓取成功率和学习效率来评估系统的抓取和操作指标,其中:

抓取成功率:在12类物体上非示教物体进行抓取成功率统计,每个物体随机位置初始化抓取十次,抓住5秒钟以上判定为成功抓取,得到平均成功率;

学习效率:在抓起物体并重置物体的任务上以成功率为指标,训练收敛的迭代轮数。

综上所述,本发明提供的基于单轨迹示教的五指机械手抓取与操作系统,通过人手检测和合理的映射模块将人手动作映射到仿真中,控制仿真中的灵巧手进行运动,达到遥操控的效果。在与仿真中的物体进行交互后,得到相应的专家示教数据,同时对数据中使用的物体进行手物交互关键点与功能区标注,并标注机械手的抓取手型。示教物体的功能区通过点云配准的方法迁移到其他同类别物体上。专家示教数据先经过设计的基础学习阶段快速训练得到一个基础策略。基础策略并不具有完成任务的能力,只是学习了专家如何柔顺地和物体交互。在此基础上引进更具泛化能力的扩展策略与基础策略在功能区迁移完成的情况下进行联合训练,最终得到可以应用的灵巧手策略。

实施例

将本发明的性能与近年最新的优秀成果进行了比较,其中包括DAPG[A.Rajeswaran,V.Kumar,A.Gupta,J.Schulman,E.Todorov,and S.Levine,“Learningcomplex dexterous manipulation with deep reinforcement learning anddemonstrations,”ArXiv,vol.abs/1709.10087,2017.],ILAD[Wu,Yueh-Hua,Jiashun Wangand Xiaolong Wang.“Learning Generalizable Dexterous Manipulation from HumanGrasp Affordance.”ArXiv abs/2204.02320(2022):n.pag.],GRAFF[Mandikal,Priyankaand Kristen Grauman.“Learning Dexterous Grasping with Object-Centric VisualAffordances.”2021IEEE International Conference on Robotics and Automation(ICRA)(2020):6169-6176.]。表1展示了不同方法在给定物体功能区的条件下进行抓取,本发明成功率最佳,且具有最好的类人操作效果。图7展示了本发明与ILAD抓取类人操作对比的结果。在有良好抓取效果和成功率的前提下,本发明还有较快的迭代速率,如图8所示,本发明学习效率上有明显的提升。

表1不同方法抓取成功率

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种基于示教机械手的琵琶示教系统及方法
  • 一种基于示教机械手的琵琶示教系统
技术分类

06120116594084