掌桥专利:专业的专利平台
掌桥专利
首页

一种四足机器人运动控制自生成和实物迁移方法

文献发布时间:2023-06-19 10:32:14


一种四足机器人运动控制自生成和实物迁移方法

技术领域

本发明涉及机器人运动控制领域,具体是指一种四足机器人运动控制自生成和实物迁移方法。

背景技术

我国深空探测、载人登月任务的最终目标是在月球和火星表面建立永久性基地,而地外天体基地建设是一项前所未有的重大工程,实施前需要充分的准备工作,其中最关键的一环就是研制能够适应月球火星表面环境的空间机器人,为建立基地以至为载人登陆开道铺路。

在复杂的外星球环境,足式移动机器人与生俱来的“悬架结构”将机体与地形环境相分离,仅需依靠离散的落脚点便能够稳定、连续地移动,使得其在非规则地形下表现出明显的通过性优势,被认为是科学探测、紧急搜救、物资运输、侦察巡逻等作业的最佳移动平台。四足机器人兼具运动的灵活性和稳定性,可以实现动态行走,是高速移动足式机器人研究的主要对象。自然界中几乎所有能够在自然地形条件下持久地高速运动并能够进行灵活转向的大、中型哺乳动物都具有四足移动机构的配置。四足的机构形式使得四足动物既可以通过多腿支撑,实现稳定站立和低速行走,又能根据需要实现双腿或单腿着地,进行动态奔跑,提高运动速度和效率,表现出优异的运动性能和地形适应性。

然而足式机器人结构复杂,要实现精准的运动学和动力学建模,需要丰富的经验和繁琐的手动调优。相较于传统的四足机器人运动控制,使用强化学习的四足机器人的运动控制具有无模型、环境适用性强和策略自主生成的优点。但是,这样的控制方法往往停留在仿真阶段,生成的稳定步态在实际的机器人中表现不佳,这是由于仿真的物理系统与实际的物理系统的存在较大的模型差异,而且这种差异在实际的运动中会被逐步放大。

基于此,本发明提供了一种四足机器人运动控制自生成和实物迁移方法。

发明内容

以下给出一个或多个方面的主要概述以应对这些方面的基本理解。此概述不能将所有构想的方面进行详述,其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明提出一种四足机器人运动控制自生成和实物迁移方法,包括:

步骤1:利用开源Bullet物理引擎构建四足机器人快速仿真环境,包括四足机器人物理模型和周围环境的物理属性;四足机器人的传感器信息通过插件形式加入仿真环境,并通过可视化的方式进行显示;

步骤2:在仿真环境中,使用PPO算法优化四足机器人运动控制器,通过确定影响四足机器人运动控制性能的参数,学习鲁棒的控制器来缩小仿真模型和实际模型的差异,提高迁移成功率,在仿真环境中,实现控制策略的自主生成;

步骤3:将仿真中学习的运动控制器移植到实际四足机器人的控制板上,以惯性测量单元测量的信息作为控制器的输入,由运动控制器预测四足机器人腿部的关节角度,输出到对应电机,实现四足机器人在实际环境下的稳定行走。

步骤1中,包括以下步骤:

步骤1.1:四足机器人的物理模型依据实际四足机器人的关节与连杆的相对关系、惯性属性、几何特点和碰撞模型建立。

步骤1.2:周围环境的物理属性考虑地面的摩擦力和机器人所受的外力。

步骤2中,包括以下步骤:

步骤2.1:设计深度强化学习即PPO算法所使用的回报函数R:

R=λ

其中,λ

步骤2.2:使用有先验知识的强化学习优化四足机器人腿部的关节角度:

θ=A

γ=A

其中,θ为四足机器人腿部前后摆动的角度,γ为四足机器人腿部上下摆动的角度,使用正弦函数保证四足机器人腿部运动的周期性,作为强化学习的先验知识,A

步骤2.3:通过系统辨识的方法整理得到影响四足机器人运动控制性能的参数:四足机器人质量、电机摩擦、控制延时、接触摩擦、转动惯量和电机模型。

步骤2.4:提高控制器的抗干扰能力,在一定范围内随机化仿真模型参数、在训练中加入随机的干扰力、随机化四足机器人每条腿的初始位置及在电机和惯性测量单元的读数中加入高斯噪声。

在步骤3中,包括以下步骤:

步骤3.1:考虑仿真模型中确定的参数和鲁棒性的控制器,在仿真中使用PPO深度强化学习算法优化控制器,实现控制策略的自主生成;

步骤3.2:将训练好的整个仿真环境迁移到实际的四足机器人控制板上,使四足机器人四足悬空,采用仿真环境下,四足机器人的状态作为控制器的输入,将控制器输出的关节角度通过串口发送到电机控制器,驱动对应腿部运动,在此过程中,观察实际四足机器人的步态是否与仿真环境下四足机器人的步态保持一致;

步骤3.3:在实现步骤3.2的前提下,将控制器的输入替换为实际四足机器人的状态,即为惯性测量单元的获取的实际四足机器人翻滚角,俯仰角和这两个轴的角速度,让四足机器人的四足触地,测试四足机器人在实际环境下的运动性能;

重复步骤3.1-3.3,直到四足机器人能在实际环境下实现稳定的步态生成。

附图说明

构成本发明的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本发明的不当限定。

图1是本发明的整体系统的框架图;

图2是本发明中在Bullet引擎中搭建的机器人模型在仿真环境中的示意图;

图3是本发明的PPO算法的流程图;

图4是本发明的平面地形沿直线行走时三种模型行走速度对比图

图5是本发明的实物迁移流程图;

图6是本发明的硬件系统图;

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。

四足机器人模型通过Bullet物理引擎依据实际的四足机器人物理属性构建。

周围环境的物理属性考虑地面的摩擦力和机器人所受的外力,如图2所示。

通过系统辨识的方法缩小仿真模型与物理模型的差异,整理得到待确定的参数有:机器人质量,电机摩擦,控制延时,接触摩擦,转动惯量,电机模型。

机器人质量由电子秤测量得到,为4.9kg。

测量电机摩擦,具体方法为:在电机输出端接一个杠杆臂,在杠杆臂的末端施加外力,直到电机转动,此时施加外力乘以杠杆臂的长度即为电机摩擦,测量得到电机摩擦为0.05Nm。

测量控制延时,控制延迟为上层控制器发送电机命令引起机器人状态改变到传感器测量到这个改变的并反馈回上层控制器所用时间,测量得到延迟为50ms。

接触摩擦指机器人腿部末端与地面的摩擦力,拟采用机器人足部与毛毯地面接触的摩擦力,为0.5-1.25。

测量实物的转动惯量比较困难,所以采用测量仿真模型中零件的转动惯量,具体做法为:将仿真模型导入到SolidWorks软件中,设定每个零件的材质,由软件直接测量得到转动惯量。

电机模型需要确定的参数为:电机电阻,电机电压和电机转矩常量。

电机电阻采用电官网给出的参数,为69mΩ,电机电压为供电电压,24V,电机转矩与电机电流成正比,根据电机官网给出的负载测试数据,采用直线拟合求出每个负载下的转矩常量,再求平均值,转矩常量为0.0253。

确认以上参数的数值,缩小仿真与实际模型的差异,但这些参数在机器人实际运行时,会受环境各种因素影响,还需进一步提高控制器的抗干扰能力,主要通过以下四种方法提高控制器的鲁棒性。

随机化仿真模型的参数,将确定的值扩大和缩小20%,在每次训练开始时,仿真模型中的参数在这个区间中进行采样。

在训练中加入随机的干扰,在训练过程中,每进行200步(1.2秒),就在仿真的机器人上添加一个扰动力,扰动力持续10步(0.06s),方向随机,大小随机,范围为130N-220N,这种干扰会使仿真中的机器人失去平衡,所以它需要学习如何在不同的情况下恢复平衡。

随机化机器人的初始位置,实际的四足机器人在每次启动时需要手动调整每条腿的位置,使得机器人在静止时不能保证水平,所以需要在仿真中模拟这种情况,具体的做法是在每次训练时使机器人的初始位置在垂直和水平方向都有一个的偏差,大小在-0.1rad~0.1rad变化。

在电机和惯性测量单元的读数中加入噪声,由于仿真中传感器的读数为环境的真实状态,而实际的机器人通过传感器在获取电机和惯性测量单元数值时常常会有噪声,所以需要在仿真环境中加入了少量的高斯噪声。

考虑到仿真模型中参数和鲁棒性的控制器,使用深度强化学习算法中的PPO算法训练控制器,PPO算法流程图如图3所示。

设计深度强化学习所使用的回报函数R。

使用有先验知识的强化学习建模。

在通过大量仿真环境中的尝试,实现控制策略的自主生成,在仿真环境中,四足机器人能实现稳定步态,步态速度对比如图4所示。

采用如图5所示的迁移步骤进行实物迁移。将训练好的整个仿真环境迁移到实际的四足机器人控制板上,即在JetsonNano上运行四足机器人控制器,使用仿真环境下,机器人的状态作为神经网络的输入,将神经网络输出的动作值通过串口发送到ODrive电机控制器,驱动对应电机运动,在此过程中,观察实际机器人的步态是否与仿真环境下机器人的步态保持一致。

搭建如图6所示的硬件系统图,将神经网络的输入替换为实际机器人的状态,即为惯性测量单元的获取的四足机器人翻滚角,俯仰角和这两个轴的角速度,让机器人的四足触地,测试机器人在实际环境下的运动性能。

在固定的时间内,从相同的初始位置出发,四足机器人搭载深度强化学习训练后的控制器比搭载传统的控制器多行走了一个身位,且行走过程更加平稳,验证了深度强化学习训练后的控制器能够不断学习、优化步态,快速且稳定地提升步态控制性能。

尽管方法已对本发明说明性的具体实施方式逐步进行了描述,以便于本技术领域的技术人员能够进行领会,但是本发明不仅限于具体实施方式的范围,本领域技术人员可以在权利要求的范围内做出各种变形或修改,只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内。

相关技术
  • 一种四足机器人运动控制自生成和实物迁移方法
  • 一种四足机器人运动控制方法、系统及机器人
技术分类

06120112588389