掌桥专利:专业的专利平台
掌桥专利
首页

一种基于特权知识蒸馏的四足机器人运动规划方法

文献发布时间:2024-04-18 19:52:40



技术领域

本发明属于机器人技术领域,具体涉及一种四足机器人运动规划方法。

背景技术

长期以来,轮式机器人由于成本低、运动效率高、移动速度快等优点,受到各行各业的青睐,在送快递、送餐等场景中得到了很多应用。然而,轮式机器人只能在平坦路面上移动,但有些任务场景需要机器人具备在复杂崎岖路况中运动的能力。四足机器人对非结构化复杂地形具有更强的适应性和更小的地形破坏性,其在救援救灾、物资运输等非结构化场景中具有良好的应用前景。

当前四足机器人的设计和开发都是以传统仿生机器人学理论为基础,其主要特点是控制方法依赖机器人的动力学模型、机器人的步态模仿四足生物的运动步态、以人操控为主导的运动模式等。但此类方法需要对机器人运动学和动力学精确地建模分析,设计四足机器人的敏捷运动需要大量的专业知识和繁琐的手动调参。

近年来,随着深度学习技术日趋成熟,结合深度神经网络的强化学习方法突破了连续高维空间计算量的限制,在诸多领域中取得了优于传统方法的效果。深度强化学习的快速发展,为开发具有人类感知、规划和控制的机器人带来了希望。在四足机器人领域,以深度强化学习为代表的人工智能技术能够突破传统机器人学理论的限制,避免了传统的运动控制需要精确的动力学和运动学建模、机电方面专业的知识以及复杂繁琐的手动调优等问题,让四足机器人学习到最优的控制策略。然而,由于适应不同非结构地形(如丘陵、斜坡、楼梯等)所需的步态差异大,训练一个能适应所有地形的模型难。另外,由于在真实环境中缺乏地形、接触状态等信息,仅利用本体感知训练的模型表现不佳。

发明内容

为了克服现有技术的不足,本发明提供了一种基于特权知识蒸馏的四足机器人运动规划方法,首先在PyBullet中构建仿真环境,包括四足机器人动力学建模与复杂地形建模;之后分两阶段分别训练具有特权信息的教师网络与仅利用本体感知的学生网络;对于教师网络,基于PPO算法设计四足机器人的状态更新网络、动作执行网络以及奖励函数等,除了本体感知,还需输入地形信息、接触状态等特权信息,输出足端位置残差,并结合先验步态计算足端目标位置,对机器人进行控制;对于学生网络,使用能够容纳长历史的TCN编码器,通过模仿教师行为监督训练,学生网络能够从历史本体感知中推断出地形信息进行决策。本发明使四足机器人能够在真实环境中仅利用本体感知快速稳定的穿越多种非结构化复杂地形。

本发明解决其技术问题所采用的技术方案包括如下步骤:

步骤1:搭建仿真环境;

利用PyBullet物理引擎构建仿真环境,包括多种地形建模以及机器人动力学建模;使用域随机化方法随机机器人动力学参数,包括机体质量、关节质量、摩擦、惯性参数,并增加额外力和额外扭矩作为扰动,增强模型抗干扰能力;

步骤2:设计教师网络的状态空间、动作空间及奖励函数;

状态空间:状态定义为s

动作空间:动作定义为四个足端的目标位置残差,目标位置残差与先验步态生成器得到的先验足端位置相加,得到四足机器人的目标足端位置;

奖励空间:包括指令跟踪、稳定性和碰撞三方面;指令跟踪包括线速度奖励、偏航角奖励、垂直速度惩罚;稳定性包括动作平滑度奖励、位姿惩罚、足端溜滑惩罚、关节约束惩罚、扭矩惩罚、俯仰角惩罚;碰撞包括机身碰撞与足端碰撞两部分;

步骤3:训练基于PPO算法的强化学习教师网络;

在每个训练轮次中,从平地、台阶、离散台阶、斜坡、丘陵、楼梯六类地形中随机选择一种地形进行训练;特权教师网络输入为本体感知与特权信息,输出为足端位置残差,通过与先验足端位置相加,得到目标足端位置;先验步态生成器设计如下:

式中,φ

在得到目标足端位置后,用逆动力学从目标足端位置计算出12关节目标位置,再计算出12关节扭矩,最后由PD控制器控制机器人运动;当机器人摔倒或到达最大轮次长度,该轮次终止;地形环境在每轮次结束后均会随机更新;

收集仿真环境中四足机器人的当前状态、动作、期望状态、奖励结果以及终止判定条件,保存到数据集D中,当收集完成指定轮次的样本后,进行网络更新;网络更新完成后,重置环境并重复执行上述训练操作,直到达到训练轮次上限,保存教师网络;

步骤4:学生网络设计;

学生网络使用TCN编码器,其输入为H={h

步骤5:学生网络训练;

在每个轮次,同时从教师网络和学生网络进行观测和动作采样;学生网络是通过监督学习来训练的,通过模仿教师行为来更新参数,损失函数被定义为:

式中,o

优选地,所述与地形相互作用相关的信息包括地形轮廓、脚部接触状态和力、摩擦系数和训练过程中施加的外部干扰力。

本发明的有益效果如下:

本发明解决了传统运动规划方法需要大量的专业知识和繁琐的手动调参的问题,在仿真环境中结合特权信息训练出高性能的运动策略模型,并通过知识蒸馏的方式训练学生网络,使四足机器人能够在真实环境中仅利用本体感知快速稳定的穿越多种非结构化复杂地形

附图说明

图1为本发明运动规划方法的流程示意图。

图2为本发明中使用的不同地形示意图。

图3为本发明特权知识蒸馏网络结构图。

图4为本发明为先验步态生成器与神经网络结合的控制结构图。

图5为本发明中四足机器人在不同地形行走示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明目的在于提供一种四足机器人多地形运动规划方法,能够穿越多种非结构复杂地形与未见过的新地形。通过使用强化学习的方法,让机器人在尽可能少人工设计和干预的情形下自主学习运动策略,实现复杂环境下的运动规划。

本发明提出一种基于特权知识蒸馏的四足机器人运动规划方法,包括以下步骤:

步骤1:搭建高保真仿真环境,作为后续研究的基础

利用PyBullet物理引擎构建仿真环境,具体包括多种地形建模以及机器人动力学建模。为增强训练模型的鲁棒性,使用域随机化方法随机机器人动力学参数,包括机体质量、关节质量、摩擦、惯性参数等,并增加额外力和额外扭矩作为扰动,增强模型抗干扰能力。

步骤2:设计教师网络的状态空间、动作空间及奖励函数

状态空间:状态定义为s

动作空间:为了缩小动作空间,加速模型收敛,动作定义为四个足端的目标位置残差,其与先验步态生成器得到的先验足端位置相加,得出四足机器人的目标足端位置。

奖励空间:从指令跟踪、稳定性、碰撞三方面设计奖励函数。指令跟踪方面,具体包括线速度奖励、偏航角奖励、垂直速度惩罚。稳定性方面,包括动作平滑度奖励、位姿惩罚、足端溜滑惩罚、关节约束惩罚、扭矩惩罚、俯仰角惩罚。碰撞方面,包括机身碰撞与足端碰撞两部分。

步骤3:训练基于PPO算法的强化学习教师网络

在每个轮次中,从平地、台阶、离散台阶、斜坡、丘陵、楼梯六类地形中随机选择一种地形进行训练。特权教师网络输入为本体感知与特权信息,输出为足端位置残差,通过与先验足端位置相加,得到目标足端位置。先验步态生成器设计如下:

在得到目标位置后,用逆动力学从目标足端位置计算出12关节目标位置,再计算出12关节扭矩,最后由PD控制器控制机器人运动。当机器人摔倒或到达最大轮次长度,该轮次终止。地形环境在每轮次结束后均会随机更新,以保证训练的神经网络具备不同地形的适应能力。

收集仿真环境中四足机器人的当前状态、动作、期望状态、奖励结果以及终止判定条件,保存到数据集D中,当收集指定轮次样本,进行网络更新。网络更新完成后,重置环境并重复执行上述训练操作,直到达到训练轮次上限,保存教师网络。

步骤4:学生网络设计

学生策略只能获得本体状态感知o

步骤5:学生网络训练

在每个轮次,同时从教师网络和学生网络进行观测和动作采样。在仿真环境中执行过程如步骤3。学生策略是通过监督学习来训练的,通过模仿教师行为来更新参数。损失函数被定义为:

式中带上标变量表示由教师网络生成的目标值。

具体实施例:

如图1所示,本发明的基于特权知识蒸馏的四足机器人运动规划方法,具体包括如下步骤:

步骤一:在pybullet物理引擎搭建机器人模型与多种复杂地形,如图2所示。机器人模型从URDF文件导入,并设计平地、斜坡、楼梯、丘陵、规则台阶和离散台阶六种复杂地形。为增强训练模型的鲁棒性,使用域随机化方法随机机器人动力学参数,包括机体质量、关节质量、摩擦、惯性参数等,并增加额外力和额外扭矩作为扰动,增强模型抗干扰能力。

步骤二:如图3所示,采用教师学生网络两阶段的方法训练运动模型。首先设计教师网络的状态空间、动作空间及奖励函数。

状态空间:状态定义为s

动作空间:为了缩小动作空间,加速模型收敛,动作定义为四个足端的目标位置残差,其与先验步态生成器得到的先验足端位置相加,得出四足机器人的目标足端位置。

奖励空间:从指令跟踪、稳定性、碰撞三方面设计奖励函数。指令跟踪方面,具体包括线速度奖励、偏航角奖励、垂直速度惩罚。稳定性方面,包括动作平滑度奖励、位姿惩罚、足端溜滑惩罚、关节约束惩罚、扭矩惩罚、俯仰角惩罚。碰撞方面,包括机身碰撞与足端碰撞两部分。

步骤三:训练教师网络,在每个轮次中,从平地、台阶、离散台阶、斜坡、丘陵、楼梯六类地形中随机选择一种地形进行训练。特权教师网络输入为本体感知与特权信息,输出为足端位置残差,通过与先验足端位置相加,得到目标足端位置。如图4所示,先验步态生成器设计如下:

在得到目标位置后,用逆动力学从目标足端位置计算出12关节目标位置,再计算出12关节扭矩,最后由PD控制器控制机器人运动。当机器人摔倒或到达最大轮次长度,该轮次终止。地形环境在每轮次结束后均会随机更新,以保证训练的神经网络具备不同地形的适应能力。

步骤四:设计学生网络,学生策略只能获得本体感知o

步骤五:训练学生网络,在每个轮次,同时从教师网络和学生网络进行观测和动作采样。在仿真环境中执行过程如步骤3。学生策略是通过监督学习来训练的,通过模仿教师行为来更新参数。损失函数被定义为:

上标表示由教师网络生成的目标值。

步骤六:对训练好的运动规划模型部署测试。如图5所示,四足机器人能够稳定穿越楼梯、斜坡地形,展示了运动模型性能的优越性。

本发明为一种基于特权知识蒸馏的四足机器人运动规划方法,首先基于PyBullet物理引擎建立仿真环境,包括机器人建模与地形构建;其次训练教师网络,利用特权信息和本体感知训练高性能强化学习网络;之后训练学生网络,仅利用本体感知监督训练学生网络模仿教师行为;最终将学生网络进行部署测试,使四足机器人能够快速稳定穿越多种非结构地形。

相关技术
  • 一种基于分层强化学习的四足机器人运动规划方法
  • 一种基于分层强化学习的四足机器人运动规划方法
技术分类

06120116334384