掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的机器人步态训练方法及系统

文献发布时间:2024-04-18 19:58:30


基于强化学习的机器人步态训练方法及系统

技术领域

本发明涉及机器人控制技术领域,尤其涉及一种基于强化学习的机器人步态训练方法及系统。

背景技术

双足机器人的控制方式可以分为传统控制方法和强化学习控制方法两种,传统方法通过对机器人进行运动学和动力学分析得到相应的运动学或者动力学模型,再结合传感器测量值对机器人进行状态估计,最后对选择的控制变量进行控制。而强化学习控制是指在仿真中构建一个强化学习环境,利用强化学习策略训练方法迭代修改神经网络的权值,使仿真环境中的机器人的运动的行为状态逐渐逼近期望值。

基于强化学习对双足机器人进行控制的方法的共性是:通过计算或者简化模型预训练得到的机器人轨迹作为目标轨迹与实际训练中的智能体轨迹比较从而进行奖励计算。利用参考轨迹进行训练的合理性在于双足机器人的运动复杂。并基于机器人的期望状态和实际状态之间的方差描述机器人运动的步态信息,因此使用参考轨迹指定机器人采用双腿周期性交替落地或者其他期望的运动方式运动成为了常用的训练方案。但是使用参考轨迹的训练方式同样存在弊端。通过动力学和运动学分析计算参考轨迹的方法比较繁琐,并且机器人结构或者负载一旦发生改变,参考轨迹就需要重新计算。通过模仿学习先训练出目标轨迹的方式则需要进行两次训练,训练成本增加,并且对于跑、跳等复杂的步态进行预训练存在困难。

因此,在基于强化学习对双足机器人进行控制的技术领域里,存在由于对预设目标轨迹的依赖导致需要二次训练或者对机器人结构具有强依赖性的缺陷。

发明内容

本发明提供的基于强化学习的机器人步态训练方法及系统,用于解决在基于强化学习对双足机器人进行控制的技术领域里,由于对预设目标轨迹的依赖导致需要二次训练或者对机器人结构具有强依赖性的缺陷的问题。

本发明提供的一种基于强化学习的机器人步态训练方法,包括:

根据构建的双足机器人的仿真模型,获取所述双足机器人在步态训练过程中的各个时刻的状态;

执行至少一次第一训练过程,直至总奖励在最大值处收敛,所述总奖励根据执行每次第二训练过程获得的奖励确定;

其中,所述第一训练过程包括:

执行至少一次所述第二训练过程,直至所述第二训练过程的训练次数达到预设值或所述双足机器人的状态异常;

基于actor网络和critic网络分别对应的损失函数,更新所述actor网络和所述critic网络,所述损失函数根据所述总奖励确定;

所述第二训练过程包括:

向所述actor网络输入双足机器人在当前时刻的状态,获取所述actor网络输出的动作指令;

将所述actor网络输出的动作指令输入到所述双足机器人的仿真模型,获取所述双足机器人在下一时刻的状态;

将所述双足机器人的地面反馈力所对应的取模量在预设区间上进行尺度变换,获取尺度变换结果;

根据所述尺度变换结果和目标二值函数在所述下一时刻的值,获取线性步态观测奖励,所述目标二值函数是通过对所述双足机器人的步态训练过程的足部特征进行分析后,为所述双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数,所述相位与所述步态训练过程中的步态周期包括的各个时刻一一对应;

获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差;

根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励。

根据本发明提供的一种基于强化学习的机器人步态训练方法,所述获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差,包括:

获取所述双足机器人在所述下一时刻的状态中的姿态、高度和速度;

获取所述双足机器人在所述下一时刻的预设状态中的目标姿态、目标高度和目标速度;

根据第一偏差、第二偏差和第三偏差,获取所述偏差,所述第一偏差为所述姿态与所述目标姿态之间的偏差,所述第二偏差为所述高度与所述目标高度之间的偏差,所述第三偏差为所述速度与所述目标速度之间的偏差。

根据本发明提供的一种基于强化学习的机器人步态训练方法,所述根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励,包括:

对所述线性步态观测奖励在预设区间进行平滑处理,获取目标线性步态观测奖励;

对所述目标线性步态观测奖励和所述偏差进行加权求和,获取执行一次所述第二训练过程的奖励。

根据本发明提供的一种基于强化学习的机器人步态训练方法,所述双足机器人的仿真模型的获取方式,包括:

基于标准的格式文件,对所述双足机器人的关节耦合方式、运动学参数和动力学参数进行描述,获取所述双足机器人的仿真模型。

根据本发明提供的一种基于强化学习的机器人步态训练方法,所述双足机器人的步态训练过程包括如下至少一种:

行走、跑、跳和站立。

根据本发明提供的一种基于强化学习的机器人步态训练方法,所述预设值根据所述步态周期包括的时刻总数确定。

根据本发明提供的一种基于强化学习的机器人步态训练方法,所述actor网络的连接层由一个50维度的输入全连接层、两个256维度的隐藏层和一个10维度的输出全连接层组成。

本发明还提供一种基于强化学习的机器人步态训练系统,包括:

获取模块,用于根据构建的双足机器人的仿真模型,获取所述双足机器人在步态训练过程中的各个时刻的状态;

训练模块,用于执行至少一次第一训练过程,直至总奖励在最大值处收敛,所述总奖励根据执行每次第二训练过程获得的奖励确定;

其中,所述第一训练过程包括:

执行至少一次所述第二训练过程,直至所述第二训练过程的训练次数达到预设值或所述双足机器人的状态异常;

基于actor网络和critic网络分别对应的损失函数,更新所述actor网络和所述critic网络,所述损失函数根据所述总奖励确定;

所述第二训练过程包括:

向所述actor网络输入双足机器人在当前时刻的状态,获取所述actor网络输出的动作指令;

将所述actor网络输出的动作指令输入到所述双足机器人的仿真模型,获取所述双足机器人在下一时刻的状态;

将所述双足机器人的地面反馈力所对应的取模量在预设区间上进行尺度变换,获取尺度变换结果;

根据所述尺度变换结果和目标二值函数在所述下一时刻的值,获取线性步态观测奖励,所述目标二值函数是通过对所述双足机器人的步态训练过程的足部特征进行分析后,为所述双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数,所述相位与所述步态训练过程中的步态周期包括的各个时刻一一对应;

获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差;

根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励。

本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现如上述任一种所述基于强化学习的机器人步态训练方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于强化学习的机器人步态训练方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于强化学习的机器人步态训练方法。

本发明提供的基于强化学习的机器人步态训练方法及系统,通过将步态中的足部特征进行分析,并用于总奖励的计算,使双足机器人在无参考轨迹的前提下可以通过单次强化学习训练就可以完成正确的步态训练,且只需要修改分别描述双足触地状态的目标二值函数就可以实现对步态训练过程的参数化精细控制,降低对双足机器人结构的依赖,实现对大部分双足周期性步态的描述和训练。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的基于强化学习的机器人步态训练方法的流程示意图;

图2是本发明提供的基于强化学习的机器人步态训练系统的结构示意图;

图3是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供的基于强化学习的机器人步态训练方法,提供一种新的奖励计算方法,使双足机器人可以通过单次强化学习训练掌握正确的行走步态。此外,只需调整总奖励计算中的目标线性步态观测奖励和偏差分别对应的权值系数,就可以实现机器人行走、站立、跑、跳等步态的训练切换,具体实现如下:

图1是本发明提供的基于强化学习的机器人步态训练方法的流程示意图,如图1所示,方法包括:

步骤110,根据构建的双足机器人的仿真模型,获取所述双足机器人在步态训练过程中的各个时刻的状态;

步骤120,执行至少一次第一训练过程,直至总奖励在最大值处收敛,所述总奖励根据执行每次第二训练过程获得的奖励确定;

其中,所述第一训练过程包括:

执行至少一次所述第二训练过程,直至所述第二训练过程的训练次数达到预设值或所述双足机器人的状态异常;

基于actor网络和critic网络分别对应的损失函数,更新所述actor网络和所述critic网络,所述损失函数根据所述总奖励确定;

所述第二训练过程包括:

向所述actor网络输入双足机器人在当前时刻的状态,获取所述actor网络输出的动作指令;

将所述actor网络输出的动作指令输入到所述双足机器人的仿真模型,获取所述双足机器人在下一时刻的状态;

将所述双足机器人的地面反馈力所对应的取模量在预设区间上进行尺度变换,获取尺度变换结果;

根据所述尺度变换结果和目标二值函数在所述下一时刻的值,获取线性步态观测奖励,所述目标二值函数是通过对所述双足机器人的步态训练过程的足部特征进行分析后,为所述双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数,所述相位与所述步态训练过程中的步态周期包括的各个时刻一一对应;

获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差;

根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励。

需要说明的是,上述方法的执行主体可以是计算机设备。

可选地,该双足机器人的仿真模型可以基于经典mujoco仿真环境进行构建,具体可以通过对双足机器人的关节耦合方式、动力学参数和运动学参数进行描述后得到。对建立的双足机器人的仿真模型进行模块化解析,并对双足机器人的各个模块的重量、惯量以及地面的摩擦力添加随机噪声,以增加训练后的控制器在实机环境下的冗余度。

根据构建好的双足机器人的仿真模型可以得到双足机器人在进行步态训练过程中的各个时刻的状态。

构建强化学习网络,强化学习网络采用OpenAI发布的PPO算法框架,包括actor网络和critic网络,利用本发明提出的新的奖励机制对双足机器人在仿真环境中进行训练以完成按照多种指定步态运动的目标。

执行至少一次第一训练过程,直至根据本发明提出的新的奖励机制获取的总奖励在最大值处收敛为止。其中,本发明提出的奖励计算算法不依赖于某种特定的强化学习框架或者机器人结构。

具体而言,该第一训练过程可以具体包括:

执行至少一次第二训练过程,直到第二训练过程的训练次数达到预设值,或双足机器人的状态异常。例如,获取的双足机器人的某一时刻的状态不应出现在步态训练过程中,则确定双足机器人的状态异常。比如,在双足机器人进行行走步态训练时,获取的某一时刻的状态中的双足机器人的高度小于进行行走步态训练时的预设高度,则判定双足机器人的状态异常。

在确定训练次数达到预设值或双足机器人的状态异常的情况下,基于构建的actor网络和critic网络分别对应的损失函数,对actor网络和critic网络进行更新。

具体而言,根据总奖励利用梯度下降算法计算actor网络的损失函数和critic网络的损失函数,并分别通过反向传播更新actor网络和critic网络,直至总奖励在最大值处收敛完成训练。

具体而言,第二训练过程可以具体包括:

向actor网络输入当前时刻的状态空间

通过对该地面反馈力取模,获取其对应的取模量,并将该取模量在预设区间(例如

具体而言,可以使用如下公式对该取模量在

其中,

将尺度变换结果与目标二值函数在该下一时刻下的值相乘即可计算出线性步态观测奖励。其中,该目标二值函数是通过对双足机器人的步态训练过程的足部特征进行特征分析后,为双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数。该相位与步态训练过程中的步态周期包括的各个时刻一一对应。假设,行走步态训练中的步态周期为5s,该步态周期包括100个时刻,则每个时刻的相位可以设置为5/100=0.05。

具体而言,假设对双足机器人的行走步态的足部特征进行分析,双足机器人的两条腿按运动状态可以分为触地与悬空两种状态,在一个运动周期(即步态周期)内触地与悬空状态为互斥状态。归一化后触地状态长度表示为

需要说明的是,对于其他步态训练如站立、跑、跳等大部分双足周期性步态都可以按双腿在一个周期内触地状态的长度和相位来进行特征提取。站立的特征可以表示为:两条腿的触地状态长度

这种将步态中的足部特征进行抽象提取并用于奖励计算的方式广义上适用于任何足式机器人的无参考轨迹下的步态训练,这也是本发明通用性上的创新点所在。

计算获取的双足机器人在下一时刻的状态与双足机器人在该时刻的预设状态之间的偏差,并根据该偏差以及线性步态观测奖励,可以得到执行一次第二训练过程的奖励

进一步地,在一个实施例中,所述预设值根据所述步态周期包括的时刻总数确定。

可选地,该预设值可以具体根据步态周期包括的时刻总数确定。

假设,步态周期包括

其中,

进一步地,在一个实施例中,所述actor网络的连接层由一个50维度的输入全连接层、两个256维度的隐藏层和一个10维度的输出全连接层组成。

可选地,本发明中的actor网络的连接层,包括一个50维的输入全连接层,两个256维的隐藏层,以及一个10维的输出全连接层。由于本发明在奖励计算时考虑了足部的相位信息,因此输入层除了包含从仿真模型中获取的双足机器人的状态外还需要包含双足的相位,使actor网络和双足的相位相关联。

本发明提供的基于强化学习的机器人步态训练方法,通过将步态中的足部特征进行分析,并用于总奖励的计算,使双足机器人在无参考轨迹的前提下可以通过单次强化学习训练就可以完成正确的步态训练,且只需要修改分别描述双足触地状态的目标二值函数就可以实现对步态训练过程的参数化精细控制,降低对双足机器人结构的依赖,实现对大部分双足周期性步态的描述和训练。

进一步地,在一个实施例中,所述获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差,可以包括:

获取所述双足机器人在所述下一时刻的状态中的姿态、高度和速度;

获取所述双足机器人在所述下一时刻的预设状态中的目标姿态、目标高度和目标速度;

根据第一偏差、第二偏差和第三偏差,获取所述偏差,所述第一偏差为所述姿态与所述目标姿态之间的偏差,所述第二偏差为所述高度与所述目标高度之间的偏差,所述第三偏差为所述速度与所述目标速度之间的偏差。

可选地,从获取的双足机器人的下一时刻的状态

对双足机器人的目标姿态和

进一步地,在一个实施例中,所述根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励,可以包括:

对所述线性步态观测奖励在预设区间进行平滑处理,获取目标线性步态观测奖励;

对所述目标线性步态观测奖励和所述偏差进行加权求和,获取执行一次所述第二训练过程的奖励。

具体而言,为了增加冗余度,对计算得到线性步态观测奖励进一步用正切函数在同尺度区间

对加权偏差向量

进一步地,在一个实施例中,所述双足机器人的仿真模型的获取方式,可以包括:

基于标准的格式文件,对所述双足机器人的关节耦合方式、运动学参数和动力学参数进行描述,获取所述双足机器人的仿真模型。

可选地,双足机器人的仿真模型可以使用标准的XML格式文件对双足机器人的关节耦合方式、运动学参数和动力学参数进行描述后得到。

具体地,建立标准XML格式文件对双足机器人的结构、关节电机参数及零件的重量惯量等参数进行描述,并引入建立好的强化学习仿真环境中。

本发明提供的基于强化学习的机器人步态训练方法,在无参考轨迹的前提下只需要单次强化学习就可以完成指定步态的运动训练,且只需要修改分别描述左右腿状态的目标二值函数就可以实现对目标步态的参数化精细控制,进而可以实现对大部分双足周期性步态的描述和训练。

进一步地,在一个实施例中,所述双足机器人的步态训练过程包括如下至少一种:

行走、跑、跳和站立。

本发明提供的基于强化学习的机器人步态训练方法,通过将步态中的足部特征进行分析,并用于总奖励的计算,使双足机器人在无参考轨迹的前提下可以通过单次强化学习训练就可以完成正确的行走、跑、跳和站立训练,且只需要修改分别描述双足触地状态的目标二值函数就可以实现对步态训练过程的参数化精细控制,降低对双足机器人结构的依赖,实现对行走、跑、跳和站立训练的描述和训练。

下面对本发明提供的基于强化学习的机器人步态训练系统进行描述,下文描述的基于强化学习的机器人步态训练系统与上文描述的基于强化学习的机器人步态训练方法可相互对应参照。

图2是本发明提供的基于强化学习的机器人步态训练系统的结构示意图,如图2所示,包括:

获取模块210,用于根据构建的双足机器人的仿真模型,获取所述双足机器人在步态训练过程中的各个时刻的状态;

训练模块211,用于执行至少一次第一训练过程,直至总奖励在最大值处收敛,所述总奖励根据执行每次第二训练过程获得的奖励确定;

其中,所述第一训练过程包括:

执行至少一次所述第二训练过程,直至所述第二训练过程的训练次数达到预设值或所述双足机器人的状态异常;

基于actor网络和critic网络分别对应的损失函数,更新所述actor网络和所述critic网络,所述损失函数根据所述总奖励确定;

所述第二训练过程包括:

向所述actor网络输入双足机器人在当前时刻的状态,获取所述actor网络输出的动作指令;

将所述actor网络输出的动作指令输入到所述双足机器人的仿真模型,获取所述双足机器人在下一时刻的状态;

将所述双足机器人的地面反馈力所对应的取模量在预设区间上进行尺度变换,获取尺度变换结果;

根据所述尺度变换结果和目标二值函数在所述下一时刻的值,获取线性步态观测奖励,所述目标二值函数是通过对所述双足机器人的步态训练过程的足部特征进行分析后,为所述双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数,所述相位与所述步态训练过程中的步态周期包括的各个时刻一一对应;

获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差;

根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励。

本发明提供的基于强化学习的机器人步态训练系统,通过将步态中的足部特征进行分析,并用于总奖励的计算,使双足机器人在无参考轨迹的前提下可以通过单次强化学习训练就可以完成正确的步态训练,且只需要修改分别描述双足触地状态的目标二值函数就可以实现对步态训练过程的参数化精细控制,降低对双足机器人结构的依赖,实现对大部分双足周期性步态的描述和训练。

图3是本发明提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communication interface)311、存储器(memory)312和通信总线(bus)313,其中,处理器310,通信接口311,存储器312通过通信总线313完成相互间的通信。处理器310可以调用存储器312中的逻辑指令,以执行如下方法:

根据构建的双足机器人的仿真模型,获取所述双足机器人在步态训练过程中的各个时刻的状态;

执行至少一次第一训练过程,直至总奖励在最大值处收敛,所述总奖励根据执行每次第二训练过程获得的奖励确定;

其中,所述第一训练过程包括:

执行至少一次所述第二训练过程,直至所述第二训练过程的训练次数达到预设值或所述双足机器人的状态异常;

基于actor网络和critic网络分别对应的损失函数,更新所述actor网络和所述critic网络,所述损失函数根据所述总奖励确定;

所述第二训练过程包括:

向所述actor网络输入双足机器人在当前时刻的状态,获取所述actor网络输出的动作指令;

将所述actor网络输出的动作指令输入到所述双足机器人的仿真模型,获取所述双足机器人在下一时刻的状态;

将所述双足机器人的地面反馈力所对应的取模量在预设区间上进行尺度变换,获取尺度变换结果;

根据所述尺度变换结果和目标二值函数在所述下一时刻的值,获取线性步态观测奖励,所述目标二值函数是通过对所述双足机器人的步态训练过程的足部特征进行分析后,为所述双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数,所述相位与所述步态训练过程中的步态周期包括的各个时刻一一对应;

获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差;

根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于强化学习的机器人步态训练方法,例如包括:

根据构建的双足机器人的仿真模型,获取所述双足机器人在步态训练过程中的各个时刻的状态;

执行至少一次第一训练过程,直至总奖励在最大值处收敛,所述总奖励根据执行每次第二训练过程获得的奖励确定;

其中,所述第一训练过程包括:

执行至少一次所述第二训练过程,直至所述第二训练过程的训练次数达到预设值或所述双足机器人的状态异常;

基于actor网络和critic网络分别对应的损失函数,更新所述actor网络和所述critic网络,所述损失函数根据所述总奖励确定;

所述第二训练过程包括:

向所述actor网络输入双足机器人在当前时刻的状态,获取所述actor网络输出的动作指令;

将所述actor网络输出的动作指令输入到所述双足机器人的仿真模型,获取所述双足机器人在下一时刻的状态;

将所述双足机器人的地面反馈力所对应的取模量在预设区间上进行尺度变换,获取尺度变换结果;

根据所述尺度变换结果和目标二值函数在所述下一时刻的值,获取线性步态观测奖励,所述目标二值函数是通过对所述双足机器人的步态训练过程的足部特征进行分析后,为所述双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数,所述相位与所述步态训练过程中的步态周期包括的各个时刻一一对应;

获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差;

根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励。

另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于强化学习的机器人步态训练方法,例如包括:

根据构建的双足机器人的仿真模型,获取所述双足机器人在步态训练过程中的各个时刻的状态;

执行至少一次第一训练过程,直至总奖励在最大值处收敛,所述总奖励根据执行每次第二训练过程获得的奖励确定;

其中,所述第一训练过程包括:

执行至少一次所述第二训练过程,直至所述第二训练过程的训练次数达到预设值或所述双足机器人的状态异常;

基于actor网络和critic网络分别对应的损失函数,更新所述actor网络和所述critic网络,所述损失函数根据所述总奖励确定;

所述第二训练过程包括:

向所述actor网络输入双足机器人在当前时刻的状态,获取所述actor网络输出的动作指令;

将所述actor网络输出的动作指令输入到所述双足机器人的仿真模型,获取所述双足机器人在下一时刻的状态;

将所述双足机器人的地面反馈力所对应的取模量在预设区间上进行尺度变换,获取尺度变换结果;

根据所述尺度变换结果和目标二值函数在所述下一时刻的值,获取线性步态观测奖励,所述目标二值函数是通过对所述双足机器人的步态训练过程的足部特征进行分析后,为所述双足机器人的双足分别建立的以相位为自变量,以触地状态为因变量的二值函数,所述相位与所述步态训练过程中的步态周期包括的各个时刻一一对应;

获取所述双足机器人在下一时刻的状态与所述双足机器人在所述下一时刻的预设状态之间的偏差;

根据所述线性步态观测奖励和所述偏差,获取执行一次所述第二训练过程的奖励。

以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质
  • 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质
技术分类

06120116502614