一种基于核化运动原语的技能学习方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及机械臂控制领域，具体涉及一种基于核化运动基元(KMP)的示教学习(LfD)方法。

背景技术

现代机器人技术的快速发展使机器人进入了新的工作场景，如家庭、医院、健身房、办公室等，这为人类带来了更多的便利和机会，同时也对机器人技术提出了更高的要求。然而，在这些场景中存在许多不可预测的扰动，这使应用预编程方法变得非常困难。相反，从演示中学习(LfD)提供了一种将技能从人类转移到机器人的高效和直观的方法，从而可以在新环境中进行泛化。

近十几年来，大量的LfD算法被提出，如动态运动原语(DMP)、动态系统(DS)、高斯混合模型(GMM)和概率运动原语(ProMP)等。DMP算法将运动轨迹的每个维度建模为二阶吸引子的时间演化系统。在强迫函数项的帮助下，DMP可以学习极其复杂的动作。然而，DMP只能对单一轨迹进行建模，忽略了轨迹维度之间的相关性。此外，强迫函数项是时间编码的，这使得DMP对时间扰动敏感。在前人基础上，一种DMP算法被提出，它结合GMM/GMR提高了轨迹维度建模的能力。ProMP算法通过应用分层贝叶斯模型对高维空间中的运动轨迹进行编码，提取演示的变异性，并为每个观测提供置信度标准。通过应用贝叶斯定理和轨迹分布的乘积，ProMP可以泛化技能，包括过点、组合和混合运动基元。然而，ProMP无法处理高维输入的问题。为了克服这个局限性，Huang等提出了核化运动基元(KMP)算法。该算法通过求解一个优化问题得到最优的参数化轨迹分布。然后引入核函数代替人工定义的基函数来处理高维输入。

但是，ProMP和KMP需要广泛的论证来保证技能泛化的可靠性，这导致在很少演示的情况下再现精度不理想。因此，需要提出一种新的方法，以克服现有算法的局限性，提高机器人任务泛化的精度和效率。

发明内容

为了克服现有技术的机器人任务泛化的精度和效率较低的不足，原始KMP算法在泛化和处理高维输入方面表现优异，但在复现精度方面略显不足，本发明提供一种基于核化运动原语的技能学习方法，本发明对KMP算法进行了两点改进，首先，采用多元高斯过程(MVGP)对参考轨迹进行建模，初步提高了KMP的复现精度；其次，提出了一个优化问题来学习KMP中核函数的超参数，减少了对经验的依赖。结合这两步改进，提出了一种基于KMP的机器人技能学习方法i-KMP，用于学习机器人的运动轨迹，通过估计更可靠的参考轨迹分布和确定最优核函数，i-KMP方法可以更准确地学习技能模型。

为了实现上述目的，本发明采用的技术方案如下：

一种基于核化运动原语的技能学习方法，包括以下步骤：

1)参考轨迹学习：通过机械臂示教得到演示数据集，如式(1-1)所示：

其中，D、s

将演示数据集定义为多元高斯过程

其中f、M、Σ、Ω分别表示为演示数据集上的多元高斯过程、均值矩阵、列协方差矩阵和行协方差矩阵；ξ、

其中ξ、S、K(S,S)分别表示演示数据集的输出矩阵、演示数据集的输入矩阵和核函数矩阵；核函数矩阵K(S,S)由高斯径向基核函数k(·,·)构建，其形式表示为：

其中k(s

针对式(1-3)中的分布，利用极大似然法估计求解最优参数，其中未知参数包括核中的超参数、噪声和行协方差矩阵Ω；求解得到最优参数后，给定一组新的轨迹输入矩阵S

其中K(S+S

同时，预测的轨迹分布P(ξ

其中

计算得到上述参数后，新的轨迹的ξ

其中

2)改进核化运动基元的技能学习：对于(1-1)中的演示数据集D，使用分层贝叶斯模型建模轨迹概率模型，其运动轨迹可以被表示为

其中ξ(s)，Φ(s)分别是输出和对应的基函数对角矩阵，

则轨迹分布P(ξ(s)|θ

其中

不同于原始的核化运动原语(KMP)利用高斯混合模型(GMM)对(1-9)式进行建模，并使用高斯混合回归(GMR)估计其条件概率分布P(ξ|s)，这里使用1)中的多元高斯过程回归(MVGP)估计P(ξ|s)：

其中

然后在选择好参考点

其中T是总的参考点的数量，D

得到μ

其中E表示预测得到的轨迹的均值，D表示预测得到的轨迹的协方差，代表不确定性。

由于核化运动原语(KMP)算法的超参数θ是人工指定的，为解决这个问题，设计构造了如下优化问题去自动学习核函数中的超参数,这里使用高斯核作为KMP的核函数：

其中J(θ)，θ，

通过使用连续二次规划(SQP)算法求解优化问题(1-13)，解得最优参数θ；

本发明有益效果主要表现在：

1)提出了一种基于核化运动原语的技能学习方法，首次将多元高斯过程回归(MV-GPR)用于KMP的初始化，以较少的实验次数获得了较高的学习精度。

2)提出了一种基于核化运动原语的技能学习方法，KMP中核函数的超参数是通过求解一个优化问题来学习的，而不是通过经验指定。

附图说明

图1是本发明方法的实现框图。

图2是本发明实施例任务的示教演示。

图3是本发明实施例方法的复现轨迹。

图4是本发明实施例方法与原始KMP方法的复现轨迹精度对比。

具体实施方式

下面结合具体实施例，对本发明作进一步的详细说明。

参照图1～图4，一种基于核化运动原语的可变阻抗技能学习方法，原始KMP算法在泛化和处理高维输入方面表现优异，但在复现精度方面略显不足；针对这一问题，本发明对KMP算法进行了两点改进：首先，采用多元高斯过程(MVGP)对参考轨迹进行建模，初步提高了KMP的复现精度；其次，提出了一个优化问题来学习KMP中核函数的超参数，减少了对经验的依赖。结合这两步改进，提出了一种基于KMP的机器人技能学习算法i-KMP，用于学习机器人的运动轨迹。通过估计更可靠的参考轨迹分布和确定最优核函数，i-KMP方法可以更准确地学习技能模型。我们还提出了一种新颖的可变阻抗控制(VIC)方法，利用KMP的概率特性来权衡接触柔顺性和跟踪精度。

在本实施例中，使用机械臂去执行试管拾取和放置任务去验证我们的方法。动觉教学分为两个步骤：在步骤(1)中，人类导师将机器人从其初始位置拖到试管上方，然后机器人关闭其末端抓手并抓取试管。步骤(2)，人类导师拖动机器人将试管放入另一个试管架中。每个步骤进行7次示教，这些示教被建模为时间驱动的轨迹。在后续阶段，我们分别对这两个步骤进行学习。为保证机器人准确抓取和放置试管，我们对其进行了处理将示教开始/结束点的均值作为期望点，通过Via-point轨迹调制生成参考轨迹。机器人沿参考轨迹完成拾放任务。实验所用的是Franka-Panda机械臂和一台配备Intel Core i7-8700K CPU的计算机。