掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的机械臂控制方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:30:30


基于强化学习的机械臂控制方法、装置、电子设备及存储介质

技术领域

本申请属于控制技术领域,具体涉及一种基于强化学习的机械臂控制方法、装置、电子设备及存储介质。

背景技术

随着机械臂的应用领域不断扩大,利用机械臂更加可靠地执行任务变得越来越重要。由于机械臂在执行任务过程中,安装在机械臂末端地执行工具会受到外部作用力的影响导致形变进而降低工作效果,因此,对机械臂进行执行工具受力的柔顺补偿以及运行状态的控制调整成为了人们研究的热点。

现有技术中,对机械臂柔顺控制的方式主要是通过对机械臂的运行轨迹进行预测和仿真,计算所述机械臂末端受到的外部作用力数据,进而根据该数据对机械臂进行受力补偿,调整机械臂的运行状态;或者是通过对机械臂末端安装力传感器感知外部作用力,进而根据外部作用力数据对机械臂进行柔顺补偿,调整机械臂的运行状态。但是,利用现有技术无法对机械臂末端受到的外部作用力做出快速补偿,存在对机械臂控制不够柔顺以及对机械臂运行状态调整效率较低的问题。

发明内容

本申请实施例的目的是提供一种基于强化学习的机械臂控制方法、装置、电子设备及存储介质,能够解决对机械臂控制不够柔顺以及对机械臂运行状态调整效率较低的问题,通过预先构建机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集,并根据所述机械臂的当前运行状态确定所述机械臂的最优阻抗参数,对所述最优阻抗参数进行二次调节,进而确定所述机械臂的目标运行状态,可以达到自动对机械臂进行柔顺补偿的效果,提高了对机械臂柔顺补偿控制的可靠性和效率。

第一方面,本申请实施例提供了一种基于强化学习的机械臂控制方法,所述方法包括:

基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;

获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;

获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;

根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。

进一步的,获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数,包括:

获取所述机械臂采集到的受力数据;

根据所述受力数据与预设受力数据临界值,计算折现因子;

根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数。

进一步的,根据所述受力数据与预设受力数据临界值,计算折现因子,包括利用如下公式计算:

其中,α为折现因子,f为所述机械臂采集到的受力数据,f

根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数,包括利用如下公式计算:

其中,α为折现因子;K、B分别为所述机械臂在当前运行状态下的两个最优阻抗参数,

进一步的,所述根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态,包括:

读取所述机械臂当前状态下关节角度的向量,获取所述机械臂当前状态下的惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵;

根据所述关节角度的向量、惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵,以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数;

将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态。

进一步的,根据所述关节角度的向量、惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵,以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数,包括利用如下公式计算:

其中,q为所述机械臂的当前运行状态参数,M为惯性矩阵,C为科里奥利效应,g为重力力矩的向量,J为描述速度运动学的雅克比矩阵,τ为所述机械臂当前状态的受阻力学参数;

将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态,包括利用如下公式计算:

其中,q

进一步的,所述基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集,包括:

根据所述机械臂不同时刻的状态参数值以及预设权重,构建所述机械臂当前状态的奖励函数;

根据所述奖励函数累加获取对所述机械臂控制输入的价值函数;

利用价值函数逼近策略以及误差最小化原则,获取所述机械臂当前状态与最优控制输入的关系;

根据所述所述机械臂当前状态与最优控制输入的关系,获取对所述机械臂控制的最优阻抗参数集。

第二方面,本申请实施例提供了一种基于强化学习的机械臂控制装置,所述装置包括:

阻抗参数集获取模块,用于基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;

阻抗参数确定模块,用于获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;

阻抗参数调节模块,用于获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;

目标运行状态确定模块,用于根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。

进一步的,所述阻抗参数调节模块,具体用于:

获取所述机械臂采集到的受力数据;

根据所述受力数据与预设受力数据临界值,计算折现因子;

根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。

在本申请实施例中,基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。通过上述基于强化学习的机械臂控制方法,能够解决对机械臂控制不够柔顺以及对机械臂运行状态调整效率较低的问题,通过预先构建机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集,并根据所述机械臂的当前运行状态确定所述机械臂的最优阻抗参数,对所述最优阻抗参数进行二次调节,进而确定所述机械臂的目标运行状态,可以达到自动对机械臂进行柔顺补偿的效果,提高了对机械臂柔顺补偿控制的可靠性和效率。

附图说明

图1是本申请实施例一提供的基于强化学习的机械臂控制方法的流程示意图;

图2是本申请实施例二提供的基于强化学习的机械臂控制方法的流程示意图;

图3是本申请实施例三提供的基于强化学习的机械臂控制装置的结构示意图;

图4是本申请实施例四提供的电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的基于强化学习的机械臂控制方法、装置、设备及介质进行详细地说明。

实施例一

图1是本申请实施例一提供的基于强化学习的机械臂控制方法的流程示意图。如图1所示,具体包括如下步骤:

S101,基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;

首先,本方案的使用场景可以是需要对机械臂进行柔顺补偿控制的场景,具体的,可以是机械臂在执行任务的过程中,用于外部环境的作用力导致的执行工具受力形变进而影响任务效果的场景。基于强化学习模型,根据机械臂受到的外部作用力,对所述机械臂进行最优阻抗参数的实时调整以及二次调节,可以达到自动对机械臂进行柔顺补偿的效果,提高了对机械臂柔顺补偿控制的可靠性和效率。

基于上述使用场景,可以理解的,本申请的执行主体可以是安装在机械臂控制系统中,具有数据获取、计算以及模型构建功能的软件等,此处不做过多限定。

在本方案中,强化学习是机器学习的范式和方法论之一,可以用于描述和解决机械臂在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题,强化学习和监督学习最大的区别是它是没有监督学习已经准备好的训练数据输出值的,强化学习只有奖励值,但是这个奖励值和监督学习的输出值不一样,它不是事先给出的,而是延后给出的,例如:机械臂与外界进行交互才能够得到奖励值。同时,强化学习的每一步与时间顺序前后关系紧密。构建的机械臂强化学习模型的过程可以是将机械臂控制系统作为算法执行个体,通过对外部环境的初步判断为机械臂选择一个合适的动作与外部环境进行交互,外部环境在机械臂执行动作之后,状态发生改变,并给予机械臂控制系统采取所述动作的反馈结果,所述反馈结果可以是代表对所述动作进行奖励的正反馈,还可以是代表对所述动作进行惩罚的负反馈,进而所述机械臂控制系统根据所述反馈结果为机械臂进行下一步动作的选择,由此往复。

在本方案中,阻抗参数可以是用于控制机械臂运行状态或者是对机械臂产生作用力,进而抵消由于外部环境的影响导致的机械臂运行状态的改变。所述最优阻抗参数可以是能够对机械臂运行状态进行柔顺补偿进而将误差减小到最小值的阻抗参数。由于不同时刻外部环境对机械臂的作用力可能不同,因此,对机械臂不同时刻运行状态进行控制的最优阻抗参数也不同,具体的,可以是根据预先构建的机械臂强化学习模型,对机械臂在各个运行状态下的全部阻抗参数进行获取,进而形成对所述机械臂控制的最优阻抗参数集。

S102,获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;

在本方案中,机械臂的当前运行状态可以通过运行参数表示,例如:所述运行参数可以是机械臂的运行速度、位移以及目标位置等参数。具体的,所述机械臂的当前运行状态可以是在外部环境作用力对所述机械臂进行作用之后,所述机械臂达到的运行状态。根据所述机械臂的当前运行状态以及获取到的所述最优阻抗参数集,对所述机械臂的阻抗参数进行实时调整,确定实时机械臂在当前运行状态下的最优阻抗参数。

S103,获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;

在本方案中,机械臂的受力数据主要是执行工具在执行任务的过程中外部环境对所述执行工具的作用力数据,由于所述执行工具与所述机械臂末端相连,因此,可以通过对所述机械臂末端安装传感器读取所述机械臂在当前运行状态下的受力数据。根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数。具体的,对所述最优阻抗参数进行二次调节可以是由于不同的受力数据对所述机械臂末端安装的执行工具的影响不同,因此,若所述受力数据较小,则可以增大所述机械臂的阻抗参数,避免机械臂的运行方向发生改变;若所述受力数据较大,则为了避免执行工具的形变进而影响执行效果,可以减小阻抗参数使机械臂进行顺从跟随,将二次调节之后的阻抗参数作为最终阻抗参数。

基于上述实施例,可选的,获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数,包括:

获取所述机械臂采集到的受力数据;

根据所述受力数据与预设受力数据临界值,计算折现因子;

根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数。

在本方案中,可以通过对机械臂末端安装传感器获取所述机械臂采集到的受力数据,所述受力数据可以机械臂末端的执行工具在执行任务时,外部环境与所述机械臂末端的执行工具的交互力数据。根据所述受力数据与预设受力数据临界值,计算折现因子。具体的,所述受力数据临界值可以是根据当前机械臂运行的外部环境以及所述执行工具的属性等预先设置的,用于计算所述折现因子的参数值。根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数,机械臂控制系统根据所述最终阻抗参数控制所述机械臂的运行状态。

在本方案中,通过获取所述机械臂采集到的受力数据与预设受力数据临界值,计算折现因子,并根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数,可以提高利用阻抗参数对机械臂控制可靠性以及控制效率。

基于上述实施例,可选的,根据所述受力数据与预设受力数据临界值,计算折现因子,包括利用如下公式计算:

其中,α为折现因子,f为所述机械臂采集到的受力数据,f

根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数,包括利用如下公式计算:

其中,α为折现因子;K、B分别为所述机械臂在当前运行状态下的两个最优阻抗参数,

在本方案中,所述折现因子可以利用公式:

在本方案中,通过所述机械臂采集到的受力数据与预设受力数据临界值的关系,利用公式计算折现因子,并根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数,可以提高利用阻抗参数对机械臂控制可靠性以及控制效率。

S104,根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。

在本方案中,机械臂的受阻力学参数可以是由于所述机械臂末端的执行工具受到外部环境的作用力导致的机械臂的运行状态发生改变的力学参数,例如:力矩、扭矩以及力的方向等参数。根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,进而根据所述受阻力学参数,可以计算所述机械臂的目标运行状态与当前运行状态的误差值,跟据所述误差值以及所述当前运行状态计算所述机械臂的目标运行状态。所述机械臂的目标运行状态可以是机械臂系统对所述机械臂进行柔顺补偿之后的运行状态,具体的,可以是为消除运行误差控制所述机械臂达到的最终状态。所述目标运行状态可以是机械臂的目标速度、目标位移、目标位置以及目标角度等,此处不做过多限定。

基于上述实施例,可选的,所述根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态,包括:

读取所述机械臂当前状态下关节角度的向量,获取所述机械臂当前状态下的惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵;

根据所述关节角度的向量、惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵,以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数;

将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态。

在本方案中,对所述机械臂当前状态下关节角度向量的读取可以是通过对所述机械臂安装角度传感器读取所述关节角度向量的大小,并根据所述机械臂的运行方向确定所述关节角度向量的方向;还可以是根据所述机械臂末端上一运行状态的位置以及当前位置获取所述关节角度向量等,此处不做过多限定。通过读取所述机械臂当前状态下关节角度的向量表并获取所述机械臂当前状态下的惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数。并将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态。

在本方案中,通过读取所述机械臂当前状态下关节角度的向量,并获取所述机械臂当前状态下的惯性矩阵、科里奥利效应、重力力矩的向量、雅克比矩阵以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数,并将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态,可以提高对机械臂控制的及时性和可靠性。

基于上述实施例,可选的,根据所述关节角度的向量、惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵,以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数,包括利用如下公式计算:

其中,q为所述机械臂的当前运行状态参数,M为惯性矩阵,C为科里奥利效应,g为重力力矩的向量,J为描述速度运动学的雅克比矩阵,τ为所述机械臂当前状态的受阻力学参数;

将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态,包括利用如下公式计算:

其中,q

在本方案中,计算对所述机械臂当前状态的受阻力学参数,可以利用公式:

在本方案中,通过读取所述机械臂当前状态下关节角度的向量,并获取所述机械臂当前状态下的惯性矩阵、科里奥利效应、重力力矩的向量、雅克比矩阵以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数,并将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态,可以提高对机械臂控制的及时性和可靠性。

本申请实施例所提供的技术方案,基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。通过上述基于强化学习的机械臂控制方法,能够解决对机械臂控制不够柔顺以及对机械臂运行状态调整效率较低的问题,通过预先构建机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集,并根据所述机械臂的当前运行状态确定所述机械臂的最优阻抗参数,对所述最优阻抗参数进行二次调节,进而确定所述机械臂的目标运行状态,可以达到自动对机械臂进行柔顺补偿的效果,提高了对机械臂柔顺补偿控制的可靠性和效率。

实施例二

图2是本申请实施例二提供的基于强化学习的机械臂控制方法的流程示意图。如图2所示,具体包括如下步骤:

S201,基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;

基于上述实施例,可选的,所述基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集,包括:

根据所述机械臂不同时刻的状态参数值以及预设权重,构建所述机械臂当前状态的奖励函数;

根据所述奖励函数累加获取对所述机械臂控制输入的价值函数;

利用价值函数逼近策略以及误差最小化原则,获取所述机械臂当前状态与最优控制输入的关系;

根据所述所述机械臂当前状态与最优控制输入的关系,获取对所述机械臂控制的最优阻抗参数集。

在本方案中,状态参数值可以是机械臂运行过程中某一时刻的运行状态值,可以包括运行速度、加速度、位移以及运行误差等参数值。由于不同时刻所述机械臂的运行状态参数值可能不同,同时不同的状态参数对所述机械臂强化学习模型的影响不同,因此,可以对所述机械臂的不同状态参数设置不同的权重,并根据所述机械臂不同时刻的状态参数值以及预设权重,构建所述机械臂当前状态的奖励函数。具体的,可以利用公式:

在本方案中,通过预先构建的机械臂强化学习模型,并根据该模型对机械臂控制系统进行训练,获取对所述机械臂控制的最优阻抗参数集,可以达到对所述机械臂自动控制的目的,提高了对所述机械臂控制的效率。

S202,获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;

S203,获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;

S204,根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。

本申请实施例所提供的技术方案,根据所述机械臂不同时刻的状态参数值以及预设权重,构建所述机械臂当前状态的奖励函数;根据所述奖励函数累加获取对所述机械臂控制输入的价值函数;利用价值函数逼近策略以及误差最小化原则,获取所述机械臂当前状态与最优控制输入的关系;根据所述所述机械臂当前状态与最优控制输入的关系,获取对所述机械臂控制的最优阻抗参数集,可以达到对所述机械臂自动控制的目的,提高了对所述机械臂控制的效率。

实施例三

图3是本申请实施例三提供的基于强化学习的机械臂控制装置的结构示意图。如图3所示,具体包括如下:

阻抗参数集获取模块,用于基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;

阻抗参数确定模块,用于获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;

阻抗参数调节模块,用于获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;

目标运行状态确定模块,用于根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。

进一步的,所述阻抗参数调节模块,包括:

受力数据采集单元,用于获取所述机械臂采集到的受力数据;

折现因子计算单元,用于根据所述受力数据与预设受力数据临界值,计算折现因子;

阻抗参数调节单元,用于根据所述折现因子对所述最优阻抗参数进行二次调节,得到最终阻抗参数。

进一步的,折现因子计算单元,包括利用如下公式计算:

其中,α为折现因子,f为所述机械臂采集到的受力数据,f

阻抗参数调节单元,包括利用如下公式计算:

其中,α为折现因子;K、B分别为所述机械臂在当前运行状态下的两个最优阻抗参数,

进一步的,所述目标运行状态确定模块,具体用于:

读取所述机械臂当前状态下关节角度的向量,获取所述机械臂当前状态下的惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵;

根据所述关节角度的向量、惯性矩阵、科里奥利效应、重力力矩的向量和雅克比矩阵,以及所述最终阻抗参数,计算对所述机械臂当前状态的受阻力学参数;

将所述受阻力学参数、惯性矩阵以及最终阻抗参数代入机器人动力学方程,确定所述机械臂的目标运行状态。

进一步的,所述目标运行状态确定模块,具体用于利用如下公式计算:

其中,q为所述机械臂的当前运行状态参数,M为惯性矩阵,C为科里奥利效应,g为重力力矩的向量,J为描述速度运动学的雅克比矩阵,τ为所述机械臂当前状态的受阻力学参数;

所述目标运行状态确定模块,具体用于利用如下公式计算:

其中,q

进一步的,所述阻抗参数集获取模块,具体用于:

根据所述机械臂不同时刻的状态参数值以及预设权重,构建所述机械臂当前状态的奖励函数;

根据所述奖励函数累加获取对所述机械臂控制输入的价值函数;

利用价值函数逼近策略以及误差最小化原则,获取所述机械臂当前状态与最优控制输入的关系;

根据所述所述机械臂当前状态与最优控制输入的关系,获取对所述机械臂控制的最优阻抗参数集。

本实施例所提供的技术方案,阻抗参数集获取模块,用于基于预先构建的机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集;其中,所述最优阻抗参数集中的阻抗参数与运行状态具有关联关系;阻抗参数确定模块,用于获取机械臂的当前运行状态,根据所述当前运行状态确定所述机械臂在当前运行状态下的最优阻抗参数;阻抗参数调节模块,用于获取所述机械臂在当前运行状态下的受力数据,根据所述受力数据对所述最优阻抗参数进行二次调节,得到最终阻抗参数;目标运行状态确定模块,用于根据所述最终阻抗参数,确定所述机械臂的受阻力学参数,以及,根据所述受阻力学参数,确定所述机械臂的目标运行状态。通过上述基于强化学习的机械臂控制装置,能够解决对机械臂控制不够柔顺以及对机械臂运行状态调整效率较低的问题,通过预先构建机械臂强化学习模型,获取对所述机械臂控制的最优阻抗参数集,并根据所述机械臂的当前运行状态确定所述机械臂的最优阻抗参数,对所述最优阻抗参数进行二次调节,进而确定所述机械臂的目标运行状态,可以达到自动对机械臂进行柔顺补偿的效果,提高了对机械臂柔顺补偿控制的可靠性和效率。

本申请实施例中的基于强化学习的机械臂控制装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。

本申请实施例中的基于强化学习的机械臂控制装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。

本申请实施例提供的基于强化学习的机械臂控制装置能够实现图1至图2的方法实施例实现的各个过程,为避免重复,这里不再赘述。

实施例四

如图4所示,本申请实施例还提供一种电子设备400,包括处理器401,存储器402,存储在存储器402上并可在所述处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述基于强化学习的机械臂控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

实施例五

本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述基于强化学习的机械臂控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。

实施例六

本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述基于强化学习的机械臂控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

技术分类

06120115935312