掌桥专利:专业的专利平台
掌桥专利
首页

机械臂控制方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:11:54


机械臂控制方法、装置、电子设备及存储介质

技术领域

本申请涉及机械臂抓取控制领域,尤其涉及一种机械臂控制方法、装置、电子设备及存储介质。

背景技术

随着科技不断在进步,工业机械臂正在走进工厂替代人类工作。

目前,机械臂按照设定好的控制程序抓取固定结构的平面物体,以提高工作效率。

然而,当平面物体的结构发生微小的改变时,机械臂便无法继续工作,必须对控制程序进行重新的设定。

发明内容

本申请提供一种机械臂控制方法、装置、电子设备及存储介质,用以解决平面物体结构变化机械臂无法继续工作的问题。

第一方面,本申请提供一种机械臂控制方法,方法包括:

获取待取物体所对应的目标物体图像;

根据目标物体图像,确定待取物体的类型信息和位姿信息;

根据类型信息和位姿信息确定抓取路径,抓取路径为从机械臂当前所处位置至待取物体所在位置的运动路径;

根据抓取路径,控制机械臂各关节进行角度调整,以抓取待取物体。

可选地,根据目标物体图像,确定待取物体的类型信息,包括:

根据目标物体图像,使用预先训练好的分类模型得到分类结果;

根据分类结果,确定待取物体的类型信息。

可选地,根据目标物体图像,确定待取物体的位姿信息,包括:

根据目标物体图像,确定目标图像特征;

根据目标图像特征,使用位姿计算模型确定待取物体的位姿信息。

可选地,根据类型信息和位姿信息确定抓取路径,包括:

获取机械臂各关节的当前位姿信息;

根据当前位姿信息、待取物体的类型信息和位姿信息,使用决策模型确定抓取路径。

可选地,根据当前位姿信息、待取物体的类型信息和位姿信息,使用决策模型确定抓取路径,包括:

决策模型为Q,假设迭代次数为Rounds,其中,Rounds为正整数,批量梯度下降时的batch_size=m,经验回放池最大尺寸n;

将当前位姿信息、待取物体的类型信息和位姿信息作为状态S下的状态向量

将状态向量

在状态S下执行当前动作A,获得下一状态S′,下一状态S′对应特征向量

将五元组

将状态S更新为状态S′;

判断is_end是否是最终状态,若否,继续循环从经验回放池中随机采取样本,若是,循环结束,得到最终决策模型;

根据最终决策模型,确定抓取路径。

可选地,状态向量

可选地,根据抓取路径,控制机械臂各关节进行角度调整,以抓取待取物体,包括:

根据抓取路径,使用平滑轨迹插值法得到机械臂的运动轨迹;

根据运动轨迹,控制机械臂各关节进行角度调整,以抓取待取物体。

可选地,还包括:

根据目标物体图像,若无法确定目标物体类型,则重新通过视觉传感器获取目标物体图像。

第二方面,本申请提供一种机械臂控制装置,装置包括:

获取模块,用于获取待取物体所对应的目标物体图像;

处理模块,用于根据目标物体图像,确定待取物体的类型信息和位姿信息;

处理模块,还用于根据类型信息和位姿信息确定抓取路径,抓取路径为从机械臂当前所处位置至待取物体所在位置的运动路径;

处理模块,还用于根据抓取路径,控制机械臂各关节进行角度调整,以抓取待取物体。

第三方面,本申请提供一种电子设备,包括:存储器,处理器;

存储器;用于存储处理器可执行指令的存储器;

处理器,用于根据存储器存储的可执行指令,实现第一方面及可选方案涉及的机械臂控制方法。

第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现第一方面及可选方案涉及的机械臂控制方法。

第五方面,本申请提供一种计算机程序产品,包括指令,该指令被处理器执行时实现第一方面及可选方案涉及的机械臂控制方法。

本申请提供一种机械臂控制方法、装置、电子设备及存储介质,获取待取物体所对应的目标物体图像;根据目标物体图像,确定待取物体的类型信息和位姿信息;根据类型信息和位姿信息确定抓取路径,抓取路径为从机械臂当前所处位置至待取物体所在位置的运动路径;根据抓取路径,控制机械臂各关节进行角度调整,以抓取待取物体。将视觉传感器与机械臂相结合,通过视觉引导完成对结构不固定的待取物体的抓取,抓取精度高并且稳定,同时制约条件较少,自适应性强,相对灵活。

附图说明

图1为本申请根据一示例性实施例示出的机械臂控制系统的场景示意图;

图2为本申请根据一示例性实施例示出的机械臂控制方法的流程示意图;

图3为本申请根据另一示例性实施例示出的机械臂控制方法的流程示意图;

图4为本申请根据一示例性实施例示出的机械臂控制装置的结构示意图;

图5为本申请根据一示例性实施例示出的电子设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

随着科技不断在进步,工业机械臂正在走进工厂替代人类工作。机械臂是一种模仿人手的机械结构,例如平面多关节机器人、码垛机等。机械臂一般具有多个关节臂和设置在最末关节臂上的执行端,在执行端上安装各种执行部件,通过自动化控制,将执行端在空间上移动至指定的坐标,实现执行部件所提供的功能,例如写字、抓取、测试等功能。

目前,机械臂按照设定好的控制程序抓取固定结构的平面物体,以提高工作效率。

然而,当平面物体的结构发生微小的改变时,机械臂便无法继续工作,必须对控制程序进行重新的设定。

针对上述问题,本申请提出了一种机械臂控制方法,通过视觉传感器获取待取物体所对应的目标物体图像,利用深度学习和计算机图像处理方法,以获得目标物体图像中待取物体的信息和位姿信息。同时,将位姿信息转换成通用坐标系下的位姿信息。然后,利用决策模型自动计算出机械臂的抓取路径。根据抓取路径,控制机械臂调整各关节的角度,控制机械臂对待取物体进行抓取。将视觉传感器与机械臂相结合,通过视觉引导完成对结构不固定的待取物体的抓取,抓取精度高并且稳定,同时制约条件较少,自适应性强,相对灵活。

图1为本申请根据一示例性实施例示出的机械臂控制系统的场景示意图。如图1所示,本实施例提供的机械臂控制系统包括:视觉传感器110、主控服务器120以及机械臂130。视觉传感器110用于采集待取物体所对应的目标物体图像,并将目标物体图像发送至主控服务器120。主控服务器120接收视觉传感器110发送的目标物体图像,根据目标物体图像确定机械臂130从当前所处位置至待取物体所在位置的运动路径,根据运动路径控制机械臂130各关节进行角度调整,将控制信号发送至机械臂130。机械臂130用于接收主控服务器120发送的控制信号,根据控制信号进行各关节的角度调整,以抓取待取物体。

图2为本申请根据一示例性实施例示出的机械臂控制方法的流程示意图。如图2所示,本实施例提供的机械臂控制方法基于图1所示的机械臂控制系统,该机械臂控制方法包括如下步骤:

S101、获取待取物体所对应的目标物体图像。

更具体地,目标物体图像为三维空间下的RGB图片。一个或多个视觉传感器对待取物体进行拍摄获取相应角度的目标物体图像,并将目标物体图像发送至主控服务器。其中,视觉传感器包括RGB摄像机或者工业相机。视觉传感器可以从一个或多个角度拍摄获取目标物体图像,多角度目标物体图像可以从多角度确定待取物体的类型信息和位姿信息,从而令机械臂可以更准确地抓取。主控服务器接收待取物体所对应的目标物体图像。

S102、根据目标物体图像,确定待取物体的类型信息和位姿信息。

更具体地,主控服务器根据视觉传感器发送的目标物体图像信息,使用分类模型确定待取物体的类型信息,其中,类型信息包括类型编号。将目标物体图像信息输入到分类模型中,分类模型输出待取物体的类型编号,以确定待取物体的类型信息。主控服务器根据视觉传感器发送的目标物体图像信息,得到至少四个三维空间点的相对坐标位置,使用位姿计算模型确定这些三维空间点在视觉传感器下的位姿。将视觉传感器下的位姿转换成通用坐标系下的位姿信息。位姿信息包括待取物体所在的空间位置信息和方向信息。待取物体所在的空间位置信息为待取物体表面上预设数量的点的空间坐标,预设数量的点包括至少四个三维空间点。

S103、根据类型信息和位姿信息确定抓取路径,抓取路径为从机械臂当前所处位置至待取物体所在位置的运动路径。

更具体地,抓取路径为从机械臂当前所处位置至待取物体所在位置的运动路径,运动路径还包括机械臂的各关节的运动路径。根据类型信息和位姿信息,采用强化学习算法确定各个时刻机械臂各关节的运动路径,直到机械臂成功抓取待取物体。

对于多关节的机械臂,存在多种关节角度配置能够使得机械臂抓取待取物体,机械臂的抓取路径存在无数的解。传统方法一般使用采样规划(Sampling-based Planning)进行路径规划,而该方法找到的并不是一个最优解,而是快速的找到一个有效解。因为存在无数个路径,找到最优解耗费更多的时间。然而,有效解可能不是最优解,意味着机械按照计算出的抓取路径抓取物体时,非最优解得出的抓取路径并不是最短的,即需要单个机械臂关节转动不必要的角度,或者多个关节转动不必要的角度,长期以往,机械臂关机会进行无谓的转动,对机械臂关机造成不必要的损耗。同时,由于该方法是基于采样,在插值采样有误差的情况下,采样规划出来的路径有时候对于机械臂是无效路径,即该路径对于实际机械臂来说是无法执行该路径规划的。因此,本实施例采用强化学习算法来完成从环境的端到端的实时场景的抓取路径规划,确定机械臂各关节的每步决策动作,进而得到最优的完整路径。

S104、根据抓取路径,控制机械臂各关节进行角度调整,以抓取待取物体。

更具体地,假设机械臂从开始抓取到完成抓取所用时间为t,抓取路径包括1,2,…,t时刻的机械臂的运动路径。在1,2,…,t-1时刻,根据对应时刻的抓取路径,控制机械臂各关节进行角度调整,直到t时刻,在控制机械臂各关节角度调整的同时,控制机械臂的执行端抓取待取物体。

在本实施例提供的方法中,获取待取物体所对应的目标物体图像;根据目标物体图像,确定待取物体的类型信息和位姿信息;根据类型信息和位姿信息确定抓取路径,抓取路径为从机械臂当前所处位置至待取物体所在位置的运动路径;根据抓取路径,控制机械臂各关节进行角度调整,以抓取待取物体。将视觉传感器与机械臂相结合,通过视觉引导完成对结构不固定的待取物体的抓取,抓取精度高并且稳定,同时制约条件较少,自适应性强,相对灵活。

图3为本申请根据另一示例性实施例示出的机械臂控制方法的流程示意图。如图3所示,本实施例提供的机械臂控制方法包括如下步骤:

S201、获取待取物体所对应的目标物体图像。

其中,步骤S201与图2实施例中的步骤S101实现方式类似,本实施例此处不再赘述。

S202、根据目标物体图像,使用预先训练好的分类模型得到分类结果;根据分类结果,确定待取物体的类型信息。

更具体地,预先训练好的分类模型可以是Yolo模型、卷积神经网络(Convolutional Neural Networks,简称:CNN)模型、Mask R-CNN(Region-CNN)模型和faster Mask R-CNN模型等。

以CNN模型为例,通过卷积来提取目标物体图像上高维度的特征,不同类型的待取物体有不同的特征,即可以通过视觉传感器拍摄的RGB图片,使用神经网络卷积操作来提取特征。接着,模型的全连接层通过对特征分类,而先验知识(来自预先的人为标注)对这判断进行奖罚,使得卷积神经网络在这样的监督下,能自我学习,不断优化,即卷积神经网络通过自我的优化,调节到最佳参数状态,从而获得预先训练好的分类模型。将目标物体图像输入到预先训练好的分类模型中,分类模型输出分类结果。根据分类结果,确定待取物体的类型信息。

S203、根据目标物体图像,确定目标图像特征;根据目标图像特征,使用位姿计算模型确定待取物体的位姿信息。

更具体地,位姿计算模型可以是透视N点(Perspective-N-Point,简称:PNP)模型。将步骤S202中的分类模型中的全连接层去掉,将保留下来的多个卷积层作为特征提取模型。将目标物体图像输入到特征提取模型中,特征提取模型输出目标图像特征。将目标图像特征与之前人工标注的RGB图片提取的特征进行对比,使得两者的特征能够一一匹配。匹配后得到的目标图像特征至少包括四个特征点在三维空间下的相对坐标位置。将匹配后得到的目标图像特征输入到PNP模型中,确定这些三维空间下的特征点在视觉传感器下的位姿。将视觉传感器下的位姿转换成通用坐标系下的位姿信息。位姿信息包括待取物体所在的空间位置信息和方向信息。待取物体所在的空间位置信息为待取物体表面上预设数量的点的空间坐标,预设数量的点包括至少四个三维空间点。

本实施例中步骤S202与步骤S203,并不受所描述的动作顺序的限制,步骤S202与步骤S203可以采用其他顺序或者同时进行。

S204、获取机械臂各关节的当前位姿信息。

更具体地,当前位姿信息包括机械臂当前所在的空间位置信息和方向信息。

S205、根据当前位姿信息、待取物体的类型信息和位姿信息,使用决策模型确定抓取路径。

更具体地,决策模型包括深度强化学习(Deep Reinforcement Learning,简称:DRL)算法。DRL算法包括深度Q学习(Deep Q-Learning,简称:DQN)算法和Q学习(Q-Learning,简称:QL)算法。DQN算法是深度强化学习DRL算法的其中一种,是将深度学习与强化学习结合起来从而实现从感知到动作的端对端学习的一种算法。QL算法是一个经典的强化学习算法,由于QL算法需要一个巨大的Q表,导致在高维空间占用的内存巨大,并且不易收敛。因此,本实施例使用DQN算法。与以往大多数碰撞检测算法不同,DQN算法是一个无模型的算法,不需要针对每一种场景来建模。根据当前位姿信息、待取物体的类型信息和位姿信息,利用DQN算法确定抓取路径,以实现对多个关节的机械臂进行端对端的控制。

DQN算法的行为值函数是利用神经网络逼近,属于非线性逼近,DQN算法所用的网络结构是三个卷积层加两个全连接层。决策模型用公式表示为

DQN算法最主要的特点是引入了经验回放,即将一个五元组

可选地,根据当前位姿信息、待取物体的类型信息和位姿信息,使用决策模型确定抓取路径,包括:

决策模型为Q,假设迭代次数为Rounds,其中,Rounds为正整数,批量梯度下降时的batch_size=m,经验回放池最大尺寸n。

将当前位姿信息、待取物体的类型信息和位姿信息作为状态S下的状态向量

将状态向量

在状态S下执行当前动作A,获得下一状态S′,下一状态S′对应特征向量

将五元组

若经验回放池的大小大于m,则从经验回放池中批量采样并更新决策模型中的网络参数,具体包括:

步骤1、从经验回放池中随机采取m个样本

其中,y

步骤2、使用均方差损失函数

若经验回放池的大小大于n,则从经验回放池中去除最早加入的五元组,添加新的五元组。

将状态S更新为状态S′。

判断is_end是否是最终状态,若否,继续循环从经验回放池中随机采取样本,若是,循环结束,得到最终决策模型。

根据最终决策模型,确定抓取路径。根据上述步骤得到最优抓取路径,在一定程度上避免了机械臂单个关节转动不必要的角度,或者多个关节转动不必要的角度,减轻了对机械臂关节的损耗。

可选地,状态向量

更具体地,特定场景可以是待取物体结构、大小不断变化的场景。将特定场景、当前位姿信息、待取物体的类型信息和位姿信息作为状态S下的状态向量

S206、根据抓取路径,使用平滑轨迹插值法得到机械臂的运动轨迹;根据运动轨迹,控制机械臂各关节进行角度调整,以抓取待取物体。

更具体地,平滑轨迹插值法包括多项式曲线法,使机械臂运动过程中更加连续、平滑,也有利于降低噪音。

可选地,根据目标物体图像,若无法确定目标物体类型,则重新通过视觉传感器获取目标物体图像。

更具体地,根据视觉传感器拍摄的目标物体图像,预先训练好的分类模型无法识别得到分类结果时,则主控服务器向视觉传感器发送重新获取目标物体图像指令,视觉服务器收到指令后,重新获取目标图像并发送到主控服务器。

在本实施例提供的方法中,基于深度强化学习算法实时规划路径,也能根据特定场景进行端到端的实时路径规划。通过训练决策模型得到特定场景中机械臂的每步决策动作,进而得到最优的完整路径。在实际应用过程中,利用训练好的决策模型,将视觉传感器采集到的目标物体图像输入,即可得到机械臂运动的路径信息。保证其鲁棒性的同时,减少了对场景依赖度。

图4为本申请根据一示例性实施例示出的机械臂控制装置的结构示意图。如图4所示,本申请提供一种机械臂控制装置40,装置40包括:

获取模块41,用于获取待取物体所对应的目标物体图像。

处理模块42,用于根据目标物体图像,确定待取物体的类型信息和位姿信息。

处理模块42,还用于根据类型信息和位姿信息确定抓取路径,抓取路径为从机械臂当前所处位置至待取物体所在位置的运动路径。

处理模块42,还用于根据抓取路径,控制机械臂各关节进行角度调整,以抓取待取物体。

具体地,本实施例可以参见上述方法实施例,其原理和技术效果类似,不再赘述。

图5为本申请根据一示例性实施例示出的电子设备的硬件结构示意图。如图5所示,本实施例的电子设备50包括:处理器51以及存储器52;其中,

存储器52,用于存储处理器可执行指令的存储器。

处理器51,用于根据存储器存储的可执行指令,以实现上述实施例中的机械臂控制方法。具体可以参见前述方法实施例中的相关描述。

可选地,存储器52既可以是独立的,也可以跟处理器51集成在一起。

当存储器52独立设置时,该电子设备50还包括总线53,用于连接存储器52和处理器51。

本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机指令,计算机指令被处理器执行时用于实现上述的各种实施方式提供的方法。

其中,计算机可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,计算机可读存储介质耦合至处理器,从而使处理器能够从该计算机可读存储介质读取信息,且可向该计算机可读存储介质写入信息。当然,计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits,ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和计算机可读存储介质也可以作为分立组件存在于通信设备中。

上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random-Access Memory,SRAM),电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM),可编程只读存储器(Programmable read-only memory,PROM),只读存储器(Read-OnlyMemory,ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本申请还提供一种计算机程序产品,该程序产品包括执行指令,该执行指令存储在计算机可读存储介质中。设备的至少一个处理器可以从计算机可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

相关技术
  • 机械臂运动控制方法、装置、存储介质及电子设备
  • 机械臂作用力交互控制方法及装置、电子设备和存储介质
技术分类

06120113202559