掌桥专利:专业的专利平台
掌桥专利
首页

一种用于大型部件协作搬运的多机器人导航方法

文献发布时间:2023-06-19 19:30:30


一种用于大型部件协作搬运的多机器人导航方法

技术领域

本发明属于移动机器人技术领域,具体涉及一种多机器人编队协作搬运大型部件的导航方法。

背景技术

大型装备的生产和运输过程中,通常需要搬运大型部件。大型部件搬运系统大量应用于船舶制造、大型飞机制造、混凝土管桩生产等多个领域。现有的大型部件搬运设备主要由吊装设备和顶升平移机构成。大型部件由吊装设备吊装,由顶升平移机构搬运,因此现有的搬运过程路径较为固定。当运送起点或者终点发生变化时,需要重新铺设轨道,造成效率低、成本高的问题。另一种可行的方案是采用多机器人协作搬运的方式,采用多个机器人共同支承一个目标对象,通过机器人之间的协同运动控制来保证组群移动的一致性,实现目标对象的移动。多机器人协作搬运的导航与避障一般采用电磁感应、激光、或者视觉的方式设置引导路径的方式去实现,但当环境发生改变时需要重新铺设导引路径,效率比较低下。此外,还有一种方式是通过传统的单机器人导航与避障算法获取导航路径,再通过算法解算出多机器人的位姿,但是此种方法一方面较为复杂,另一方面存在单机器人的导航路径在多机器人时无法适用的情况,即多机器人在协作搬运时,每个机器人之间的位置与运动存在约束,单机器人可以通过的路径在多机器人时可能无法通过。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种用于大型部件协作搬运的多机器人导航方法,该方法能够根据环境和多机器人之间的距离约束获取多机器人编队的导航路径和姿态。

技术方案:本发明采用如下技术方案:

一种用于大型部件协作搬运的多机器人导航方法,包括步骤:

S1、获取多机器人运动的起点位置s

S2、根据所需搬运物体形状设计多机器人编队的队形,并获取各机器人之间的相对位置约束;

S3、建立深度神经网络,所述深度神经网络的输入为多机器人编队的状态,输出为多机器人编队的执行动作;

所述多机器人编队的状态S为:S=[s

所述深度神经网络包括Actor网络和Critic网络,其中Actor网络的输入为多机器人编队的状态S,输出为多机器人编队的执行动作act;所述Critic网络的输入为多机器人编队的状态S和动作act,输出为评价值value;

S4、使用PPO算法对所述深度神经网络进行训练;

S5、将多机器人编队的状态输入训练好的Actor网络,得到每一步的执行动作,根据多机器人编队的当前运动参数和执行动作act计算下一时刻的运动参数,进而得到多机器人编队从起点到终点的导航路径。

进一步地,所述深度神经网络中,Actor网络包括4个隐含层和一个输出层,4个隐含层中的神经元个数分别为128,256,256,64,激活函数都为tanh函数,输出层包含6个输出节点,分别代表动作空间中不同动作的概率;选择其中概率值最大的作为执行动作act;

Critic网络包括4个隐含层和一个输出层,4个隐含层中的神经元个数分别为128,256,256,64,激活函数都为tanh函数,输出层包含1个输出节点,表示评价值value。

进一步地,所述动作空间包含六种动作,动作1代表多机器人编队向左运动,动作2代表多机器人编队向上运动,动作3代表多机器人编队向右运动,动作4代表多机器人编队向下运动,动作5代表多机器人编队左旋调整姿态,动作6代表多机器人编队右旋调整姿态。

进一步地,所述步骤S4具体包括:

S41、随机初始化Actor网络和Critic网络的参数;令迭代次数m=1;

S42、令t=0,多机器人编队从起点s

S43、根据当前状态

根据

S44、记录本次迭代的轨迹

计算本次迭代中每一时刻的折扣奖励,t时刻的折扣奖励为:

S45、通过随机梯度下降法优化Actor网络的取值,优化的目标函数为最大化每一时刻的折扣奖励;

优化Critic网络的权值,优化的目标函数为最小化Critic网络输出的value值与每一时刻的折扣奖励之间的误差;

S46、令m=m+1,跳转至步骤S42进行下一次迭代;直至两次迭代之间折扣奖励的变化小于预设值ε。

进一步地,步骤S43中计算t+1时刻多机器人编队的状态

(1)当执行动作

其中a为预设的加速度,

如果时刻t与t+1之间的时间间隔△T小于机器人编队速度的调整时间τ,t+1时刻多机器人编队参考点在x方向的速度和y方向的速度

v

t+1时刻多机器人编队参考点的位置

(2)当执行动作

进一步地,当搬运物体为杆状构件时,所述多机器人编队中有两个机器人,所述两个机器人之间的距离为L,L为杆状构件的长度;

当执行动作

其中

两个机器人的运动方向分别为

进一步地,所述步骤S43中原始奖励

其中

为步长惩罚,/>

为与障碍物距离的惩罚,/>

为与终点距离的惩罚,/>

进一步地,第一距离阈值ρ

另一方面,本发明还公开了一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的多机器人导航方法。

本发明还公开了一种计算机设备,包括处理器及存储介质,所述存储介质为上述计算机可读取存储介质;所述处理器加载并执行所述存储介质中的指令及数据用于实现上述多机器人导航方法。

有益效果:本发明公开的用于大型部件协作搬运的多机器人导航方法通过使用强化学习的方式将环境中的障碍物信息、目的地位置与多机器人相对位置、距离、速度、姿态等参数结合,获取多机器人协作搬运时的路径与位姿,提高了效率并且降低了成本,部署更为简单。

附图说明

图1为本发明公开的用于大型部件协作搬运的多机器人导航方法的流程图;

图2为本发明中深度神经网络的组成示意图;

图3为训练过程折扣奖励的变化曲线图;

图4为实施例中两个机器人组成的编队来搬运杆状构件的示意图;

图5为本发明公开的计算机设备的组成示意图。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明。

本发明公开了一种用于大型部件协作搬运的多机器人导航方法,如图1所示,包括步骤:

步骤1、获取多机器人运动的起点位置s

本发明中,在机器人的机体上安装激光雷达,扫描环境从而获取障碍物信息;

步骤2、根据所需搬运物体形状设计多机器人编队的队形,并获取各机器人之间的相对位置约束;

步骤3、建立深度神经网络,所述深度神经网络的输入为多机器人编队的状态,输出为多机器人编队的执行动作;

所述多机器人编队的状态S为:S=[s

如图2所示,所述深度神经网络包括Actor网络和Critic网络,其中Actor网络的输入为多机器人编队的状态S,输出为多机器人编队的执行动作act;Critic网络的输入为多机器人编队的状态S和动作act,输出为评价值value;

所述深度神经网络中,Actor网络包括4个隐含层和一个输出层,4个隐含层中的神经元个数分别为128,256,256,64,激活函数都为tanh函数,输出层包含6个输出节点,分别代表动作空间中不同动作的概率;选择其中概率值最大的作为执行动作act;

所述动作空间包含六种动作,动作1代表多机器人编队向左运动,动作2代表多机器人编队向上运动,动作3代表多机器人编队向右运动,动作4代表多机器人编队向下运动,动作5代表多机器人编队左旋调整姿态,动作6代表多机器人编队右旋调整姿态。

Critic网络包括4个隐含层和一个输出层,4个隐含层中的神经元个数分别为128,256,256,64,激活函数都为tanh函数,输出层包含1个输出节点,表示评价值value。

步骤4、使用PPO算法对所述深度神经网络进行训练,具体包括:

S41、随机初始化Actor网络和Critic网络的参数;令迭代次数m=1;

S42、令t=0,多机器人编队从起点s

S43、根据当前状态

根据

计算t+1时刻多机器人编队的状态

(1)当执行动作

如果时刻t与t+1之间的时间间隔△T大于机器人编队速度的调整时间τ,t+1时刻多机器人编队参考点的速度为执行

其中a为预设的加速度,

如果时刻t与t+1之间的时间间隔△T小于机器人编队速度的调整时间τ,t+1时刻多机器人编队参考点在x方向的速度和y方向的速度

v

t+1时刻多机器人编队参考点的位置

(2)当执行动作

当搬运物体为杆状构件时,所述多机器人编队中有两个机器人,所述两个机器人之间的距离为L,L为杆状构件的长度;

当执行动作

其中

两个机器人的运动方向分别为

原始奖励

其中

为步长惩罚,/>

为与障碍物距离的惩罚,/>

为与终点距离的惩罚,/>

本实施例中,第一距离阈值ρ

S44、记录本次迭代的轨迹

计算本次迭代中每一时刻的折扣奖励,t时刻的折扣奖励为:

S45、通过随机梯度下降法优化Actor网络的取值,优化的目标函数为最大化每一时刻的折扣奖励;

优化Critic网络的权值,优化的目标函数为最小化Critic网络输出的value值与每一时刻的折扣奖励之间的误差;

S46、令m=m+1,跳转至步骤S42进行下一次迭代;直至两次迭代之间折扣奖励的变化小于预设值ε;

如图3为训练过程折扣奖励的变化曲线,当得到超过200次时,折扣奖励变化很小,即算法收敛,停止迭代。

步骤5、将多机器人编队的状态输入训练好的Actor网络,得到每一步的执行动作,根据多机器人编队的当前运动参数和执行动作act计算下一时刻的运动参数,进而得到多机器人编队从起点到终点的导航路径。

本实施例以两个机器人组成的编队来搬运杆状构件为例,如图4所示,环境中有三个障碍物,编队根据Actor网络得到每一步的动作,执行该动作得到每一步的位置和姿态,进而得到多机器人编队从起点到终点的导航路径。

本发明还公开了一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的多机器人导航方法。

本发明还公开了一种计算机设备,如图5所示,包括处理器101及存储介质102,其中存储介质102为上述计算机可读取存储介质;处理器101加载并执行所述存储介质中的指令及数据用于实现上述多机器人导航方法。

相关技术
  • 一种双臂协作机器人的双臂协调搬运方法
  • 一种医药搬运机器人的激光定位导航系统及其方法
  • 一种用于垃圾箱智能搬运和卸载的机器人及其控制方法
  • 一种大型钢管搬运机器人
  • 具有高地形适应性的可协作搬运机器人及协作搬运方法
  • 具有高地形适应性的可协作搬运机器人及协作搬运方法
技术分类

06120115938558