掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于足式机器人驾驶操作技术领域,具体涉及一种归约量化六足机器人驾驶员驾驶决策经验的深度神经网络训练方法。

背景技术

与传统的轮式、履带式等移动方式相比,足式移动机构与地面具有非连续作用点,能够适应几何和物理特征突变的地形环境,代表了复杂化境下移动机构的发展趋势,六足机器人移动平台具有稳定性好、负载能力强、地形适应性强等优点,因而是复杂环境中足式移动系统的最佳选择。然而,在面临复杂多变的环境下的物资输送、抢险救灾等任务时,目前其操纵控制过程仍需要由驾驶员全程参与完成,并要求驾驶员必需充分调动六足机器人自身多维度运动能力,予以保证其达到地形通过性的需求,操纵流程极其复杂繁琐,极大地增加了驾驶员的负担,并且易使驾驶员产生疲劳,进而发生安全事故。因此,如何使训练六足机器人,使其具备一定的自主行为决策智能,成为该领域需要解决的重点问题。

大尺度六足机器人的自主行为决策是一个多变量、强耦合、动态非线性的多解数学问题,现有的方法包括基于规则的决策和基于强化学习的决策,前者的灵活性不足,后者则很难在参数调整层面之上的逻辑层面改善系统性能,导致其难以应对复杂多变的工况。因此,如何量化归约六足驾驶员驾驶决策经验,并将其嵌入到机器人系统的决策层,是提升大尺度六足机器人的自主决策能力方面亟待解决的难题。

深度神经网络对于建立非线性动态系统的模型具有一定优势,然而,对于复杂的多输入/出的非线性决策问题,以传统结构方式建立的神经网络,会导致其隐含层数和维数急剧增加,其收敛的时间将大幅上升,且由于其网络结构交叉复杂难以解读,使得对其进一步优化迭代的难度增加。因此,本发明设计了一种功能层次清晰、便于分步调试的驾驶员决策神经网络结构,提出了一种以分层逐步寻优方式得到驾驶员决策模型的训练方法。

发明内容

本发明的目的是提供一种基于深度神经网络的六足机器人驾驶员决策模型分层训练方法,解决六足机器人驾驶员驾驶决策经验量化建模的问题,将其嵌入到机器人系统的决策层后,可提升大尺度六足机器人的自主决策能力。

本发明为解决上述问题所采取的方案为:一种基于深度神经网络的六足机器人驾驶员决策模型分层训练,所述方法的具体实现过程为:

步骤一、生成局部地形信息矩阵:

获取六足机器人面临的局部地的数字高程地图,以足式机器人足端的包络正方形作为单位网格对局部地形划分,将每个单位网格的中心点坐标(X

步骤二、生成决策模型各层网络的训练数据集:

生成决策模型各层网络的训练数据集:定义机器人6个足端和形心在地面投影点所在的环境信息单元,为机器人当前位置的地形特征矩阵;依据以功能层划分的深度神经网络结构,当驾驶员在给定的训练地形进行驾驶决策时,采集记录各功能层的驾驶员操作指令,并与机器人当前位置的地形特征矩阵映射匹配,形成训练样本,驾驶通过训练地形全程的训练样本构成训练数据集,其中每个训练样本包含地形坐标信息和该地形坐标下驾驶员决策指令两个维度的数据。

步骤三:以分层训练、逐步寻优方式得到六足机器人驾驶员决策模型:

以分层训练、逐步方向寻优方式得到六足机器人驾驶员决策模型:以求解交叉熵的方式建立本损失函数,利用步骤2得到的训练数据集,采用梯度下降法逐层对神经网络参数(权重值与偏置值)反向寻优,使三个判断层和三个指令层的损失函数达到最小,以分层逐步寻优的方式得到六足机器人驾驶员决策模型。

进一步的,根据权利要求1所述的深度神经网络结构,其特征在于其隐含层依据六足机器人驾驶决策特点分为两个独立的功能层次,即判断层和指令层,其中判断层还包括3个子功能层次,即方向判断层、距离判断层和速度判断层,判断层各子功能层并行连接,指令层还包括3个子功能层次,即步态指令层、步幅/高指令层和机体位姿指令层,指令层各子功能层并行连接,判断层和指令层串行连接,环境信息以局部地形信息矩阵的形式从输入层流入判断层后,继续流入指令层,最后从输出层输出决策指令。

本发明的有益效果:

所述的一种基于深度神经网络的六足机器人驾驶员决策模型分层训练方法,一方面能够实现对驾驶员决策经验的有效归约与量化;另一方面,本发明设计的神经网络结构符合驾驶员的决策逻辑,其输出结果具有可解释性和可追溯性,能有效保证驾驶员和机器人的安全性;最后,本发明采用分层训练、反向寻优的训练方法,可有效提高神经网络模型的收敛速度及模型的准确度,从有效提升六足机器人的自主决策能力。

附图说明

图1为神经网络结构图。

图2为神经网络分层训练流程图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。

本发明的一个实施例:一种基于深度神经网络的六足机器人驾驶员决策模型分层训练方法,其内容包括以下步骤:

步骤1:获取机器人当前位置的地形特征矩阵:

步骤1.1:需要获取机器人周边局部环境的数字高程地图,获取范围定义为:设机器人机身值径为D,则需获取以机身形心为中心,3D*3D矩形区域范围内地形环境的数字高程地图。此外,所述数字高程地图要求为:在其分辨率约束条件下,可以提供指定地表点位在世界坐标系下的三维坐标,且其分辨率不应低于1/2足端半径。

步骤1.2:以足式机器人足端的包络正方形作为单位网格,对步骤1.1获得的机器人周边局部环境的数字高程地图进行划分,将每个单位网格的中心点坐标(X

步骤1.3:定义机器人当前位置的地形特征矩阵为:

步骤2:获取驾驶员在机器人当前位置时发布的决策指令矩阵。定义机器人当前位置的地形特征矩阵为:

步骤3:构建驾驶员决策神经网络训练样本集,具体的,

步骤4:利用训练样本集对如图1所示的神经网络中的判断层和指令层,进行逐个单功能层训练。具体的,例如距离判断层,当该层接收到训练样本中的局部地形特征矩阵,其输出值为d,而训练样本输出值d′,则其的损失函数可表达为:

步骤5:各子功能层按照逻辑顺序开展训练,如图2所示,判断层各子功能层接收到局部地形特征矩阵的数据后,将输出结果与训练样本中的驾驶员判断结果进行比较,并通过所述寻优方法逐步训练判断层神经网络参数,完成训练后将其输出结果用于对指令层的训练,当指令层各子功能层接收到判断层的数据后,将输出结果与样本中的驾驶员决策指令结果进行比较,并利用上述训练方法完成对指令层的参数优化。在上述过程中,若指令层的输出结果不满足与样本的差值小于样本值1%的条件时,需逐层倒推,发挥本文神经网络具有可解释性的优势,按照驾驶员的决策逻辑,优先分析是否为判断层数据出现问题,并进一步定位出现问题的具体子功能层,通过逐层分析和精准优化,最终得到理想的指令输出结果。

相关技术
  • 一种基于可操作度分析的崎岖地形六足机器人操纵方法
  • 一种基于双操作者的野外六足机器人操控训练方法
  • 一种基于双操作者的野外六足机器人操控训练方法
技术分类

06120115978723