掌桥专利:专业的专利平台
掌桥专利
首页

一种基于强化学习的月面路径规划方法

文献发布时间:2024-04-18 19:59:31


一种基于强化学习的月面路径规划方法

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于强化学习的月面路径规划方法。

背景技术

随着载人探月和月球科研站等月球探测任务的规划与实施,未来月球车的单元行驶距离将跨越到公里、几十公里,甚至到几百、几千公里的超长距离,月球车长距离行驶的路径规划成为月球巡视探测的迫切需求之一。

探测车的全局路径规划一般分为地图构建和路径搜索两个阶段。首先,原始轨道图像被解释为可计算的配置空间,其中自由空间和障碍物空间被识别。然后,可以通过一些路径搜索算法来识别正确的路径,例如A*、快速探索随机树(RRT)、蚁群算法和遗传算法。这些方法在大多数情况下都是可操作的,但可能会遭受计算时间的指数爆炸式增长到大范围或高分辨率的地图,因此需要提高提高计算效率并减少对人类经验的依赖。

近年来,深度卷积神经网络(DCNN)因其上级特征表示和学习能力在计算机视觉领域受到广泛关注。其中,提出了一种新的估计值架构-值迭代网络(VIN),能够有效地估计MDP中的值函数,实现了直接从火星轨道图像规划路径的目的。在VIN工作的基础上,不同研究者分别提出了记忆增强控制网络和神经映射来寻找部分可观测环境下的最优路径。此外,为了在动态环境下规划探测车的路径,设计了价值传播网络。然而,这些网络都包含VIN中的值迭代模块,其训练和规划效率低,因为它需要在网络内部进行多次迭代以进行值函数估计。强化学习方法也能用于值函数的估计,在强化学习中,不需要先验知识,智能体可以通过试错在复杂环境中找到最优策略。然而,强化学习的训练过程在计算上是低效的。

综上,探测车长距离行驶存在以下问题:探测车行驶千公里级范围内高分辨率数字高程模型精度低,综合考虑行驶代价因素不足,基于学习的值函数估计方法精度和效率低,因此,目前没有可靠的月面探测车长距离行驶路径规划方法。

发明内容

针对上述存在的问题,本发明旨在提供一种基于强化学习的月面路径规划方法,该方法先获取多源月球表面遥感数据,建立月球探测车长距离栅格地图,然后遍历栅格,生成用于全局路径规划的探测车数据集;通过一种新的具有双分支和非迭代结构的强化学习结构DB-HRNet,用于值函数估计,实现对探测车的行驶路径规划;DB-HRNet结构可以实现更高效率和精度的行星探测车全局路径规划,同时可以适应任意大小的地图。

为了实现上述目的,本发明所采用的技术方案如下:

一种基于强化学习的月面路径规划方法,包括以下步骤,

步骤一:获取多源月球表面遥感数据;

步骤二:获取环境图像,建立月球探测车长距离栅格地图;

步骤三:遍历栅格,构建月球探测车行驶代价特征地图数据集和代价函数,生成用于全局路径规划的探测车数据集;

步骤四:构建用于对探测车数据集路径规划的值函数进行估计的深度神经网络体系结构DB-HRNet;

步骤五:利用步骤四中构建的DB-HRNet网络对探测车的行驶路径进行规划。

进一步的,步骤三的具体操作包括以下步骤,

S301:构建月球探测车行驶代价特征地图数据集;

S302:遍历栅格图,构建综合特征图W,也即代价函数;

S303:基于代价函数生成用于全局路径规划的探测车数据集

进一步的,步骤S302中所述的代价函数为

式中,α与β均表示权重值,且α

进一步的,步骤四中所述的深度神经网络体系结构DB-HRNet包括预处理层、用于全局特征提取的分支一和用于局部特征提取的分支二,预处理层由两个卷积层组成,每个卷积层后面都有一个最大池化层;分支一由HRNet和FPN为主干组成;分支二由自底向上的反卷积层ResUnet构成,在解码开始之前加入Dropout层。

进一步的,DB-HRNet对探测车数据集路径规划的值函数进行估计的方法包括以下步骤,

S401:将月球探测车的全局路径规划问题转化为马尔科夫决策问题,定义M=[S,A,P,R]。其中S是状态s的集合,A是动作a的集合,P是状态转移分布,R∈R是奖励r的集合;用于值函数估计的DB-HRNet表示为

S402:构造两个Q函数Q

则估计值表示为

其中ω

S403:全局路径规划的策略导出为:

式中,α表示DB-HRNet的参数;

S404:通过DB-HRNet的最佳参数确定探测车的移动路径。

进一步的,DB-HRNet的训练损失定义为

其中,N是训练样本的数量,Y

DB-HRNet的最佳参数为

进一步的,步骤五的具体操作包括以下步骤,

S501:初始化探测车的状态s

S502:以s

S503:重复步骤S502,直到(x

进一步的,本发明还包括一种基于强化学习的月面路径规划系统,包括数据获取模块、栅格地图构建模块、探测车数据集生成模块和DB-HRNet模块;

所述数据获取模块用于获取多源月球表面遥感数据;

所述栅格地图构建模块用于获取环境图像,建立月球探测车长距离栅格地图;

所述探测车数据集生成模块用于构建月球探测车行驶代价特征地图数据集和代价函数,生成用于全局路径规划的探测车数据集;

所述DB-HRNet模块用于对探测车的行驶路径进行规划。

进一步的,DB-HRNet模块对探测车的行驶路径进行规划时,采用如前所述的路径规划方法。

进一步的,本发明还包括一种基于强化学习的月面路径规划设备,包括至少一个处理器;以及与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令被所述处理器执行,以使所述处理器能够执行如前所述的路径规划方法。

本发明的有益效果是:

本发明设计了一种新的具有双分支和非迭代结构的强化学习结构(DB-HRNet),用于值函数估计,它由预处理层、用于全局特征提取的分支一、用于局部特征提取的分支二组成;预处理层将全局路径规划由逐像素规划变为逐l

附图说明

图1为本发明中路径规划方法流程图;

图2为本发明中DB-HRNet结构示意图;

图3为本发明中加权双模块估计值示意图;

图4为本发明仿真实验中行星探测车初始状态示意图;

图5为本发明仿真实验中代价函数图;

图6为本发明仿真实验中路径规划结果图。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。

实施例一:

实施例一提供一种基于强化学习的月面路径规划方法,如附图1所示,具体包括以下步骤,

步骤一:获取多源月球表面遥感数据;

具体的,所述月球表面遥感数据包括月球轨道器遥感数据(如嫦娥二号数字高程数据、轨道勘测器窄角/宽角相机影像、高光谱数据等)、探测车探测数据(如探测车导航相机数据、物理特征数据、地质分析数据等)和轨道器遥感数据产品(如月球石块丰度、矿物丰度、全月地质图等),数据获取之后进行数据配准和基准统一。

步骤二:获取环境图像,建立月球探测车长距离栅格地图;

具体的,给定初始轨道图像I

步骤三:遍历栅格,构建月球探测车行驶代价特征地图数据集和代价函数,生成用于全局路径规划的探测车数据集;

对于端到端规划器的特征推理和规划,探测车需要进行局部可遍历性分析,包括探测车地形障碍、坡度和光照等因素,构建一种具有更可区分特征的二元特征图数据集,利用二元特征图数据集构建代价函数。

优选的,探测车地形障碍通过探测车的放置安全性、通过安全性和粗糙度来进行表示。

放置安全性是指探测车静止放置时的安全性,根据嫦娥二号DEM数据和车的轮距信息,放置安全性表示为

式中,

通过安全性是指探测车移动的安全性,表示为

式中,

粗糙度是指地形的粗糙程度,表示为

式中,r为粗糙度;b为移动前后探测车所经过的所有子格残差的最大值;k为粗糙系数;h为最大安全台阶高度。

优选的,坡度的计算方法具体为:

考虑四个(上、下、左、右)高度差之间的影响。利用嫦娥二号DEM计算中心像元与相邻四个像元之间的最大高程差。将中间的像素表示为A,将四个相邻像素表示为B、C、D和E,并且将像素分辨率表示为f,则坡度L

优选的,光照的计算方法具体为:

为了生成光照图层,需要计算嫦娥二号DEM的每个网格的地平线高度(以度为单位)。在DEM中求取每个像元的水平高度

式中,

基于以上结果,遍历栅格图,对像素进行运算,构建综合特征图W,也即代价函数,则代价函数可表示为:

其中,α与β均表示权重值,且α

基于代价函数生成用于全局路径规划的探测车数据集

步骤四:构建用于对探测车数据集路径规划的值函数进行估计的深度神经网络体系结构DB-HRNet。

具体的,深度神经网络体系结构DB-HRNet由预处理层、分支一(用于全局特征提取)和分支二(用于局部特征提取)组成,如附图2所示。

1)预处理:预处理层由两个卷积层(Conv-00,Conv-01)组成,每个卷积层后面都有一个最大池化层(Pool-00,Pool-01)。层间再处理的目的是滤除噪声,将原始轨道图像I

2)全局特征:分支一由HRNet和FPN为主干组成。其中,HRNet并行连接由高分辨率到低分辨率的子网,重复融合多分辨率特征,生成了可靠的高分辨率表征。它不仅提高了具有深度特征表示的卷积神经网络的训练精度,而且使其对测试数据具有很好的泛化能力。

3)局部特征提取:分支二局部特征提取由自底向上的反卷积层ResUnet构成,在解码开始之前加入了Dropout层,将该层的Probability参数设置为0.5,随机让50%的隐藏节点权重不工作,可以在一定程度上提高网络的泛化能力并且抑制发生过拟合现象。在每次up-conv后,对解码器进行卷积加深处理,采用3×3卷积核进行两次卷积用以消除上采样过程中的混淆效应,并且添加支路径。将通过该分支从特征图I={I

在该深度神经网络体系结构DB-HRNet的基础上,可以将月球探测车的全局路径规划问题转化为一个MDP(马尔科夫决策问题),定义为M=[S,A,P,R]。其中S是状态s的集合,A是动作a的集合,P是状态转移分布,将每个状态-动作元组(s,a)映射到状态上的概率分布(其中p(s’|s,a)表示通过选择动作a从s转移到状态s’的概率),并且R∈R是奖励r的集合。此处需要说明的是,MDP为现有技术中的一种强化学习方法,其定义和原理本申请中不做更加详细的描述。

其中,1)状态空间S:M的状态空间表示为S={I,G,X},由I={I

2)动作空间A:M的动作空间表示为A={a

3)状态转移函数P:由于该MDP中的状态转移过程是确定性的,因此定义为P:S×A→S。在处采取动作之后,状态s

4)奖励函数R:如果漫游者在采取行动后在时间步长t+1精确地到达目标点,则它将获得正奖励

5)问题表述:将本发明中设计的用于值函数估计的DB-HRNet表示为

F

此外,本发明中还构造了两个Q函数Q

使用估计的集合作为最大期望,以获得更好的性能。估计值可以表示为:

其中ω

附图3显示了加权双模块估计值的架构,其中α表示该DB-HRNet的参数,Q

根据步骤三中得到的用于全局路径规划的探测车数据集

其中N是训练样本的数量,Y

随机选择数据集中的一批数据,计算损失L(α),然后,计算随机梯度αL(α),并通过梯度下降以学习率δ更新α。当所有批次的数据被用于训练一次时,训练时期结束。在训练时期的数量达到最大值之后,训练阶段将停止。通过最小化损失函数L(α),可以确定DB-HRNet的最佳参数为

通过DB-HRNet的最佳参数可以确定探测车的移动路径,得到最佳规划路径。

步骤五:利用步骤四中构建的DB-HRNet网络对探测车的行驶路径进行规划。

具体的,初始化探测车的状态s

仿真实验:

利用本发明的方法,给定探测车的初始状态如附图4所示,构建代价函数图如附图5所示,最终得到的路径规划图如附图6所示。

从上述测试结果可以看出,DB-HRNet规划器对于长距离行驶路径规划良好,无论是从带有小尺度障碍物还是大尺度障碍物的原始特征图,虽都能够得到避障。此外,多源数据集和值函数估计对于月球表面的长距离规划行驶是有效的。

实施例二:

实施例二提供一种基于强化学习的月面路径规划系统,包括数据获取模块、栅格地图构建模块、探测车数据集生成模块和DB-HRNet模块;

所述数据获取模块用于获取多源月球表面遥感数据;

所述栅格地图构建模块用于获取环境图像,建立月球探测车长距离栅格地图;

所述探测车数据集生成模块用于构建月球探测车行驶代价特征地图数据集和代价函数,生成用于全局路径规划的探测车数据集;

所述DB-HRNet模块用于对探测车的行驶路径进行规划。

需要说明的是,数据获取模块、栅格地图构建模块、探测车数据集生成模块和DB-HRNet模块实现其对应功能均采用实施例一中描述的具体方法。

实施例三:

实施例三提供一种基于强化学习的月面路径规划设备,包括至少一个处理器;以及与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令被所述处理器执行,以使所述处理器能够执行实施例一中所述的路径规划方法。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术分类

06120116525637