导航：首页> 水泥；混凝土；人造石；陶瓷；耐火材料〔4〕>一种以安全性、距离代价为约束的自学习路径规划方法

一种以安全性、距离代价为约束的自学习路径规划方法

文献发布时间：2023-06-19 12:00:51

技术领域

本发明涉及一种以安全性、距离代价为约束的自学习路径规划方法，属于智能座舱显示领域。

背景技术

强化学习是一种借鉴‘经验’的闭环学习方法，机器人通过与环境之间不断地进行信息交互，从而达到自主学习的过程。机器人与环境之间进行交互的过程可以描述为一个马尔科夫决策问题。

强化学习中Q_Learning算法被广泛应用于机器人路径规划技术，机器人通过Q_Learning学习与环境交互以此达到自主规划路径的目的。由于Q_Learning算法是计算Q表中的值，然后从中选取Q值较大的动作作为要执行的动作，这样就容易造成计算速度慢和维数爆炸等问题，因此提出Deep Q_Learning算法，即DQN算法，DQN算法在Q_Learning算法的基础上增加了深度神经网络用于计算Q值，这样解决了Q_Learning算法造成维数爆炸等问题。

DQN算法的基本思路为将强化学习Q_Learning算法与深度神经网络相结合，通过神经网络计算回报值来代替Q表，通过不断学习来减小Q估计和Q现实之间的误差值，进而不断更新targetQ网络，优化权重，最终达到自主进行路径规划的目的。但是，DQN算法需要不断地对学习空间进行探索，这种搜索存在很大的盲目性与不必要性，这样算法就存在环境利用率低、搜索效率低等问题，进而容易造成算法学习效率低、搜索花费时间长、搜索出来路径较长等缺陷。

A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法，也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近，最终搜索速度越快。A*寻路算法就是启发式探索的一个典型实践，在寻路的过程中，给每个节点绑定了一个估计值(即启发式)，在对节点的遍历过程中是采取估计值优先原则，估计值更优的节点会被优先遍历。所以估计函数的定义十分重要，显著影响算法效率。

现有技术中，距离代价作为评价一条路径的重要指标，在路经规划中有这重要作用，现有的以距离代价为核心思想设计的算法更多的使用在全局路径规划中(A*算法)，在动态环境下，不能很好的完成工作。而安全性最为路径规划的首要评判指标，重要性不言而喻，但只考虑安全性就容易陷入局部最优问题。

发明内容

针对上述问题，本发明提供了一种以安全性、距离代价为约束的自学习路径规划方法，借鉴A*启发函数的设计思想，设计一种综合考虑安全代价和距离代价的启发函数，并将此启发函数引入强化学习DQN算法中的报酬函数的设计中，通过新的报酬函数，能够引导智能体找出安全、最短的路径。

本发明为解决上述技术问题采用以下技术方案：

一种以安全性、距离代价为约束的自学习路径规划方法，该方法包括以下步骤：

获取当前时刻的智能体位置数据以及智能体的预设轨迹；

根据所述智能体位置数据以及所述预设轨迹，利用训练好的DQN模型获取所述智能体的当前期望行驶方向；

按照所述当前期望行驶方向，控制所述智能体的行驶方向。

进一步，根据智能体的历史数据以及预设轨迹，训练所述DQN模型。

进一步，所述DQN模型的报酬函数为：

其中，k为距离边界阈值，

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明设计一种综合考虑安全代价和距离代价的启发函数，并将此启发函数引入强化学习DQN算法中的报酬函数的设计中，通过新的报酬函数，能够引导智能体找出安全、最短的路径。

具体实施方式

本专利设计一种综合考虑安全代价和距离代价的启发函数，并将此启发函数引入强化学习DQN算法中的报酬函数的设计中，通过新的报酬函数，能够引导智能体找出安全、最短的路径，具体步骤如下：

步骤1：距离代价的启发函数设计

主要借鉴A*启发函数设计的思想，设计一种以距离代价为主的启发函数，引导智能体学习出最短路径，设计如下：

其中，D为起始点与智能体之间的距离，H为起始点与目标点之间的直线段距离，E为智能体与目标点之间的距离。

步骤2：安全性代价的启发函数设计

为了保证智能体在学习过程中的安全性，设计一种势力场法来表示智能体与障碍物和目标点的距离，设计如下：

设计阈值k表示距离边界，当智能体与障碍物或目标点距离小于k，则表示智能体进入势力场，否则没有进入势力场。进入势力场后会受到障碍物带来的阻力场或者目标点带来的引力场：

其中，obs为智能体与最近障碍物之间的距离；O(s)为负，引导着智能体远离障碍物；

T(s)为正，引导这智能体接近目标点。

步骤3：设计新的启发函数。

结合了步骤1、步骤2，综合了安全性与距离代价，能够使智能体在保证安全的前提下学习出最短路径：

步骤4：将步骤3设计的启发函数与强化学习DQN算法相结合。

将步骤3设计的新的启发函数引入DQN算法的报酬函数中，用来引导智能体自学习出安全、最短的路径：

其中，机器人达到目标点回报值为T(s)；机器人达到障碍物回报值为O(s)；其余情况为F1。

本申请还提供一种以安全性、距离代价为约束的自学习路径规划系统，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述的以安全性、距离代价为约束的自学习路径规划方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的以安全性、距离代价为约束的自学习路径规划方法。该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

应当指出，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也在本申请权利要求的保护范围内。

完整全部详细技术资料下载