掌桥专利:专业的专利平台
掌桥专利
首页

一种基于逆强化学习的室外复杂环境局部路径规划方法

文献发布时间:2024-04-18 20:01:55


一种基于逆强化学习的室外复杂环境局部路径规划方法

技术领域

本发明属于机器人路径规划技术领域,具体地说是涉及一种基于逆强化学习的室外复杂环境局部路径规划方法。

背景技术

在现代机器人技术领域,局部路径规划是指机器人在已知环境中规划一条安全有效的路径,以避开障碍物并实现从起点到目标点的移动。该技术的发展对机器人在各种实际应用中的自主导航和避障至关重要。

局部路径规划技术主要包括环境感知、障碍物检测、路径搜索和优化等方面。然而,在室外三维环境下进行局部路径规划相较于室内或平面环境,面临着更多的挑战和难点。首先,室外环境通常包含各种复杂的地形,如草地、斜坡、户外道路、建筑物等,这些地形的不规则性和多变性增加了路径规划的难度。机器人需要能够理解和适应不同地形的特点,以避免可能的碰撞和卡住情况。在实际运行过程中,需要考虑以下几个方面:首先是如何对局部路径描述模型参数实现自动整定,以简化参数调整的步骤。其次是如何同时结合RGB图像和深度图像进行障碍物识别,从而实现安全可靠的局部路径规划。最后是如何确保生成的局部路径规划轨迹具备安全性、快速性和光滑性。

在室外三维环境下进行局部路径规划相较于室内或平面环境,面临着更多的挑战和难点,地形的不规则性和多变性增加了路径规划的难度。现有技术中存在机器人在室外复杂环境下干扰性强、噪声大而造成局部路径规划难的问题。

为了应对上述挑战,本发明提出了一种基于逆强化学习预训练和插值点优化的室外复杂环境局部路径规划方法,旨在提高机器人在不同室外复杂环境中的适应性。该方法具有低成本、适应性强和性能优良的特点,用于解决机器人在室外复杂环境下局部路径规划受地形干扰和噪声影响的问题。

发明内容

为了解决机器人在室外复杂环境下干扰性强、噪声大而造成局部路径规划难的问题,本发明提出一种基于逆强化学习的室外复杂环境局部路径规划方法。

本发明采用的技术方案为:

一种室外复杂环境局部路径规划的方法,所述方法分为预训练阶段和实时运行阶段:

预训练阶段:采用逆强化学习对构建的局部路径描述模型参数进行整定;

局部最优路径规划为实时运行阶段:首先使用RGBD相机获取的彩色图像和深度图像,并将原始图像进行图像处理后分割获取可行域的二值化图像,同时,利用深度图像和二值化图像建立局部路径优化模型;接下来,通过路径插值解初始值映射和路径插值解迭代优化的方法计算路径插值解;然后通过插值点筛选、三次均匀B样条反算和拟合的步骤获得最优路径;最后,根据满足结束条件的判断,如果满足结束条件,则完成整个流程;如果不满足结束条件,则重新从图像采集开始,重新获取RGB图像和深度图像,然后进入下一轮的处理。

作为优选,预训练阶段包括下述关键步骤:

步骤一:构建室外环境局部路径描述模型;

步骤二:障碍物与可行域识别;

步骤三:基于逆强化学习的优化函数参数自整定;

实时运行阶段包括下述关键步骤:

步骤一:路径插值解计算;

步骤二:样条路径解计算。

为有效解决室外环境下的局部路径规划问题,需要在精确感知环境信息基础上构建局部路径描述模型。作为优选,室外环境局部路径描述模型通过下述方法构建得到:

首先,通过路径起始点、插值点和终点,组成一组路径点集P

P

式中Q

然后,在考虑插值点碰撞间距大小的基础上,引入插值点碰撞惩罚值;结合地形因素的影响,分别引入相对路径长度、路径坡度和路径粗糙度三个指标参数;记f

F=α

式中:α

作为优选,插值点碰撞惩罚值f

式中:i为插值点的下标,j为不可行区域的下标,dist

相对路径长度f

路径坡度f

Δx=((z

Δy=((z

式中:Δx为x方向的梯度;Δy为y方向的梯度;s

f

f

作为优选,障碍物与可行域识别包括:

(1)图像分割;

采用PP-LiteSeg模型对RGB图进行图像分割;该模型采用了多个下采样层和解码器架构FLD(Feature Level Decoder),编码器和解码器之间使用统一注意力融合模块UAFM(Up-and-Across Feature Module)进行连接;在解码器部分,输入经过上采样和注意力机制AM(Attention Model)计算权重,然后通过加法操作进行连接;注意力机制可以使用空间注意力机制或通道注意力机制的方式进行操作;模型的最后一步通过上采样恢复到原始图像的大小;

(2)像素处理;

采用腐蚀、膨胀、轮廓提取和图像修正进行二值化处理;首先,通过腐蚀操作减小图像分割后出现的噪声点;腐蚀操作通过收缩像素区域来消除小的噪声点,从而改善图像的质量。接下来,通过膨胀操作扩展不可行区域的范围;膨胀操作通过扩展像素区域来增加不可行区域的大小,使其更加接近真实的障碍物范围。然后,进行轮廓提取,针对障碍物的外轮廓进行提取;通过轮廓提取算法,可以识别出障碍物的整体形状,并忽略内部的轮廓,从而获取更准确的障碍物轮廓信息。最后,进行图像修正操作,主要是为了制作黑白像素地图;这一步骤主要是验证,通过抹去不可行区域内的轮廓信息,在二维地图中得到清晰的可行域和不可行域的划分。这样的图像可以用于路径规划等任务,提供更准确的环境感知和决策依据。

作为优选,基于逆强化学习的优化函数参数自整定流程为:

(1)在室外环境中,采集图像,通过人机协同的方式引导机器人走一段路径,将记录引导路径的RGB图作为专家轨迹;

(2)RGB经过图像分割与像素处理获得二值化图,根据二值化图与深度图建立局部路径描述模型;

(3)计算路径插值解与样条路径解,得到策略轨迹;

(4)将策略轨迹和专家轨迹围城的面积作为策略差距,将策略差距的倒数作为奖励函数;

(5)调整参数[α

(6)当策略差距小于设定值则停止迭代,否则将继续调整参数改进学习奖励函数;

在流程中,参数α

策略差距采用策略轨迹和专家轨迹围成的面积,专家轨迹为人为引导获得的轨迹,策略轨迹为算法在不同参数下通过优化计算产生的样条路径解,面积公式如下所示:

式中:S

为了更加高效地在二值化图和深度图上寻找路径插值解,采用了粒子群算法,并通过求解法向量的方式来减少粒子群的搜索空间。在路径规划中,候选路径插值解Q

作为优选,路径插值解初始值映射过程为:

通过引入前一时刻的最优路径插值解作为当前时刻路径初始值,可以加快算法在连续局部路径规划中的收敛速度;

式中:

依据cosβ,sinβ和放缩因子γ,当前时刻的插值点初值通过历史时刻插值点关于坐标原点进行旋转和缩放获得:

将历史时刻的最优路径插值点映射到当前时刻,

作为优选,路径插值解迭代优化过程为:

首先,设置插值解、初始值和超参数,当前时刻为t;引入t-1、t-2和t-3时刻的最优路径插值解,作为部分初始解,计算所有初始插值解的路径适应度值,选择群体全局最优路径插值解和个体历史最优;然后根据粒子群标准公式更新插值解:

V

X

式中:ω为惯性因子,c

判断插值解是否收敛,若插值解收敛,则输出最优解,否则,重新确定全局最优路径插值解。

作为优选,最优样条路径解计算包括:

(1)插值点的筛选

为了解决当前最优路径上插值点分布过密可能导致生成路径不光滑的问题,进行插值点的筛选,有效的插值点筛选对于保证路径的光滑性尤为重要;考虑到实时性的要求,插值点的筛选主要基于插值点与前后插值点的距离,将插值点进行分类;

计算各个插值点之间的距离,如下所示:

当插值点的前后距离D

式中D

(2)三次B样条反算与路径拟合

在现有插值点的基础上,采用三次B样条反算的方法来获取控制点,以确保最终路径能够经过插值点并保持光滑性;

采用三次B样条反算的方法来获取控制点,设有n+2个插值点Q

上述方程组有n+2个方程,n+4个未知数;考虑边界条件,假设样条曲线端点有二重控制点,即c

在获取n+4个控制点c

式中:u为参变量,u∈[0,1]。

本发明的有益效果在于:

本发明在预训练阶段,使用逆强化学习来调整构建的局部路径描述模型的参数,以提高参数调整效率;通过人机协同方式引导机器人走一段路径,作为专家轨迹;建立局部路径描述模型,计算路径插值解与样条路径解,得到策略轨迹;将策略差距的倒数作为奖励函数,最大化奖励函数来确定模型参数;在实时运行阶段,实时采集RGB与深度图像,并根据预训练得到的模型参数,建立局部路径优化模型;采用粒子群算法优化计算路径插值点;最后,通过筛选、三次均匀B样条反求控制点,并利用拟合的方法计算得到最优的样条路径解,以保证路径的光滑性和可行性。本发明具有低成本、适应性强和性能优良的特点,能够有效解决机器人在复杂室外环境下面临的干扰性强、噪声大导致局部路径规划困难的问题。

附图说明

图1是本发明方法的流程图;

图2是本发明基于逆强化学习的优化函数参数自整定的流程图;

图3是本发明局部最优路径规划流程图;

图4是移动窗口示意图;

图5是获取的原始图像和深度图像;

图6是图像分割效果图;

图7是像素处理效果图;

图8是轨迹图和策略差距图;

图9是粒子群法向量搜索方案示意图;

图10是插值点初始值映射图;

图11是路径迭代流程图;

图12是插值点筛选图。

具体实施方式

下面通过实施例,对本发明的技术方案作进一步具体的说明,这些实施例是对本发明的说明而作,不是对本发明的限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

参照图1~3,针对机器人在室外复杂环境下干扰性强、噪声大而造成局部路径规划难的问题,提出一种基于逆强化学习预训练和插值点优化的室外复杂环境局部路径规划的方法。方法分为预训练阶段和实时运行阶段。在预训练阶段:采用逆强化学习对所构建的局部路径描述函数的主要参数进行整定。在实时运行阶段:首先使用RGBD相机获取的彩色图像和深度图像,并将原始图像进行图像处理后分割获取可行域的二值化图像;然后,利用粒子群算法在法向量上进行求解优化问题,获取较优的插值点;最后,对获取的较优插值点通过筛选和三次均匀B样条反求控制点,获取最终路径。具体步骤为:

1、构建室外环境局部路径描述模型

为有效解决室外环境下的局部路径规划问题,需要在精确感知环境信息基础上构建局部路径描述模型。路径起始点、插值点和终点,组成一组路径点集P

P

式中Q

在考虑插值点碰撞间距大小的基础上,引入插值点碰撞惩罚值;结合地形因素的影响,分别引入相对路径长度、路径坡度和路径粗糙度三个指标参数。记f

F=α

插值点碰撞惩罚值f

式中:i为插值点的下标,j为不可行区域的下标,dist

相对路径长度f

路径坡度f

Δx=((z

Δy=((z

式中:Δx为x方向的梯度;αy为y方向的梯度;s

f

f

为解决路径规划问题,本文分别引入逆强化学习、图像处理和插值点求解的方法。其中,采用逆强化学习实现α

2、障碍物与可行域识别

RGBD深度相机可以同时获取RGB图像和深度图像,如图5所示。深度图主要用于获取场景中物体的深度信息,从而进行三维路径规划。而对RGB图像的处理主要用于区分可行域和不可行域,并生成相应的二值化图像。

2.1图像分割

图像分割主要的作用是实现区分不可行区域和可行区域,考虑到时效性和精准度的影响,模型采用PP-LiteSeg。该模型采用了多个下采样层(5次下采样)和解码器架构FLD(Feature Level Decoder)。编码器和解码器之间使用统一注意力融合模块UAFM(Up-and-Across Feature Module)进行连接。在解码器部分,输入经过上采样和注意力机制AM(Attention Model)计算权重,然后通过加法操作进行连接。注意力机制可以使用空间注意力机制或通道注意力机制的方式进行操作。模型的最后一步通过上采样恢复到原始图像的大小。训练数据集选用ADE20K数据,最终分割实现的效果(不同物体采用不同颜色表示),其示意图可参照图6。

2.2像素处理

使用PP-LiteSeg模型对图像进行分割可以区分可行域和不可行域(障碍物)。然而,由于图像分割可能存在一些噪声点,因此需要进行后续的膨胀、腐蚀、轮廓提取和图像修正等操作。

首先,通过腐蚀操作可以减小图像分割后出现的噪声点。腐蚀操作通过收缩像素区域来消除小的噪声点,从而改善图像的质量。接下来,通过膨胀操作可以扩展不可行区域的范围。膨胀操作通过扩展像素区域来增加不可行区域的大小,使其更加接近真实的障碍物范围。然后,进行轮廓提取,主要针对障碍物的外轮廓进行提取。通过轮廓提取算法,可以识别出障碍物的整体形状,并忽略内部的轮廓,从而获取更准确的障碍物轮廓信息。最后,进行图像修正操作,主要是为了制作黑白像素地图。这一步骤主要是验证,通过抹去不可行区域内的轮廓信息,在二维地图中得到清晰的可行域和不可行域的划分。这样的图像可以用于路径规划等任务,提供更准确的环境感知和决策依据,像素处理效果如图7所示。

3、基于逆强化学习的优化函数参数自整定

在预训练阶段,采用逆强化学习对室外地形路径规划优化函数的参数进行自整定,流程图如图2所示。

逆强化学习的原理为:根据给定最优策略或最优行为轨迹的方式,从而寻找可解释的策略方案或行为的奖励函数。因此针对当前参数难以确定的问题,通过给定最优行为轨迹的方式实现参数的调整。逆强化学习调整参数的流程主要如下所示:

(1)在室外环境中,采集图像,通过人机协同的方式引导机器人走一段路径,将记录引导路径的RGB图作为专家轨迹;

(2)RGB经过图像分割与像素处理获得二值化图,根据二值化图与深度图建立局部路径描述模型;

(3)计算路径插值解与样条路径解,得到策略轨迹;

(4)将策略轨迹和专家轨迹围城的面积作为策略差距,将策略差距的倒数作为奖励函数;

(5)调整参数[α

(6)当策略差距小于设定值则停止迭代,否则将继续调整参数改进学习奖励函数。

策略差距采用策略轨迹和专家轨迹围成的面积,专家轨迹为人为引导获得的轨迹,策略轨迹为算法在不同参数下优化函数迭代产生的最优路径解,面积公式如下所示:

式中:S

4、局部最优路径规划

在实时运行阶段,首先使用RGBD相机获取RGB图像和深度图像。对RGB图像进行图像处理,得到二值化图像。同时,利用深度图像和二值化图像建立局部路径优化模型,如公式(2)所示。接下来,通过路径插值解初始值映射和路径插值解迭代优化的方法计算路径插值解。然后,通过插值点筛选、三次均匀B样条反算和拟合的步骤获得最优路径。最后,根据满足结束条件的判断,如果满足结束条件,则完成整个流程。如果不满足结束条件,则重新从图像采集开始,重新获取RGB图像和深度图像,然后进入下一轮的处理。具体流程如图3所示。

4.1路径插值解计算

为了更加高效地在二值化图和深度图上寻找最优路径插值解,本研究采用了粒子群算法,并通过求解法向量的方式来减少粒子群的搜索空间。粒子群算法模拟了鸟群或鱼群的群体智能行为,能够全局性地搜索问题空间。在路径规划中,候选路径插值解Q

首先,通过连接起点和终点形成一条直线,得到最短长度路径L。然后,将最短路径L进行等分,获得垂直于L的多条法向量N。接下来,在每条法向量N上进行随机采样,得到一系列插值点Q

4.1.1路径插值解初始值映射

通过引入前一时刻的最优路径插值解作为当前时刻路径初始值,可以加快算法在连续局部路径规划中的收敛速度,线性变换如图10(插值点初始值映射)所示。图中

图10可以看出

式中:

依据cosβ,sinβ和放缩因子γ,当前时刻的插值点初值可以通过历史时刻插值点关于坐标原点进行旋转和缩放获得:

至此,我们可以将历史时刻的最优路径插值点映射到当前时刻,

4.1.2路径插值解迭代优化

本发明采用粒子群算法对插值点进行迭代优化。由于插值点在各条法向量上求解,因此粒子群算法的搜索空间为各条法向量,维度为插值点数量n。对于每条完整的插值点路径而言,每条法向量上只有一个插值点。设定种群规模为N

首先,设置插值解、初始值和超参数,当前时刻为t。引入t-1、t-2和t-3时刻的最优路径插值解,作为部分初始解,计算所有初始插值解的路径适应度值,选择群体全局最优路径插值解和个体最优。然后根据粒子群标准公式更新插值解:

V

X

式中:ω为惯性因子,c

判断插值解是否收敛,若插值解收敛,则输出最优解,否则,重新确定全局最优路径插值解。算法流程(路径迭代流程)如图11所示。

然而,获取的最优路径插值解存在插值点分布不均和生成路径轨迹不光滑的问题。为了解决这些问题,后续引入了插值点筛选和三次B样条计算方法来改善路径插值解的质量和光滑性。

4.2样条路径解计算

为了解决最优插值路径中存在的插值点分布不均和轨迹不光滑的问题,采用了插值点筛选策略,以实现插值点的均匀分布。同时,为了解决生成路径轨迹不光滑的问题,应用B样条对最终路径进行优化。

4.2.1插值点筛选

为了解决当前最优路径上插值点分布过密可能导致生成路径不光滑甚至出现路径倒退的问题,进行插值点的筛选。有效的插值点筛选对于保证路径的光滑性尤为重要。考虑到实时性的要求,插值点的筛选主要基于插值点与前后插值点的距离,将插值点进行分类。首先计算各个插值点之间的距离,如式所示:

当插值点的前后距离D

式中D

4.2.2三次B样条反算与路径拟合

为了确保生成的路径光滑,采用三次均匀B样条算法来优化最终路径。然而,由于B样条算法是基于控制点生成路径,直接使用B样条生成的最终路径将不经过插值点。因此,在现有插值点的基础上,采用三次B样条反算的方法来获取控制点,以确保最终路径能够经过插值点并保持光滑性。

设有n+2个插值点Q

该方程组有n+2个方程,n+4个未知数。考虑边界条件,假设样条曲线端点有二重控制点,即c

在获取n+4个控制点c

式中:u为参变量,u∈[0,1]。三次均匀B样条的一阶和二阶导数均具有连续特性,这使得生成的轨迹光滑连续,并有效地减少了计算时间。

本发明提出了一种基于逆强化学习的室外复杂环境局部路径规划方法。该方法主要分为预训练阶段和实时运行阶段。在预训练阶段,采用逆强化学习对构建的局部路径描述函数的主要参数进行整定,以提高参数调整效率。在实时运行阶段,首先利用RGBD相机获取彩色图像和深度图像,并对原始图像进行图像处理,以获取可行域的二值化图像。然后,采用粒子群算法在法向量上进行求解优化问题,以获得较优的插值点,从而实现安全可靠的局部路径规划。最后,通过筛选、三次均匀B样条反求控制点与拟合,得到最优路径,保证了路径的光滑性和可行性。该方法具有低成本、适应性强和性能优良的特点,可以解决机器人在室外复杂环境下局部路径规划受地形干扰和噪声影响的问题。

以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

技术分类

06120116566795