掌桥专利:专业的专利平台
掌桥专利
首页

一种基于强化学习的无人车避障方法及装置

文献发布时间:2023-06-19 11:14:36


一种基于强化学习的无人车避障方法及装置

技术领域

本申请涉及自动驾驶技术领域,尤其涉及一种基于强化学习的无人车避障方法及装置。

背景技术

随着人工智能技术的崛起,自动驾驶技术越来越成熟,无人车也获得了学术界和产业界的广泛关注。无人车涉及各个领域,诸如信息与传感器技术、轨迹跟踪技术、以及避障技术等。其中,避障技术作为无人车的基础,成为本领域内技术人员所关注的重点。

目前,常用的避障技术为动态窗口方法。然而,传统的动态窗口方法缺乏对复杂行驶环境的自适应能力,当遇到障碍物集群时,会出现振荡等陷入陷阱的问题,使得无人车无法规避障碍物集群,其避障性能较为低下,无法实现真正意义上的无人车主动避障。

发明内容

本申请提供了一种基于强化学习的无人车避障方法及装置,目的在于提高无人车的避障性能,实现无人车的主动避障。

为了实现上述目的,本申请提供了以下技术方案:

一种基于强化学习的无人车避障方法,包括:

利用强化学习算法,在预先获取的环境约束下,对动态窗口避障模型进行训练,得到预测窗口;其中,所述环境约束用于指示位于无人车前方区域内的各个障碍物的形状大小、以及各个所述障碍物与所述无人车之间的距离;所述动态窗口避障模型基于所述无人车的运动学模型预先构建;所述预测窗口为依所述据环境约束调整位置后的动态窗口;

基于所述预测窗口和速度采样约束,采样多组速度,并针对每组采样速度,生成一组轨迹;所述速度采样约束基于所述无人车的行驶状态和动力系统配置预先构建;

利用预先构建的避障惩罚函数和评价函数,对多组所述轨迹进行评分;所述避障惩罚函数用于评估各组所述轨迹的避障性能;

从各组所述轨迹中选取评分最高的轨迹,作为目标轨迹;

将所述目标轨迹所对应的采样速度,输出至所述无人车的控制系统中,使得所述无人车依据所述目标轨迹所对应的采样速度进行驱动。

可选的,所述利用强化学习算法,在预先获取的环境约束下,对预先构建的动态窗口避障模型进行训练,得到预测窗口,包括:

预先配置强化学习的训练要素;

其中,所述训练要素包括有限状态集、有限动作集、以及反馈;所述有限状态集包括多个状态,每个所述状态均包括所述无人车的速度、以及所述无人车与各个所述障碍物之间的距离;所述有限动作集包括多个动作,每个所述动作均用于指示调整所述预测窗口;所述反馈用于指示所述无人车在第一状态下采取目标动作转移到第二状态的奖励值;所述第一状态和所述第二状态均为所述有限状态集所包含的各个状态中的任意一个、且所述第二状态发生在所述第一状态的下一时刻;所述目标动作为所述有限动作集所包含的各个动作中的任意一个;

基于所述状态、所述动作、以及所述反馈之间的对应关系,创建Q表;

构建强化学习的期望方程;所述期望方程用于从多个预设的策略中选取出累计奖励值最大的策略;所述策略用于指示驱动所述无人车避开所述环境约束中的各个障碍物,到达预设终点的控制逻辑;

通过查询所述Q表求解所述期望方程,并在求解所述期望方程的过程中,利用预设公式不断更新所述Q表;所述期望方程的解指示所述预测窗口。

可选的,所述速度采样约束包括:

运动学约束、动力学约束、主动安全约束、以及阿克曼转向角约束中的至少一种约束。

可选的,所述动力系统配置用于指示所述无人车的最大纵向速度、最小纵向速度、最大转向角速度、最小转向角速度、最大反向加速度、以及最大转向角。

可选的,所述基于所述无人车的行驶状态和动力系统配置预先构建所述速度采样约束的过程,包括:

基于所述最大纵向速度、最小纵向速度、最大转向角速度、以及最小转向角速度,构建运动学约束;

基于所述最大反向加速度,构建主动安全约束;

基于所述最大转向角,构建阿克曼转向角约束。

可选的,所述行驶状态用于指示所述无人车各个时刻的纵向速度和转向角速度。

可选的,所述基于所述无人车的行驶状态和动力系统配置预先构建所述速度采样约束的过程,包括:

基于所述无人车前一时刻的纵向速度和转向角速度、所述无人车当前时刻的纵向速度和转向角速度、以及所述无人车下一时刻的纵向速度和转向角速度,构建动力学约束;所述无人车下一时刻的纵向速度和转向角速度基于速度采样得到。

一种基于强化学习的无人车避障装置,包括:

训练单元,用于利用强化学习算法,在预先获取的环境约束下,对动态窗口避障模型进行训练,得到预测窗口;其中,所述环境约束用于指示位于无人车前方区域内的各个障碍物的形状大小、以及各个所述障碍物与所述无人车之间的距离;所述动态窗口避障模型基于所述无人车的运动学模型预先构建;所述预测窗口为依所述据环境约束调整位置后的动态窗口;

采样单元,用于基于所述预测窗口和速度采样约束,采样多组速度,并针对每组采样速度,生成一组轨迹;所述速度采样约束基于所述无人车的行驶状态和动力系统配置预先构建;

评分单元,用于利用预先构建的避障惩罚函数和评价函数,对多组所述轨迹进行评分;所述避障惩罚函数用于评估各组所述轨迹的避障性能;

选取单元,用于从各组所述轨迹中选取评分最高的轨迹,作为目标轨迹;

输出单元,用于将所述目标轨迹所对应的采样速度,输出至所述无人车的控制系统中,使得所述无人车依据所述目标轨迹所对应的采样速度进行驱动。

一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的基于强化学习的无人车避障方法。

一种基于强化学习的无人车避障设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;

所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的基于强化学习的无人车避障方法。

本申请提供的技术方案,利用强化学习算法,在预先获取的环境约束下,对动态窗口避障模型进行训练,得到预测窗口。其中,环境约束用于指示位于无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离。动态窗口避障模型基于无人车的运动学模型预先构建。预测窗口为依据环境约束调整位置后的动态窗口。基于预测窗口和速度采样约束,采样多组速度,并针对每组采样速度,生成一组轨迹。速度采样约束基于无人车的行驶状态和动力系统配置预先构建。利用预先构建的避障惩罚函数和评价函数,对多组轨迹进行评分。避障惩罚函数用于评估各组轨迹的避障性能。从各组轨迹中选取评分最高的轨迹,作为目标轨迹。将目标轨迹所对应的采样速度,输出至无人车的控制系统中,使得无人车依据目标轨迹所对应的采样速度进行驱动。利用强化学习在预先配置的环境约束下,对动态窗口避障模型进行训练,所得到的预测窗口,相较于现有技术而言,是依据环境约束调整位置后的动态窗口,环境约束指示无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离,并且,还利用避障惩罚函数对基于预测窗口和速度采样约束的多组轨迹进行评分,并从各组轨迹中选出避障性能较高的轨迹。可见,利用本申请所述的方法,能够提高无人车的避障性能,实现无人车的主动避障。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种基于强化学习的无人车避障方法的示意图;

图1b为本申请实施例提供的一种无人车避障模拟示意图;

图1c为本申请实施例提供的另一种无人车避障模拟示意图;

图1d为本申请实施例提供的又一种无人车避障模拟示意图;

图2为本申请实施例提供的一种强化学习训练过程的示意图;

图3为本申请实施例提供的另一种基于强化学习的无人车避障方法的示意图;

图4为本申请实施例提供的一种基于强化学习的无人车避障装置的架构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1a所示,为本申请实施例提供的一种基于强化学习预测窗口的无人车避障方法的示意图,包括如下步骤:

S101:预先构建无人车的运动学模型。

其中,运动学模型的构建是出于无人车运动的规划与控制考虑的,在无人驾驶场景下,无人车大多按照预先规划的轨迹行驶,预先规划的轨迹越贴近实际路况,则更能精准跟踪控制无人车的行驶。也就是说,在轨迹规划过程中引入无人车的运动学约束,能够提高无人车的运动跟踪性能。

在本申请实施例中,预先构建的运动学模型如公式(1)所示。

在公式(1)中,

x代表横向坐标;

y代表纵向坐标(将无人车的行驶路径投影在二维坐标系平面上,平面上任意一点均代表无人车所处位置,按照时刻由先至后的顺序,连接多个点则得到行驶路径);

t代表时刻(即时间);

n代表时刻的索引;

θ代表航向角;

v

w代表转向角速度;

x(t

x(t

y(t

y(t

θ(t

θ(t

v

v

w(t

w(t

S102:基于运动学模型,构建无人车的动态窗口避障模型。

其中,动态窗口避障模型用于:在速度空间(v

S103:基于无人车的行驶状态和动力系统配置,构建速度采样约束。

其中,行驶状态用于指示无人车各个时刻的纵向速度和转向角速度,无人车的行驶状态可由预置在无人车上的传感器采集。动力系统配置用于指示无人车的最大纵向速度、最小纵向速度、最大转向角速度、最小转向角速度、最大反向加速度、以及最大转向角。速度采样约束用于指示速度的取值范围。

具体的,速度采样约束包括但不限于:运动学约束、动力学约束、主动安全约束、以及阿克曼转向角约束。

可选的,基于无人车的最大纵向速度、最小纵向速度、最大转向角速度、以及最小转向角速度,构建运动学约束。

在本申请实施例中,具体的运动学约束V

V

在公式(2)中,v

可选的,基于无人车前一时刻的纵向速度和转向角速度、无人车当前时刻的纵向速度和转向角速度、以及无人车下一时刻的纵向速度和转向角速度,构建动力学约束。

在本申请实施例中,具体的动力学约束V

在公式(3)中,

需要说明的是,无人车前一时刻的纵向速度和转向角速度、以及无人车当前时刻的纵向速度和转向角速度,均利用预置在无人车上的传感器采集得到。无人车下一时刻的纵向速度和转向角速度,则是利用动态窗口避障模型预先采集得到,即无人车下一时刻的纵向速度和转向角速度,就是基于速度采样得到的速度。

可选的,基于无人车的最大反向加速度,构建主动安全约束。

在本申请实施例中,具体的主动安全约束V

在公式(4)中,dist(v,w)代表无人车的最大反向加速度。

需要说明的是,基于主动安全约束,能够确保无人车在与障碍物发生碰撞前能够及时停车。

可选的,基于无人车的最大转向角,构建阿克曼转向角约束。

在本申请实施例中,具体的阿克曼转向角约束,如公式(5)所示。

在公式(5)中,

a

l代表无人车的轴距。

需要说明的是,基于阿克曼转向角约束,能够确保无人车在转向过程中,无人车的每个车轮都能够保持转动,避免无人车因车轮打滑发生意外。

S104:利用强化学习算法,在预先获取的环境约束下,对动态窗口避障模型进行训练,得到预测窗口。

其中,环境约束用于指示位于无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离(对于二维坐标系来说,包括横向距离和纵向距离)。无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离,可由无人车上预置的传感器采集得到。

所谓的预测窗口,为动态窗口避障模型的输出结果,即依据环境约束调整位置后的动态窗口。所谓的动态窗口,即速度空间(v

需要说明的是,本申请所述的强化学习算法包括但不限于为Q-learning算法,利用Q-learning算法,在预先配置的环境约束下,对动态窗口避障模型进行训练的具体实现过程,可以参见图2所示的步骤、以及步骤的解释说明。

S105:基于预测窗口和速度采样约束,采样多组速度,并针对每组采样速度,生成一组轨迹。

其中,基于预测窗口和速度采样约束,采样多组速度的具体实现过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。

S106:利用预先构建的避障惩罚函数和评价函数,对多组轨迹进行评分。

其中,避障惩罚函数如公式(6)所述。

在公式(6)中,

κ

κ

v(t)代表无人车t时刻的速度(包括纵向速度和转向角速度);

x(t)代表无人车t时刻的横向坐标;

y(t)代表无人车t时刻的纵向坐标;

x(i)代表无人车与障碍物之间的横向距离;

y(i)代表无人车与障碍物之间的纵向距离;

i代表障碍物的索引;

ξ代表系数。

评价函数如公式(7)所示。

在公式(7)中,

J代表轨迹的评分;

N

Q代表权重矩阵;

r代表期望值;

k代表时刻的索引;

i代表障碍物的索引

N

R代表权重矩阵;

J

Δu代表控制量,且Δu的约束条件为:

u

k=0,1,…,N

Δu

k=0,1,…,N

y

k=0,1,…,N

S107:从各组轨迹中选取评分最高的轨迹,作为目标轨迹。

S108:将目标轨迹所对应的采样速度,输出至无人车的控制系统中,使得无人车依据目标轨迹所对应的采样速度进行驱动。

需要说明的是,将上述S101-S108所述的流程,应用到实际中,对无人车进行避障模拟,所得到的结果,如图1b所示,可见,本实施例所述的方法能够实现无人车的主动避障。此外,在相同的环境约束下,利用本实施例所述的方法、以及传统的动态窗口方法,分别对同一辆无人车进行避障模拟,所得到的结果如图1c和图1d所示。其中,图1c为传统动态窗口方法的模拟结果,图1d为本实施例所述方法的模拟结果。将图1c和图1d进行对比,明显的,本实施例所述方法的模拟结果,远远优于传统动态窗口方法的模拟结果,也就是说,利用本实施例所述的方法能够提高无人车的避障性能。

综上所述,利用强化学习在预先配置的环境约束下,对动态窗口避障模型进行训练,所得到的预测窗口,相较于现有技术而言,是依据环境约束调整位置后的动态窗口,环境约束指示无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离,并且,还利用避障惩罚函数对基于预测窗口和速度采样约束的多组轨迹进行评分,并从各组轨迹中选出避障性能较高的轨迹。可见,利用本实施例所述的方法,能够提高无人车的避障性能,实现无人车的主动避障。

如图2所示,为本申请实施例提供的一种强化学习具体实现过程的示意图,包括如下步骤:

S201:预先配置强化学习的训练要素。

其中,训练要素包括有限状态集、有限动作集、以及反馈。

在本申请实施例中,有限状态集包括多个状态(state),每个状态均包括无人车的速度、以及无人车与各个障碍物之间的距离。

有限动作集包括多个动作(action),每个动作均用于指示调整预测窗口。所谓的调整预测窗口,即调整动态窗口在包含有环境约束的全局坐标系中的位置,得到预测窗口。

所谓的反馈(reward),是指:无人车在第一状态下采取目标动作转移到第二状态的奖励值。第一状态和第二状态均为有限状态集所包含的各个状态中的任意一个、且第二状态发生在第一状态的下一时刻。目标动作为有限动作集所包含的各个动作中的任意一个。

S202:基于状态、动作、以及反馈之间的对应关系,创建Q表。

其中,所谓的Q即动作效用函数(action-utility function),用于评价在特定状态采取某个动作的优劣。在本申请实施例中,Q表的实现原理和用途、以及创建Q表的具体过程,可以参见现有的Q-learning理论,这里便不再赘述。

S203:构建强化学习的期望方程。

其中,期望方程用于从多个预设的策略中选取出累计奖励值最大的策略,每个策略均包括多个动作,每个动作均对应一个反馈(即奖励值)。在本申请实施例中,所谓的策略是指:驱动无人车避开环境约束中的各个障碍物,到达预设终点的控制逻辑。

具体的,期望方程如公式(8)所示。

在公式(8)中,

E代表期望;

H代表策略中所包含的动作的个数;

t为时刻的索引;

γ代表预设的折扣系数,在本申请实施例中,折扣系数的取值为[0,1],所谓的折扣系数,为本领域技术人员所熟悉的公知常识,主要目的是为了降低下一时刻的反馈对当前动作的负面影响;

R代表反馈;

S

A

S

π代表策略。

S204:通过查询Q表求解期望方程,并在求解期望方程的过程中,利用预设公式不断更新Q表。

其中,期望方程的解,即为预测窗口。

具体的,预设公式如公式(9)所示。

在公式(9)中,

Q(s,a)代表Q表;

P(s'|s,a)代表无人车在第一状态下采取目标动作转移到第二状态的概率;

s代表第一状态;

s'代表第二状态;

a代表目标动作;

R(s,a,s')代表无人车在第一状态下采取目标动作转移到第二状态的奖励值,在Q-learning算法中,称之为眼前利益;

需要说明的是,利用预设公式不断更新Q表,使得期望方程输出多组解的具体实现过程,可以参见现有的Q-learning理论,这里不再赘述。

综上所述,利用本实施例所述的方法,能够利用强化学习算法,在不同环境约束下,对动态窗口避障模型进行训练,得到预测窗口。

需要说明的是,上述图1a、以及图2所示的实施例,均为本申请所述基于强化学习的无人车避障方法的一种可选的具体实现方式。为此,上述实施例提及的流程,可以概括为图3所示的方法。

如图3所示,为本申请实施例提供的另一种基于强化学习的无人车避障方法的示意图,包括如下步骤:

S301:利用强化学习算法,在预先获取的环境约束下,对动态窗口避障模型进行训练,得到预测窗口。

其中,环境约束用于指示位于无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离,动态窗口避障模型基于无人车的运动学模型预先构建,预测窗口为依据环境约束调整位置后的动态窗口。

S302:基于预测窗口和速度采样约束,采样多组速度,并针对每组采样速度,生成一组轨迹。

其中,速度采样约束基于无人车的行驶状态和动力系统配置预先构建。

S303:利用预先构建的避障惩罚函数和评价函数,对多组轨迹进行评分。

其中,避障惩罚函数用于评估各组轨迹的避障性能。

S304:从各组轨迹中选取评分最高的轨迹,作为目标轨迹。

S305:将目标轨迹所对应的采样速度,输出至无人车的控制系统中,使得无人车依据目标轨迹所对应的采样速度进行驱动。

综上所述,利用强化学习在预先配置的环境约束下,对动态窗口避障模型进行训练,所得到的预测窗口,相较于现有技术而言,是依据环境约束调整位置后的动态窗口,环境约束指示无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离,并且,还利用避障惩罚函数对基于预测窗口和速度采样约束的多组轨迹进行评分,并从各组轨迹中选出避障性能较高的轨迹。可见,利用本实施例所述的方法,能够提高无人车的避障性能,实现无人车的主动避障。

与上述本申请所述的基于强化学习的无人车避障方法相对应,本申请还提供了一种基于强化学习的无人车避障装置。

如图4所示,为本申请实施例提供的一种基于强化学习的无人车避障装置的架构示意图,包括:

训练单元100,用于利用强化学习算法,在预先获取的环境约束下,对动态窗口避障模型进行训练,得到预测窗口;其中,环境约束用于指示位于无人车前方区域内的各个障碍物的形状大小、以及各个障碍物与无人车之间的距离;动态窗口避障模型基于无人车的运动学模型预先构建;预测窗口为依据环境约束调整位置后的动态窗口。

其中,训练单元100具体用于:预先配置强化学习的训练要素;其中,训练要素包括有限状态集、有限动作集、以及反馈;有限状态集包括多个状态,每个状态均包括无人车的速度、以及无人车与各个障碍物之间的距离;有限动作集包括多个动作,每个动作均用于指示调整预测窗口;反馈用于指示无人车在第一状态下采取目标动作转移到第二状态的奖励值。第一状态和第二状态均为有限状态集所包含的各个状态中的任意一个、且第二状态发生在第一状态的下一时刻;目标动作为有限动作集所包含的各个动作中的任意一个;基于状态、动作、以及反馈之间的对应关系,创建Q表;构建强化学习的期望方程;期望方程用于从多个预设的策略中选取出累计奖励值最大的策略;策略用于指示驱动无人车避开环境约束中的各个障碍物,到达预设终点的控制逻辑;通过查询Q表求解期望方程,并在求解期望方程的过程中,利用预设公式不断更新Q表;期望方程的解指示预测窗口。

采样单元200,用于基于预测窗口和速度采样约束,采样多组速度,并针对每组采样速度,生成一组轨迹;速度采样约束基于无人车的行驶状态和动力系统配置预先构建。

其中,速度采样约束包括运动学约束、动力学约束、主动安全约束、以及阿克曼转向角约束中的至少一种约束。动力系统配置用于指示无人车的最大纵向速度、最小纵向速度、最大转向角速度、最小转向角速度、最大反向加速度、以及最大转向角。行驶状态用于指示无人车各个时刻的纵向速度和转向角速度。

采样单元200具体用于:基于最大纵向速度、最小纵向速度、最大转向角速度、以及最小转向角速度,构建运动学约束;基于最大反向加速度,构建主动安全约束;基于最大转向角,构建阿克曼转向角约束。

采样单元200具体用于:基于无人车前一时刻的纵向速度和转向角速度、无人车当前时刻的纵向速度和转向角速度、以及无人车下一时刻的纵向速度和转向角速度,构建动力学约束;无人车下一时刻的纵向速度和转向角速度基于速度采样得到。

评分单元300,用于利用预先构建的避障惩罚函数和评价函数,对多组轨迹进行评分;避障惩罚函数用于评估各组轨迹的避障性能。

选取单元400,用于从各组轨迹中选取评分最高的轨迹,作为目标轨迹。

输出单元500,用于将目标轨迹所对应的采样速度,输出至无人车的控制系统中,使得无人车依据目标轨迹所对应的采样速度进行驱动。

本申请还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本申请提供的基于强化学习的无人车避障方法。

本申请还提供了一种基于强化学习的无人车避障设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本申请提供的基于强化学习的无人车避障方法,包括如下步骤:

利用强化学习算法,在预先获取的环境约束下,对动态窗口避障模型进行训练,得到预测窗口;其中,所述环境约束用于指示位于无人车前方区域内的各个障碍物的形状大小、以及各个所述障碍物与所述无人车之间的距离;所述动态窗口避障模型基于所述无人车的运动学模型预先构建;所述预测窗口为依所述据环境约束调整位置后的动态窗口;

基于所述预测窗口和速度采样约束,采样多组速度,并针对每组采样速度,生成一组轨迹;所述速度采样约束基于所述无人车的行驶状态和动力系统配置预先构建;

利用预先构建的避障惩罚函数和评价函数,对多组所述轨迹进行评分;所述避障惩罚函数用于评估各组所述轨迹的避障性能;

从各组所述轨迹中选取评分最高的轨迹,作为目标轨迹;

将所述目标轨迹所对应的采样速度,输出至所述无人车的控制系统中,使得所述无人车依据所述目标轨迹所对应的采样速度进行驱动。

可选的,所述利用强化学习算法,在预先获取的环境约束下,对预先构建的动态窗口避障模型进行训练,得到预测窗口,包括:

预先配置强化学习的训练要素;

其中,所述训练要素包括有限状态集、有限动作集、以及反馈;所述有限状态集包括多个状态,每个所述状态均包括所述无人车的速度、以及所述无人车与各个所述障碍物之间的距离;所述有限动作集包括多个动作,每个所述动作均用于指示调整所述预测窗口;所述反馈用于指示所述无人车在第一状态下采取目标动作转移到第二状态的奖励值;所述第一状态和所述第二状态均为所述有限状态集所包含的各个状态中的任意一个、且所述第二状态发生在所述第一状态的下一时刻;所述目标动作为所述有限动作集所包含的各个动作中的任意一个;

基于所述状态、所述动作、以及所述反馈之间的对应关系,创建Q表;

构建强化学习的期望方程;所述期望方程用于从多个预设的策略中选取出累计奖励值最大的策略;所述策略用于指示驱动所述无人车避开所述环境约束中的各个障碍物,到达预设终点的控制逻辑;

通过查询所述Q表求解所述期望方程,并在求解所述期望方程的过程中,利用预设公式不断更新所述Q表;所述期望方程的解指示所述预测窗口。

可选的,所述速度采样约束包括:

运动学约束、动力学约束、主动安全约束、以及阿克曼转向角约束中的至少一种约束。

可选的,所述动力系统配置用于指示所述无人车的最大纵向速度、最小纵向速度、最大转向角速度、最小转向角速度、最大反向加速度、以及最大转向角。

可选的,所述基于所述无人车的行驶状态和动力系统配置预先构建所述速度采样约束的过程,包括:

基于所述最大纵向速度、最小纵向速度、最大转向角速度、以及最小转向角速度,构建运动学约束;

基于所述最大反向加速度,构建主动安全约束;

基于所述最大转向角,构建阿克曼转向角约束。

可选的,所述行驶状态用于指示所述无人车各个时刻的纵向速度和转向角速度。

可选的,所述基于所述无人车的行驶状态和动力系统配置预先构建所述速度采样约束的过程,包括:

基于所述无人车前一时刻的纵向速度和转向角速度、所述无人车当前时刻的纵向速度和转向角速度、以及所述无人车下一时刻的纵向速度和转向角速度,构建动力学约束;所述无人车下一时刻的纵向速度和转向角速度基于速度采样得到。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种基于强化学习的无人车避障方法及装置
  • 一种基于脉冲神经网络的无人车类脑自主避障方法及系统
技术分类

06120112858768