掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习的无人机自主导航及避障方法

文献发布时间:2024-04-18 19:58:30


一种基于深度强化学习的无人机自主导航及避障方法

技术领域

本发明涉及无人机自主导航领域,特别涉及一种基于深度强化学习的无人机自主导航及避障方法。

背景技术

随着无人技术的快速发展,无人机的相关研究也逐渐变得热门。与载人飞行器相比,无人机(Unmanned Aerial Vehicle,UAV)由于其具有体积较小、造价成本低、零伤亡和灵活性高等特点而被广泛的运用在军事领域和民用领域。在军事领域,无人机在目标侦察、地形测绘、精准打击、通信干扰、通信转发以及其他战场态势感知场景下得到了广泛的应用;在民用领域,随着消费级无人机的普及,无人机的应用场景十分丰富,如灾难救援、航空拍摄、新闻报道、农业、植保和病虫害检测、电力巡检、快递运输等。无人机执行这些任务的基础,是其可以在复杂环境下,快速且安全地避开障碍物,抵达指定目标点,而这一过程的自主化,可以极大程度地降低成本,提高任务执行效率。

现有技术中,许多方法使用传统的路径规划算法(如A*算法,RRT算法,人工势场法)以及智能优化算法(如粒子群算法,蚁群算法,遗传算法)实现无人机的自主导航。但是这些非学习的算法在进行路径规划时需要全局信息和完善的动作执行机制,在给定的环境下规划可行的路径。难以处理动态变化的环境,存在着实时性差,在线导航和避障能力弱等弊端。此外,鉴于无人机导航的序列决策特点,一些方法将该问题建模为马尔可夫决策过程(MDP),使用深度强化学习的方法对其进行研究。强化学习通过智能体对环境变化的感知,以奖励函数为指引进行决策,不需要全局的信息,可以使无人机在满足各种约束的前提下,自主完成导航和避障任务。而这些基于深度强化学习的无人机自主导航方法存在着灵活性较低,避障能力弱的问题。

发明内容

有鉴于此,本发明实施例提供了一种基于深度强化学习的无人机自主导航及避障方法,以解决现有方法中无人机的灵活性较低,避障能力较弱的问题。该方法包括:

从无人机的各项检测指标中提取出观测特征并按照预设的步数N构造所述无人机的历史轨迹数据;

将所述历史轨迹数据输入至神经网络模型的Actor网络中,获得所述无人机的时序特征,其中,所述神经网络模型包括Actor网络、Critic网络和全连接网络;

将所述观测特征输入到决策偏移方法模块中,输出加权后的观测特征;

将所述加权后的观测特征和所述时序特征进行拼接后输入到所述全连接网络中,所述全连接网络输出所述无人机的动作向量;

将所述历史轨迹数据、当前观测特征和所述动作向量拼接后输入到所述Critic网络中,所述Critic网络输出对“观测特征——动作向量”对的评分;

所述Actor网络使用所述评分的相反数作为损失函数进行梯度下降,完成梯度下降后的所述Actor网络输出三轴加速度,所述三轴加速度用于控制无人机的飞行。

进一步的,所述历史轨迹数据包括所述无人机的坐标信息、所述无人机的三轴分速度、所述无人机的偏航角度、所述无人机与目标点的距离和距离传感器的返回值。

进一步的,所述观测特征包括所述当前观测特征前n个时刻的观测特征及其对应动作向量和所述当前观测特征。

进一步的,基于TD3算法对所述神经网络模型进行训练。

进一步的,所述Actor网络的损失函数为所述Critic网络输出的所述评分,所述Critic网络的损失函数为MSE。

进一步的,所述Actor网络和所述Critic网络均使用Adam优化器进行梯度下降训练。

进一步的,所述从无人机的各项检测指标中提取出观测特征并按照预设的步数N构造所述无人机的历史轨迹数据,包括:

根据所述步数N的值选择所述历史轨迹数据的组织方式;

当前时间步数大于N时,选择距离所述当前时间步数最近N步的所述观测特征及其动作向量,根据对应的所述组织方式拼接成所述历史轨迹数据;

当前的时间步数小于N时,选择从所述无人机飞行开始到现在所有的所述观测特征及其动作向量,根据对应的所述组织方式拼接成所述历史轨迹数据。

进一步的,所述将所述加权后的观测特征和所述时序特征进行拼接后输入到所述全连接网络中,包括:

将所述时序特征输入到Attention网络中,计算注意力权重;

将所述注意力权重与所述时序特征做Hardmard积,得到加权后的所述时序特征;

将所述加权后的观测特征和所述加权后的时序特征进行拼接后输入到所述全连接网络中。

进一步的,所述将所述观测特征输入到决策偏移方法模块中,输出加权后的观测特征,包括:

输入所述当前观测特征到决策偏移方法模块中,并将所述当前观测特征分为k,q,v三个部分;

将k部分的所述当前观测特征与mask矩阵做Hardmard积,遮掩导航部分,获得遮掩后的矩阵;

将所述遮掩后的矩阵与bias矩阵相加,改变导航部分与避障部分的相对大小,得到guide;

将q部分的所述当前观测特征输入到所述全连接网络中,基于Tanh激活函数,获得noise;

将guide与noise相加,经过softmax激活函数做归一化,得到所述注意力权重;

将v部分的所述当前观测特征与所述注意力权重做Hardmard积,得到所述加权后的观测特征。

进一步的,所述Actor网络基于Tanh激活函数,输出所述三轴加速度。

与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:本发明提供一种基于深度强化学习的无人机自主导航及避障方法,使用采用记忆机制处理无人机的历史轨迹,增强无人机导航模型对周围环境的感知能力;采用决策偏移算法使无人机导航模型的决策重心根据周围环境的变化在导航任务和避障任务之间偏移,提高无人机的避障能力;将速度约束损失函数添加在无人机自主导航模型的Actor部分的损失函数上,使无人机的速度向最佳速度靠近,提升速度控制能力,进而提升导航及避障能力。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的构造历史轨迹并从中提取时序特征的流程图;

图2是本发明实施例提供的使用决策偏移算法处理当前时刻观测向量的流程图;

图3是本发明实施例提供的一种基于深度强化学习的无人机自主导航及避障方法整体流程图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本发明提供一种基于深度强化学习的无人机自主导航及避障方法,使用采用记忆机制处理无人机的历史轨迹,增强无人机导航模型对周围环境的感知能力;采用决策偏移算法使无人机导航模型的决策重心根据周围环境的变化在导航任务和避障任务之间偏移,提高无人机的避障能力;将速度约束损失函数添加在无人机自主导航模型的Actor部分的损失函数上,使无人机的速度向最佳速度靠近,提升速度控制能力,进而提升导航及避障能力。

在本发明实施例中,如图3所示,一种基于深度强化学习的无人机自主导航及避障方法包括:

步骤S100:从无人机的各项检测指标中提取出观测特征并按照预设的步数N构造所述无人机的历史轨迹数据;

进一步的,步骤S100中,所述历史轨迹数据包括所述无人机的坐标信息、所述无人机的三轴分速度、所述无人机的偏航角度、所述无人机与目标点的距离和距离传感器的返回值;所述观测特征包括所述当前观测特征前n个时刻的观测特征及其对应动作向量和所述当前观测特征。

具体而言,当前无人机在地图中的坐标,包括x,y,z三个坐标轴;所述无人机的偏航角度为无人机飞行方向与无人机自身和目标点连线的夹角;所述距离传感器的返回值获取方式为:距离传感器有七根分布于水平方向上的前半个圆周,每隔30度进行一次采样,另外三根分布于垂直方向上的上半个圆周,每隔30度进行一次采样,十根距离传感器的长度相等且固定。

进一步的,如图1所示为历史轨迹的组织方式及时序特征的提取方法,步骤S100还包括:

步骤S110:根据所述步数N的值选择所述历史轨迹数据的组织方式;

步骤S120:当前时间步数大于N时,选择距离所述当前时间步数最近N步的所述观测特征及其动作向量,根据对应的所述组织方式拼接成所述历史轨迹数据;

步骤S130:当前的时间步数小于N时,选择从所述无人机飞行开始到现在所有的所述观测特征及其动作向量,根据对应的所述组织方式拼接成所述历史轨迹数据。

步骤S200:将所述历史轨迹数据输入至神经网络模型的Actor网络中,获得所述无人机的时序特征,其中,所述神经网络模型包括Actor网络、Critic网络和全连接网络;

进一步的,基于TD3算法对所述神经网络模型进行训练,TD3(Twin Delayed DeepDeterministic Policy Gradient)是一种强化学习算法,用于训练智能体(Agent)学习在不同环境中采取哪些动作以最大化累积回报。所述神经网络模型主要分为两个部分:Actor网络输入观测向量,输出无人机当前的动作,动作为无人机的三轴加速度,分别加在对应的分速度上,用于控制无人机的飞行;Critic网络输入观测向量及由该观测向量产生的动作向量,输出对“观测特征——动作向量”对的评分,Actor网络使用该评分进行学习。此外,所述神经网络模型还包括全连接网络:全连接网络是一种最基本的神经网络结构,也称为多层感知器(Multilayer Perceptron,MLP)。在全连接网络中,每个神经元都与上一层的所有神经元相连接,因此信息可以在网络的各个层之间传递。全连接网络可以用作Critic网络和Actor网络的基本结构,用于从输入数据中提取特征并进行信息传递和处理。以TD3为基础算法对模型进行训练,在Actor网络中,将历史轨迹数据输入到LSTM及Attention网络中,提取时序特征,增强无人机对周围环境的感知。

更进一步的,在Actor-Critic算法中,Critic网络和Actor网络通常共享一部分参数,以实现共同学习和相互影响。Critic网络提供对当前策略的评估,帮助Actor网络更新策略以使其更优,而Actor网络提供生成动作的概率分布,帮助Critic网络进行价值函数的估计。这种Actor-Critic结构的深度强化学习方法可以在复杂环境中实现智能体的高效训练和学习。

具体而言,所述Actor网络的输入包括两部分,第一部分为前n个时刻的观测向量以及对应动作向量的组合,作为历史数据,先输入到LSTM(长短时记忆神经网络)和Attention(注意力机制)的网络中进行特征提取。具体过程如图1。第二部分为当前时刻的观测向量,该观测向量首先输入决策偏移模块进行加权处理,增强避障能力,具体过程如图2。在完成对上述两个部分的输入特征进行特征提取后,所述网络会将两部分提取到的特征拼接,而后输入全连接神经网络中,输出当前时刻无人机应该采取的三轴加速度。

所述Critic网络的输入包括三个部分,分别为前n个时刻的观测向量及动作向量组合而来的历史数据、当前时刻的观测向量以及Actor网络输出的当前时刻的动作,历史数据使用LSTM和Attention的结构提取特征,而后与另外两部分特征进行拼接,输入全连接神经网络中,输出评价值。

步骤S300:将所述观测特征输入到决策偏移方法模块中,输出加权后的观测特征;

具体而言,将无人机当前时刻的观测向量输入到决策偏移方法模块中,输出加权后的观测特征,使无人机的决策重心根据周围环境的变化在导航任务和避障任务之间偏移,增强无人机的避障能力。

进一步的,如图2所示为处理当前观测向量的决策偏移方法流程图,步骤S300包括:

步骤S310:输入所述当前观测特征至决策偏移方法模块中,并将所述当前观测特征分为k,q,v三个部分;

步骤S320:将k部分的所述当前观测特征与mask矩阵做Hardmard积,遮掩导航部分,获得遮掩后的矩阵;

步骤S330:将所述遮掩后的矩阵与bias矩阵相加,改变导航部分与避障部分的相对大小,得到guide;

步骤S340:将q部分的所述当前观测特征输入到所述全连接网络中,基于Tanh激活函数,获得noise;

步骤S350:将guide与noise相加,经过softmax激活函数做归一化,得到所述注意力权重;

步骤S360:将v部分的所述当前观测特征与所述注意力权重做Hardmard积,得到所述加权后的观测特征。

具体而言,mask矩阵行数为batch size,前八列为0,后十列为1;guide矩阵为指导矩阵,bias矩阵行数为batch size,前八列为0.25,后十列为1;noise矩阵为噪声矩阵。

步骤S400:将所述加权后的观测特征和所述时序特征进行拼接后输入到所述全连接网络中,所述全连接网络输出所述无人机的动作向量;

进一步的,步骤S400还包括:

步骤S410:将所述时序特征输入到Attention网络中,计算注意力权重;

步骤S420:将所述注意力权重与所述时序特征做Hardmard积,得到加权后的所述时序特征;

步骤S430:将所述加权后的观测特征和所述加权后的时序特征进行拼接后输入到所述全连接网络中。

步骤S500:将所述历史轨迹数据、当前观测特征和所述动作向量拼接后输入到所述Critic网络中,所述Critic网络输出评分;

进一步的,所述Actor网络将所述Critic网络输出的评分作为损失函数,所述Critic网络的损失函数为MSE。

步骤S600:所述Actor网络使用所述评分的相反数作为损失函数进行梯度下降,完成梯度下降后的所述Actor网络输出三轴加速度,所述三轴加速度用于控制无人机的飞行。

进一步的,所述Actor网络和所述Critic网络均使用Adam优化器进行梯度下降训练。

进一步的,所述Actor网络基于Tanh激活函数,输出所述三轴加速度。

具体而言,所述神经网络模型的Actor网络的损失函数为Critic网络输出的评价值,速度约束损失函数加在原损失上,以增强无人机对速度控制的学习能力,如公式(1);

公式(1)中,v

进一步的,如图3所示,本实施例所提供的基于深度强化学习的无人机自主导航及避障方法具体包括如下实施步骤:

1、设置当前的迭代次数n=0以及最大迭代次数;

2、当前迭代次数大于最大迭代次数时,算法结束;当前迭代次数小于最大迭代次数时,算法继续;

3、根据选择的N,向算法中输入N个时间步的历史轨迹以及当前时刻无人机的观测特征;

4、将N个时间步的历史轨迹输入到LSTM及Attention组成的记忆处理模块中进行特征提取,详细步骤见图1;

5、将当前的观测向量输入到决策偏移算法模块中进行特征提取,详细步骤见图2;

6、将两个模块得到的特征进行拼接,而后输入到全连接神经网络中;

7、将全连接神经网络的输出结果经过Tanh激活函数,得到当前时刻的三轴加速度;

8、将上述的N个时间步的历史轨迹数据,无人机当前的观测数据以及Actor部分输出的动作向量进行拼接;

9、将拼接的数据输入到Critic网络中,Critic网络与Actor网络同构;

10、Critic网络输出当前时刻的评价值,并使用MSE作为激活函数进行梯度下降;

11、将Critic网络输出的当前时刻的评价值的相反数作为Actor网络的主损失函数,再加上速度约束损失函数,一起进行梯度下降更新;

12、迭代次数加1,返回步骤2。

综上所述,本发明实施例实现了如下技术效果:

1、本发明使用采用记忆机制处理无人机的历史轨迹,增强无人机导航模型对周围环境的感知能力;采用决策偏移算法使无人机导航模型的决策重心根据周围环境的变化在导航任务和避障任务之间偏移,提高无人机的避障能力;将速度约束损失函数添加在无人机自主导航模型的Actor部分的损失函数上,使无人机的速度向最佳速度靠近,提升速度控制能力,进而提升导航及避障能力;采用增加了上述改进的TD3(深度强化学习算法),在仿真3D环境中训练,保存任务成功率最高的模型;将保存的模型中的Actor部分用于无人机自主导航的动作生成,输入无人机的观测,直接输出无人机的动作;

2、本发明使用神经网络直接输出的三轴加速度控制无人机的运动,使无人机飞行更加灵活。在深度强化学习模型TD3的基础上,使用决策偏移算法,使无人机的决策重心根据周围环境的变化在导航任务和避障任务之间进行偏移,从而增强避障能力,在Actor网络的原损失函数上加入速度约束损失函数,增强无人机的速度控制能力,进而增强无人机自主导航模型的避障能力。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种用于多旋翼无人机的自主导航避障方法及装置
  • 一种基于改进强化学习的无人机自主图像导航与避障方法
  • 基于深度强化学习的无人机自主避障系统及方法
技术分类

06120116498856