掌桥专利:专业的专利平台
掌桥专利
首页

飞行器在线航路规划方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:54:45


飞行器在线航路规划方法、装置、设备及存储介质

技术领域

本发明涉及飞行器智能控制技术领域,尤其涉及一种飞行器在线航路规划方法、装置、设备及存储介质。

背景技术

飞行器航路规划是指为飞行器规划出满足任务需求、飞行器自身特性及外界环境约束等因素的航路,属于飞行器任务规划的核心一环;考虑到在执行射前航路规划任务时,需关注飞行器禁避飞区、残骸落区、景象匹配等环境约束,飞行器航路计算和规划效率面临巨大的挑战;与此同时,随着空天防御、电子对抗等技术的发展,飞行器在复杂动态的战场环境中面临各种先进火力打击、电磁干扰等压制措施,其射前规划的航迹成果可能无法满足实时战场环境约束,大大影响飞行任务的执行效率;因此,针对复杂多约束场景,提出一种飞行器在线自主航路规划方法,提升飞行器临机决策能力,具有重要意义。

针对飞行器航路规划问题,相关领域学者主要基于传统路径搜索和智能优化方法进行解决;现有方法是基于侦查信息所建立的任务态势图,建立准确的威胁源模型,设计合理的编码和评价指标,实现快速在线航路规划;另一种方法是通过地形建模对安全区域进行搜索,并对飞行误差增量约束、水平误差校正约束、最少转弯半径约束等约束相互作用机理进行分析,建立飞行器航迹规划模型,并设计基于最速下降的改进Dijkstra算法,实现飞行器航路的快速求解;然而,这些方法仅适用于简单静态任务场景中;当飞行场景复杂动态变化时,需实时对环境进行建模解算并处理海量数据,算法难以收敛,大大影响飞行器航路规划效率。

随着人工智能技术的发展,深度强化学习(Deep Reinforcement Learning,DRL)已被逐渐应用于智能控制、任务优化等领域进行探索研究;一种方法是通过对飞行器模型的离线训练,实现了飞行器在线自主航路规划;另一种方法是通过建立无量纲化动力学模型,并构建基于深度强化学习的飞行器决策框架,解决了传统再入飞行器轨迹制导方法对强扰动条件适应性不做、难以满足多终端约束的问题;然而,这些方法都对任务场景、飞行器模型进行了过于简化处理,构建的飞行器任务规划模型在复杂任务场景中表现出训练速率低、泛化性能弱等问题。

发明内容

本发明的主要目的在于提供一种飞行器在线航路规划方法、装置、设备及存储介质,旨在解决现有技术中无法适应复杂动态变化的飞行场景,需要实时对环境进行建模解算并处理海量数据,难以收敛,飞行器航路规划效率较低,训练速率低,泛化性能弱的技术问题。

第一方面,本发明提供一种飞行器在线航路规划方法,所述飞行器在线航路规划方法包括以下步骤:

获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型;

构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型;

接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

可选地,所述获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型,包括:

获取飞行器的飞行数据,根据所述飞行数据获得飞行器状态空间、飞行器动作空间、预设奖励函数和预设奖励函数折扣因子;

根据所述飞行器状态空间、所述飞行器动作空间、所述预设奖励函数和所述预设奖励函数折扣因子通过下式构建马尔科夫模型:

(S,A,R,γ)

其中,S为所述飞行器状态空间,A为所述飞行器动作空间,R为所述预设奖励函数,γ为所述预设奖励函数折扣因子。

可选地,所述获取飞行器的飞行数据,根据所述飞行数据获得飞行器状态空间、飞行器动作空间、预设奖励函数和预设奖励函数折扣因子,包括:

获取飞行器的飞行数据,根据所述飞行数据获取飞行器自身状态信息、目标点相关状态信息和飞行器探测状态信息,并根据所述飞行器自身状态信息、所述目标点相关状态信息和所述飞行器探测状态信息通过下式确定飞行器状态空间:

S=[S

其中,S

相应地,

其中,x为飞行器在东北天坐标系中正北方向的坐标,y为飞行器在东北天坐标系中正东方向的坐标,v为飞行器速度,α为飞行器飞行速度与y轴正方向的夹角,α∈[π,-π],t为飞行时间,v

相应地,

其中,x

相应地,

其中,L为飞行器探测设备的最大探测距离,l

从所述飞行数据中获取飞行器速度变化率和飞行器角速度,根据所述飞行器速度变化率和所述飞行器角速度通过下式确定飞行器动作空间:

A=[a,ω]

其中,A为飞行器动作空间,a为所述飞行器速度变化率,ω为所述飞行器角速度;

从所述飞行数据中获取预设飞行器距离奖励、预设飞行器安全飞行奖励、预设飞行器速度矢量奖励和预设飞行器飞行任务奖励,根据所述预设飞行器距离奖励、所述预设飞行器安全飞行奖励、所述预设飞行器速度矢量奖励和所述预设飞行器飞行任务奖励确定预设奖励函数,并获取所述预设奖励函数对应的预设奖励函数折扣因子。

可选地,所述从所述飞行数据中获取预设飞行器距离奖励、预设飞行器安全飞行奖励、预设飞行器速度矢量奖励和预设飞行器飞行任务奖励,根据所述预设飞行器距离奖励、所述预设飞行器安全飞行奖励、所述预设飞行器速度矢量奖励和所述预设飞行器飞行任务奖励确定预设奖励函数,并获取所述预设奖励函数对应的预设奖励函数折扣因子,包括:

从所述飞行数据中获取所述飞行器距离目标点的实时距离,根据所述实时距离通过下式确定飞行器距离奖励:

r

其中,r

从所述飞行数据中获取飞行器探测示数和探测距离,根据所述飞行器探测示数和所述探测距离通过下式确定飞行器安全飞行奖励:

其中,r

通过下式获取预设飞行器速度矢量奖励:

r

其中,r

通过下式确定预设飞行器飞行任务奖励:

其中,r

通过下式确定预设奖励函数:

R=ε

其中,R为预设奖励函数,ε

获取所述预设奖励函数对应的预设奖励函数折扣因子。

可选地,所述构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型,包括:

通过下式获取所述飞行器在评价网络各个时刻不同飞行器动作和不同飞行器状态下的状态行为值:

Q=(s

其中,Q为状态行为值,s

根据所述状态行为值将深度确定性策略梯度算法DDPG神经网络的动作网络和Critic评价网络进行复制,生成动作目标网络和评价目标网络,根据所述动作目标网络和所述评价目标网络构建所述飞行器的DDPG神经网络;

根据所述DDPG神经网络构建飞行器的课程学习CL模型。

可选地,所述根据所述DDPG神经网络构建飞行器的课程学习CL模型,包括:

获取所述DDPG神经网络的动作输出初值和高斯噪声处理后的动作值,根据所述动作输出初值和所述动作值通过下式更新所述飞行器对应路径规划子任务的动作输出值:

其中,a

根据所述动作输出值和预设训练课程构建所述飞行器的课程学习CL模型。

可选地,所述接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划,包括:

接收到课程学习任务时,根据所述马尔科夫模型和所述课程学习CL模型确定训练场景、训练回合数、经验回放队列容量、采样大小、每回合最大步长、动作网络学习率、评价网络学习率和软更新系数;

根据所述训练场景、所述训练回合数、所述经验回放队列容量、所述采样大小、所述每回合最大步长、所述动作网络学习率、所述评价网络学习率和所述软更新系数更新所述飞行器的动作网络和评价网络,并对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

第二方面,为实现上述目的,本发明还提出一种飞行器在线航路规划装置,所述飞行器在线航路规划装置包括:

马尔科夫模型构建模块,用于获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型;

课程学习模型构建模块,用于构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型;

训练模块,用于接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

第三方面,为实现上述目的,本发明还提出一种飞行器在线航路规划设备,所述飞行器在线航路规划设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的飞行器在线航路规划程序,所述飞行器在线航路规划程序配置为实现如上文所述的飞行器在线航路规划方法的步骤。

第四方面,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有飞行器在线航路规划程序,所述飞行器在线航路规划程序被处理器执行时实现如上文所述的飞行器在线航路规划方法的步骤。

本发明提出的飞行器在线航路规划方法,通过获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型;构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型;接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划,能够提升网络对未知环境和策略的探索能力,能够实现复杂场景下的飞行器自适应学习和在线航路规划决策控制,提升了模型训练速率,实现了对目标区域的规避,有效完成在线航路规划任务,能够满足真实任务场景需求,具有很好的通用性能,提高了飞行器在线航路规划速度和效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;

图2为本发明飞行器在线航路规划方法第一实施例的流程示意图;

图3为本发明飞行器在线航路规划方法第二实施例的流程示意图;

图4为飞行器在线航路规划方法中在线航路规划模型框架示意图;

图5为飞行器在线航路规划方法中四自由度飞行器运动模型示意图;

图6为本发明飞行器在线航路规划装置第一实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的解决方案主要是:通过获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型;构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型;接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划,能够提升网络对未知环境和策略的探索能力,能够实现复杂场景下的飞行器自适应学习和在线航路规划决策控制,提升了模型训练速率,实现了对目标区域的规避,有效完成在线航路规划任务,能够满足真实任务场景需求,具有很好的通用性能,提高了飞行器在线航路规划速度和效率,解决了无法适应复杂动态变化的飞行场景,需要实时对环境进行建模解算并处理海量数据,难以收敛,飞行器航路规划效率较低,训练速率低,泛化性能弱的技术问题。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(Non-Volatile Memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的设备结构并不构成对该设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作装置、网络通信模块、用户接口模块以及飞行器在线航路规划程序。

本发明设备通过处理器1001调用存储器1005中存储的飞行器在线航路规划程序,并执行以下操作:

获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型;

构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型;

接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

本发明设备通过处理器1001调用存储器1005中存储的飞行器在线航路规划程序,还执行以下操作:

获取飞行器的飞行数据,根据所述飞行数据获得飞行器状态空间、飞行器动作空间、预设奖励函数和预设奖励函数折扣因子;

根据所述飞行器状态空间、所述飞行器动作空间、所述预设奖励函数和所述预设奖励函数折扣因子通过下式构建马尔科夫模型:

(S,A,R,γ)

其中,S为所述飞行器状态空间,A为所述飞行器动作空间,R为所述预设奖励函数,γ为所述预设奖励函数折扣因子。

本发明设备通过处理器1001调用存储器1005中存储的飞行器在线航路规划程序,还执行以下操作:

获取飞行器的飞行数据,根据所述飞行数据获取飞行器自身状态信息、目标点相关状态信息和飞行器探测状态信息,并根据所述飞行器自身状态信息、所述目标点相关状态信息和所述飞行器探测状态信息通过下式确定飞行器状态空间:

S=[S

其中,S

相应地,

其中,x为飞行器在东北天坐标系中正北方向的坐标,y为飞行器在东北天坐标系中正东方向的坐标,v为飞行器速度,α为飞行器飞行速度与y轴正方向的夹角,α∈[π,-π],t为飞行时间,v

相应地,

其中,x

相应地,

其中,L为飞行器探测设备的最大探测距离,l

从所述飞行数据中获取飞行器速度变化率和飞行器角速度,根据所述飞行器速度变化率和所述飞行器角速度通过下式确定飞行器动作空间:

A=[a,ω]

其中,A为飞行器动作空间,a为所述飞行器速度变化率,ω为所述飞行器角速度;

从所述飞行数据中获取预设飞行器距离奖励、预设飞行器安全飞行奖励、预设飞行器速度矢量奖励和预设飞行器飞行任务奖励,根据所述预设飞行器距离奖励、所述预设飞行器安全飞行奖励、所述预设飞行器速度矢量奖励和所述预设飞行器飞行任务奖励确定预设奖励函数,并获取所述预设奖励函数对应的预设奖励函数折扣因子。

本发明设备通过处理器1001调用存储器1005中存储的飞行器在线航路规划程序,还执行以下操作:

从所述飞行数据中获取所述飞行器距离目标点的实时距离,根据所述实时距离通过下式确定飞行器距离奖励:

r

其中,r

从所述飞行数据中获取飞行器探测示数和探测距离,根据所述飞行器探测示数和所述探测距离通过下式确定飞行器安全飞行奖励:

其中,r

通过下式获取预设飞行器速度矢量奖励:

r

其中,r

通过下式确定预设飞行器飞行任务奖励:

其中,r

通过下式确定预设奖励函数:

R=ε

其中,R为预设奖励函数,ε

获取所述预设奖励函数对应的预设奖励函数折扣因子。

本发明设备通过处理器1001调用存储器1005中存储的飞行器在线航路规划程序,还执行以下操作:

通过下式获取所述飞行器在评价网络各个时刻不同飞行器动作和不同飞行器状态下的状态行为值:

Q=(s

其中,Q为状态行为值,s

根据所述状态行为值将深度确定性策略梯度算法DDPG神经网络的动作网络和Critic评价网络进行复制,生成动作目标网络和评价目标网络,根据所述动作目标网络和所述评价目标网络构建所述飞行器的DDPG神经网络;

根据所述DDPG神经网络构建飞行器的课程学习CL模型。

本发明设备通过处理器1001调用存储器1005中存储的飞行器在线航路规划程序,还执行以下操作:

获取所述DDPG神经网络的动作输出初值和高斯噪声处理后的动作值,根据所述动作输出初值和所述动作值通过下式更新所述飞行器对应路径规划子任务的动作输出值:

其中,a

根据所述动作输出值和预设训练课程构建所述飞行器的课程学习CL模型。

本发明设备通过处理器1001调用存储器1005中存储的飞行器在线航路规划程序,还执行以下操作:

接收到课程学习任务时,根据所述马尔科夫模型和所述课程学习CL模型确定训练场景、训练回合数、经验回放队列容量、采样大小、每回合最大步长、动作网络学习率、评价网络学习率和软更新系数;

根据所述训练场景、所述训练回合数、所述经验回放队列容量、所述采样大小、所述每回合最大步长、所述动作网络学习率、所述评价网络学习率和所述软更新系数更新所述飞行器的动作网络和评价网络,并对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

本实施例通过上述方案,通过获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型;构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型;接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划,能够提升网络对未知环境和策略的探索能力,能够实现复杂场景下的飞行器自适应学习和在线航路规划决策控制,提升了模型训练速率,实现了对目标区域的规避,有效完成在线航路规划任务,能够满足真实任务场景需求,具有很好的通用性能,提高了飞行器在线航路规划速度和效率。

基于上述硬件结构,提出本发明飞行器在线航路规划方法实施例。

参照图2,图2为本发明飞行器在线航路规划方法第一实施例的流程示意图。

在第一实施例中,所述飞行器在线航路规划方法包括以下步骤:

步骤S10、获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型。

需要说明的是,飞行数据为飞行器在飞行过程中产生的各项数据,包括但不限于:飞行器速度、飞行器角度、飞行器探测设备的探测距离、飞行器探测示数、飞行器到障碍物或威胁区边界的距离、飞行器角速度、飞行器速度变化率以及飞行器加速度等,本实施例对此不加以限制,获取了飞行器的飞行数据后,可以根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型。

进一步的,所述步骤S10具体包括以下步骤:

获取飞行器的飞行数据,根据所述飞行数据获得飞行器状态空间、飞行器动作空间、预设奖励函数和预设奖励函数折扣因子;

根据所述飞行器状态空间、所述飞行器动作空间、所述预设奖励函数和所述预设奖励函数折扣因子通过下式构建马尔科夫模型:

(S,A,R,γ)

其中,S为所述飞行器状态空间,A为所述飞行器动作空间,R为所述预设奖励函数,γ为所述预设奖励函数折扣因子。

应当理解的是,从所述飞行数据获取飞行器状态空间、飞行器动作空间、预设奖励函数和预设奖励函数折扣因子后,可以对飞行器在线航路规划的马尔科夫模型进行构建。

进一步的,所述步骤获取飞行器的飞行数据,根据所述飞行数据获得飞行器状态空间、飞行器动作空间、预设奖励函数和预设奖励函数折扣因子,包括以下步骤:

获取飞行器的飞行数据,根据所述飞行数据获取飞行器自身状态信息、目标点相关状态信息和飞行器探测状态信息,并根据所述飞行器自身状态信息、所述目标点相关状态信息和所述飞行器探测状态信息通过下式确定飞行器状态空间:

S=[S

其中,S

相应地,

其中,x为飞行器在东北天坐标系中正北方向的坐标,y为飞行器在东北天坐标系中正东方向的坐标,v为飞行器速度,α为飞行器飞行速度与y轴正方向的夹角,α∈[π,-π],t为飞行时间,v

相应地,

其中,x

相应地,

其中,L为飞行器探测设备的最大探测距离,l

从所述飞行数据中获取飞行器速度变化率和飞行器角速度,根据所述飞行器速度变化率和所述飞行器角速度通过下式确定飞行器动作空间:

A=[a,ω]

其中,A为飞行器动作空间,a为所述飞行器速度变化率,ω为所述飞行器角速度;

从所述飞行数据中获取预设飞行器距离奖励、预设飞行器安全飞行奖励、预设飞行器速度矢量奖励和预设飞行器飞行任务奖励,根据所述预设飞行器距离奖励、所述预设飞行器安全飞行奖励、所述预设飞行器速度矢量奖励和所述预设飞行器飞行任务奖励确定预设奖励函数,并获取所述预设奖励函数对应的预设奖励函数折扣因子。

可以理解的是,马尔科夫模型的总状态空间由飞行器自身状态信息、与目标点相关的状态信息和飞行器探测状态信息组成,一般的可以设置l

进一步的,所述步骤从所述飞行数据中获取预设飞行器距离奖励、预设飞行器安全飞行奖励、预设飞行器速度矢量奖励和预设飞行器飞行任务奖励,根据所述预设飞行器距离奖励、所述预设飞行器安全飞行奖励、所述预设飞行器速度矢量奖励和所述预设飞行器飞行任务奖励确定预设奖励函数,并获取所述预设奖励函数对应的预设奖励函数折扣因子,包括:

从所述飞行数据中获取所述飞行器距离目标点的实时距离,根据所述实时距离通过下式确定飞行器距离奖励:

r

其中,r

从所述飞行数据中获取飞行器探测示数和探测距离,根据所述飞行器探测示数和所述探测距离通过下式确定飞行器安全飞行奖励:

其中,r

通过下式获取预设飞行器速度矢量奖励:

r

其中,r

通过下式确定预设飞行器飞行任务奖励:

其中,r

通过下式确定预设奖励函数:

R=ε

其中,R为预设奖励函数,ε

获取所述预设奖励函数对应的预设奖励函数折扣因子。

可以理解的是,在飞行器在线航路规划任务中,奖励函数R表示飞行器执行某一动作后从环境中获得的反馈信号,本实施例可以从在线航路规划任务出发,基于飞行器机动靠近、安全飞行、航路寻优及任务完成四方面对奖励函数进行设计。

在具体实现中,l

步骤S20、构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型。

可以理解的是,构建所述飞行器的深度确定性策略梯度算法(DeepDeterministic Policy Gradient,DDPG)神经网络后,可以根据所述DDPG神经网络构建飞行器的课程学习CL模型。

进一步的,所述步骤S20具体包括以下步骤:

通过下式获取所述飞行器在评价网络各个时刻不同飞行器动作和不同飞行器状态下的状态行为值:

Q=(s

其中,Q为状态行为值,s

根据所述状态行为值将深度确定性策略梯度算法DDPG神经网络的动作网络和Critic评价网络进行复制,生成动作目标网络和评价目标网络,根据所述动作目标网络和所述评价目标网络构建所述飞行器的DDPG神经网络;

根据所述DDPG神经网络构建飞行器的课程学习CL模型。

在具体实现中,构建DDPG算法中的Actor动作网络,Actor动作网络θ

a

表示动作网络在t时刻基于状态s

构建DDPG算法中的Critic评价网络:

本实施例中,Critic评价网络θ

应当理解的是,构建动作目标网络和评价目标网络的过程可以是:将动作网络θ

进一步的,所述步骤根据所述DDPG神经网络构建飞行器的课程学习CL模型包括以下步骤:

获取所述DDPG神经网络的动作输出初值和高斯噪声处理后的动作值,根据所述动作输出初值和所述动作值通过下式更新所述飞行器对应路径规划子任务的动作输出值:

其中,a

根据所述动作输出值和预设训练课程构建所述飞行器的课程学习CL模型。

需要说明的是,构建飞行器在线航路规划课程学习CL模型的方式可以是将复杂场景下的飞行器在线路径规划任务拆分为目标靠近、威胁规避、航路寻优三个子任务,然后采用课程预训练的方式依次在三类典型场景和复杂动态未知环境中进行层次学习;在学习过程中,引入高斯噪声,帮助飞行器对未知环境和策略进行探索学习,并依据训练次数调整随机动作控制变量的概率分布,提升网络对未知环境和策略的探索能力。

可以理解的是,针对三项子任务,分别设置高斯噪声σ

在具体实现中,可以通过调节高斯噪声以使模型更加稳定,设定高斯噪声的衰减方式为:

其中σ

步骤S30、接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

应当理解的是,课程学习任务为预先设置的依据课程学习模型设置的飞行器模型训练学习任务,在接收到课程学习任务时,可以根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,提升网络对未知环境和策略的探索能力,获得训练好的最终航路规划后,以实现复杂场景下的飞行器自适应学习和在线航路规划决策控制。

本实施例通过上述方案,通过获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型;构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型;接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划,能够提升网络对未知环境和策略的探索能力,能够实现复杂场景下的飞行器自适应学习和在线航路规划决策控制,提升了模型训练速率,实现了对目标区域的规避,有效完成在线航路规划任务,能够满足真实任务场景需求,具有很好的通用性能,提高了飞行器在线航路规划速度和效率。

进一步地,图3为本发明飞行器在线航路规划方法第二实施例的流程示意图,如图3所示,基于第一实施例提出本发明飞行器在线航路规划方法第二实施例,在本实施例中,所述步骤S30,具体包括以下步骤:

步骤S31、接收到课程学习任务时,根据所述马尔科夫模型和所述课程学习CL模型确定训练场景、训练回合数、经验回放队列容量、采样大小、每回合最大步长、动作网络学习率、评价网络学习率和软更新系数。

需要说明的是,在课程学习任务中可以使用深度确定性策略梯度方法对飞行器在线航路规划模型进行训练,接收到课程学习任务时,可以根据所述马尔科夫模型和所述课程学习CL模型确定训练场景、训练回合数、经验回放队列容量、采样大小、每回合最大步长、动作网络学习率、评价网络学习率和软更新系数。

步骤S32、根据所述训练场景、所述训练回合数、所述经验回放队列容量、所述采样大小、所述每回合最大步长、所述动作网络学习率、所述评价网络学习率和所述软更新系数更新所述飞行器的动作网络和评价网络,并对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

可以理解的是,通过所述训练场景、所述训练回合数、所述经验回放队列容量、所述采样大小、所述每回合最大步长、所述动作网络学习率、所述评价网络学习率和所述软更新系数更新所述飞行器的动作网络和评价网络,进而可以对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

在具体实现中,可以通过下述步骤实现对飞行器在线航路规划模型进行训练:

步骤a1:设定训练场景:在目标靠近子任务1中,设置障碍物数量为0;在威胁规避子任务2中,设置威胁区数量为3,半径为10千米,且两两威胁区边界间距大于15千米;在航路寻优子任务3中,设置威胁区域为三组,每组两个,共6个,半径为10千米,每组内两个威胁区边界间距小于5千米;在最终训练场景中,设置威胁区数量为0~10随机生成,威胁区位置随机生成;

步骤a2:设定最大训练回合数为E,子课程1预训练回合数E

步骤a3:设定经验回放队列容量M、采样大小N、每回合最大步长

步骤a4:对状态空间进行初始化,分别初始化动作网络参数、评价网络参数、动作目标网络参数、评价目标网络参数;

步骤a5:在状态s

a

其中a

步骤a6:通过更新飞行器智能体的动作输出对飞行器动作进行优化;

步骤a7:更新飞行器状态s

步骤a8:判断经验回放队列中样本数量N

步骤a9:从经验回放队列中随机抽取N

Y

其中γ表示衰减系数,i表示被采样的学习样本序号,r

步骤a10:计算评价网络的损失函数:

其中L表示损失函数,N表示采样大小;

步骤a11:更新策略梯度:

/>

其中

步骤a12:更新动作目标网络θ

其中τ表示软更新系数;

步骤a13:更新训练步长为k=k+1并判定:若

步骤a14:更新训练回合数为e=e+1并依次判定:若e

步骤a15:如图4所示,图4为飞行器在线航路规划方法中在线航路规划模型框架示意图,参见图4,在飞行测试场景中,加载训练好的网络参数完成模型加载,使飞行器完成状态输入-神经网络分析-动作输出工作,实现在复杂环境中的自主在线航路规划有效决策。

进一步的,可以通过下述步骤更新飞行器在任务场景中的状态:

在东北天坐标系中,如图5所示,图5为飞行器在线航路规划方法中四自由度飞行器运动模型示意图;参见图5,其中,y轴、x轴分别指向正北、正东方向,α表示飞行器飞行速度与正北方向夹角、β表示目标方位角;构建飞行器在t时刻的状态更新模型:

其中,

对飞行器状态量进行更新:

其中x(t)、y(t)和x(t-1)、y(t-1)分别表示飞行器当前t时刻和上一时刻t-1在东北天坐标系中正北、正东方向的位置坐标,△t=1s,表示仿真步长时间,飞行器最大速度为v

在具体实现中,可以将飞行器在线规划任务分解为目标靠近、威胁规避、航路寻优三个子课程,并设置和优化高斯噪声引导飞行器智能体进行策略探索和学习,最终将训练好的网络模型参数进行保存,用于复杂场景下的飞行器在线航路规划自主决策。

本实施例通过上述方案,通过接收到课程学习任务时,根据所述马尔科夫模型和所述课程学习CL模型确定训练场景、训练回合数、经验回放队列容量、采样大小、每回合最大步长、动作网络学习率、评价网络学习率和软更新系数;根据所述训练场景、所述训练回合数、所述经验回放队列容量、所述采样大小、所述每回合最大步长、所述动作网络学习率、所述评价网络学习率和所述软更新系数更新所述飞行器的动作网络和评价网络,并对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划;能够实现复杂场景下的飞行器自适应学习和在线航路规划决策控制,提升了模型训练速率,实现了对目标区域的规避,有效完成在线航路规划任务,能够满足真实任务场景需求,具有很好的通用性能,提高了飞行器在线航路规划速度和效率。

相应地,本发明进一步提供一种飞行器在线航路规划装置。

参照图6,图6为本发明飞行器在线航路规划装置第一实施例的功能模块图。

本发明飞行器在线航路规划装置第一实施例中,该飞行器在线航路规划装置包括:

马尔科夫模型构建模块10,用于获取飞行器的飞行数据,根据所述飞行数据构建所述飞行器的在线航路规划对应的马尔科夫模型。

课程学习模型构建模块20,用于构建所述飞行器的深度确定性策略梯度算法DDPG神经网络,根据所述DDPG神经网络构建飞行器的课程学习CL模型。

训练模块30,用于接收到课程学习任务时,根据所述马尔科夫模型、所述课程学习CL模型在所述课程学习任务中对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

所述马尔科夫模型构建模块10,还用于获取飞行器的飞行数据,根据所述飞行数据获得飞行器状态空间、飞行器动作空间、预设奖励函数和预设奖励函数折扣因子;根据所述飞行器状态空间、所述飞行器动作空间、所述预设奖励函数和所述预设奖励函数折扣因子通过下式构建马尔科夫模型:

(S,A,R,γ)

其中,S为所述飞行器状态空间,A为所述飞行器动作空间,R为所述预设奖励函数,γ为所述预设奖励函数折扣因子。

所述马尔科夫模型构建模块10,还用于获取飞行器的飞行数据,根据所述飞行数据获取飞行器自身状态信息、目标点相关状态信息和飞行器探测状态信息,并根据所述飞行器自身状态信息、所述目标点相关状态信息和所述飞行器探测状态信息通过下式确定飞行器状态空间:

S=[S

其中,S

相应地,

其中,x为飞行器在东北天坐标系中正北方向的坐标,y为飞行器在东北天坐标系中正东方向的坐标,v为飞行器速度,α为飞行器飞行速度与y轴正方向的夹角,α∈[π,-π],t为飞行时间,v

相应地,

其中,x

相应地,

其中,L为飞行器探测设备的最大探测距离,l

从所述飞行数据中获取飞行器速度变化率和飞行器角速度,根据所述飞行器速度变化率和所述飞行器角速度通过下式确定飞行器动作空间:

A=[a,ω]

其中,A为飞行器动作空间,a为所述飞行器速度变化率,ω为所述飞行器角速度;

从所述飞行数据中获取预设飞行器距离奖励、预设飞行器安全飞行奖励、预设飞行器速度矢量奖励和预设飞行器飞行任务奖励,根据所述预设飞行器距离奖励、所述预设飞行器安全飞行奖励、所述预设飞行器速度矢量奖励和所述预设飞行器飞行任务奖励确定预设奖励函数,并获取所述预设奖励函数对应的预设奖励函数折扣因子。

所述马尔科夫模型构建模块10,还用于从所述飞行数据中获取所述飞行器距离目标点的实时距离,根据所述实时距离通过下式确定飞行器距离奖励:

r

其中,r

从所述飞行数据中获取飞行器探测示数和探测距离,根据所述飞行器探测示数和所述探测距离通过下式确定飞行器安全飞行奖励:

其中,r

通过下式获取预设飞行器速度矢量奖励:

r

其中,r

通过下式确定预设飞行器飞行任务奖励:

其中,r

通过下式确定预设奖励函数:

R=ε

其中,R为预设奖励函数,ε

获取所述预设奖励函数对应的预设奖励函数折扣因子。

所述课程学习模型构建模块20,还用于通过下式获取所述飞行器在评价网络各个时刻不同飞行器动作和不同飞行器状态下的状态行为值:

Q=(s

其中,Q为状态行为值,s

根据所述状态行为值将深度确定性策略梯度算法DDPG神经网络的动作网络和Critic评价网络进行复制,生成动作目标网络和评价目标网络,根据所述动作目标网络和所述评价目标网络构建所述飞行器的DDPG神经网络;

根据所述DDPG神经网络构建飞行器的课程学习CL模型。

所述课程学习模型构建模块20,还用于获取所述DDPG神经网络的动作输出初值和高斯噪声处理后的动作值,根据所述动作输出初值和所述动作值通过下式更新所述飞行器对应路径规划子任务的动作输出值:

其中,a

根据所述动作输出值和预设训练课程构建所述飞行器的课程学习CL模型。

所述训练模块30,还用于接收到课程学习任务时,根据所述马尔科夫模型和所述课程学习CL模型确定训练场景、训练回合数、经验回放队列容量、采样大小、每回合最大步长、动作网络学习率、评价网络学习率和软更新系数;根据所述训练场景、所述训练回合数、所述经验回放队列容量、所述采样大小、所述每回合最大步长、所述动作网络学习率、所述评价网络学习率和所述软更新系数更新所述飞行器的动作网络和评价网络,并对所述飞行器的在线航路规划模型进行训练,获得训练好的最终航路规划。

其中,飞行器在线航路规划装置的各个功能模块实现的步骤可参照本发明飞行器在线航路规划方法的各个实施例,此处不再赘述。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有飞行器在线航路规划程序,所述飞行器在线航路规划程序被处理器执行时实现如上文所述飞行器在线航路规划方法实施例中的操作。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 存储设备在线检测方法、装置、设备及可读存储介质
  • 一种飞行器控制方法、装置、设备和存储介质
  • 受试者在线招募方法及装置、计算机设备及存储介质
  • 在线实时网页取证方法、装置、存储介质及设备
  • 基于互联网的在线商品监控方法、装置、设备及存储介质
  • 一种飞行器攻击航路规划方法、装置及存储介质
  • 导航路径规划方法、规划装置、存储介质及电子设备
技术分类

06120116381271