掌桥专利:专业的专利平台
掌桥专利
首页

基于DEORL的航空发动机最低油耗控制优化方法

文献发布时间:2024-04-18 19:58:30


基于DEORL的航空发动机最低油耗控制优化方法

技术领域

本发明涉及航空发动机控制技术领域,尤其是涉及一种基于DEORL的航空发动机最低油耗控制优化方法。

背景技术

航空发动机是飞机的核心设备,它的性能直接影响着飞机的飞行效率和安全性。随着航空工业的不断发展,对航空发动机的要求也越来越高。目前,航空发动机的研发已经涵盖许多领域,包括机械设计、材料科学、热力学、流体力学等。

航空发动机的工作过程具有复杂多变的特点,由于其受到多种控制变量的影响,因此控制系统的设计更具挑战性。传统的控制方法往往无法满足要求,因此需要利用深度强化学习等新兴技术进行优化。在这方面,航空发动机的性能寻优控制是一项重要的任务。通过优化发动机性能,可以降低油耗、提高推力、增加飞机的作战半径等。

目前,战斗机的性能要求越来越高,包括更宽广的飞行包线、更大的作战半径、更高的机动性和灵活性等。因此,对发动机的研究和优化将对战斗机的性能提升有着关键作用。特别是发动机的最低油耗控制模式,能够在保证发动机安全的前提下,减少发动机的耗油率,从而提高战斗机的作战半径,进而增强其作战能力。因此,对于发动机性能寻优控制的研究,将有着重要的战略意义和实际应用价值。

传统智能优化算法基于概率通过随机搜索实现控制系统的优化,但相应具有收敛速度慢,容易陷入局部最优和易早熟等缺点。变循环发动机的复杂非线性控制系统特性,和多种控制耦合参数进一步放大了智能优化算法的缺点。变循环发动机的最低油耗控制要求在多种限制条件下实现多变量优化控制,相应局部最优点数量急剧增加,因此最低油耗的最优控制需要具有优异的全局寻优能力和快速的优化搜索能力。国内外在变循环发动机加速过程的最优控制研究中虽然取得一定成果,但也存在许多尚未解决的技术难题或待改进之处。

发明内容

本发明的目的在于针对现有技术存在的上述问题,提供一种基于DEORL的航空发动机最低油耗控制优化方法。采用深度探索优化强化学习(Deep Exploration andOptimization Reinforcement Learning,DEORL)算法结合Actor-Critic模型和DQN思想的深度强化学习算法,利用经验回放和目标网络来提高算法性能。经验回放技术可有效提高数据利用率,缓解样本数据间的关联性,从而避免训练不稳定和网络难以收敛的问题。探索性扩展技术通过添加噪声来实现环境的深度探索和利用的平衡。Actor-Critic模型结合策略梯度和值函数方法的优点,可以对网络参数进行单步更新,提高算法效率,同时避免策略梯度算法收敛至局部最优解的问题。最终将DEORL应用于发动机最低油耗寻优控制模式中,在保证发动机安全工作的前提下,保证发动机推力不变,降低发动机的耗油率,提高飞机的飞行距离。

本发明包括以下步骤:

1)建立航空发动机的非线性数学模型;

2)确定最低油耗控制模式的目标函数和约束函数;

3)以深度探索优化强化学习DEORL算法优化计算;

4)输出最优控制变量给航空发动机。

在步骤1)中,所述航空发动机的非线性数学模型为:

S

其中,

在步骤2)中,所述确定最低油耗控制模式的目标函数,最低油耗控制模式为在保证发动机安全工作的前提下,保证发动机推力不变,降低发动机的耗油率,其数学描述如下:

性能指标:

约束条件:g

其中,g

即对于最低油耗控制模式需要求解如下非线性约束问题:

其中,控制变量a

在步骤3)中,所述以深度探索优化强化学习DEORL算法优化计算的流程为:

(1)随机初始化当前Actor网络μ(s|θ

(2)初始化目标Actor网络μ′和目标Critic网络Q′,各自的网络权重参数分别为:θ

(3)初始化经验回放池R;

(4)当i=1,2,…,最大回合数时,为动作探索初始化一个随机过程N,获得初始状态s

(5)当t=1,2,…,T时,根据公式a

其中,y

计算策略网络的梯度:

更新目标网络μ′和Q′:

θ

θ

其中,θ

在步骤4)中,所述控制变量为调节主燃油流量W

本发明建立航空发动机的非线性数学模型,设计DEORL算法,结合Actor-Critic模型和DQN思想的深度强化学习算法,利用经验回放和目标网络来提高算法性能。经验回放技术可以有效提高数据利用率,缓解样本数据间的关联性,从而避免训练不稳定和网络难以收敛的问题。探索性扩展技术通过添加噪声来实现环境的深度探索和利用的平衡。Actor-Critic模型结合策略梯度和值函数方法的优点,可以对网络参数进行单步更新,提高算法效率,同时避免策略梯度算法收敛至局部最优解的问题。并将DEORL算法应用于发动机最低油耗模式寻优控制,并输出最优控制变量给航空发动机,在保证发动机安全工作的前提下,实现发动机推力保持不变并降低耗油率,提高飞机的飞行距离。实现某型航空涡扇发动机在保持推力不变的情况下耗油率最低。

附图说明

图1是本发明基于DEORL算法的涡扇发动机最低油耗性能寻优图;

图2是本发明最低油耗控制模式原理图;

图3是本发明Actor-Critic网络架构图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。本发明实施例解决的问题是航空发动机的最低油耗寻优控制。发动机最低油耗寻优控制就是为了使发动机的推力保持不变,耗油率降到最低,选取最优控制方法寻找一组最优控制量(主燃油流量W

以某型航空涡扇发动机非线性数学模型为研究对象,建立最低油耗控制模式的目标函数,利用DEORL算法对发动机进行优化计算,即可得到满足最低油耗性能指标的最优控制变量。最低油耗控制模式是指在发动机安全和推力不变的前提下,降低发动机耗油率,该模式通常用于巡航状态,可增加巡航时间和作战半径。

1、航空发动机非线性模型设计

由于航空发动机最低油耗寻优控制需要依据发动机当前工作状态参数做出控制决策,因此,进行最优控制方法研究时,通常以航空发动机数学模型取代真实的发动机。由于航空发动机的建模技术已经非常成熟,这里不再赘述,直接给出建立的发动机非线性模型

S

其中,

2、基于DEORL算法的最低油耗寻优控制框架

航空发动机最低油耗寻优技术是飞行/推进系统综合控制的关键技术。随着航空科技投入的增加,全权限数字式电子控制技术在新一代发动机中得到广泛的应用。为了优化飞机和发动机的油耗性能,通常在发动机的巡航状态采取最低油耗控制模式。本发明设计了一种基于DEORL算法的航空发动机最低油耗寻优控制,其基本思路如图1所示。图1中,a

DEORL算法有两种类型的神经网络结构:策略网络和价值网络。其中策略网络代表具体的控制策略π(a|s),共包含四层神经网络结构:输入层、隐藏层1、隐藏层2、输出层。其中输入层包含两个神经元节点,分别用于接收状态向量

最低油耗控制模式指的是以发动机安全和推力恒定为前提,降低发动机耗油率,该模式用于巡航状态,可增加巡航时间和作战半径。

在不开加力,高压转子转速n

考虑约束条件后,最低油耗控制模式的数学描述如下:

性能指标:min sfc

约束条件:g

其中,g

本发明将DEORL算法应用于航空发动机最低油耗寻优控制中。

3、DEORL算法原理及设计流程

DEORL算法在Actor-Critic模型结构基础上融入DQN算法的思想,其结构包含价值网络和策略网络。强化学习通常基于MDP模型,数据之间存在关联,易导致训练不稳定,网络难以收敛,因此DEORL算法利用经验回放池和目标网络两种方式来改善算法整体的性能。

经验回放池:

对于深度强化学习的神经网络,在利用梯度下降法更新神经元的权重系数时,需要一定量的样本数据。如果利用在线交互学习的方式,当前网络更新结束后需要丢弃当前数据,导致数据利用率大幅度降低,智能体需要与环境进行更多的交互才能达到最终收敛的效果。经验回放技术开辟一定大小的缓存区,将状态转移信息(s

探索性扩展:

DEORL算法作为确定性策略梯度算法,在给定初始状态后根据策略网络得到的交互序列是固定的,智能体无法生成不同的行为来对环境进行深度探索,因此策略就无法得到提升。为了将DEORL的决策过程从确定性变为随机性过程,在策略输出动作的基础上添加噪声N实现探索性的扩展,最终环境执行的动作a

a

通常将N设置为高斯白噪声,其均值为策略网络的输出值。随着训练过程的不断进行,将噪声方差持续减小来实现探索与利用的平衡。

Actor-Critic方法:

策略梯度算法是依据策略函数的梯度进行寻优的,参数沿着梯度方向进行小幅度修正,使得寻优过程比较平滑、波动小,但是相对效率也较低。此外,梯度法也使策略梯度算法容易收敛至局部最优解,而非期望的全局最优。因此Actor-Critic模型通过将策略梯度方法与值函数方法结合的方式得到更优的算法结构,如图3所示。

在Actor-Critic模型结构中,Actor网络的依据为策略梯度算法,可以根据当前状态从连续动作中选取合适的动作;Critic网络的依据是DQN等值函数方法,计算该动作执行后发生状态转移所带来的奖惩值,评估该动作是否合理。

Actor-Critic结构可以对网络参数进行单步更新,从而避免策略梯度算法回合制更新导致模型效率低下的问题。在具体的交互过程中,Actor网络获取每一个动作的概率值,再基于概率大小选择行为;Critic网络不断进行更新,以完善每个状态下选择每个动作的奖惩值;最后Actor网络根据Critic网络对于动作的奖惩值来更新自身参数,此时新的损失函数为:

Loss=r(s

Actor网络采用的策略梯度更新公式如下:

Critic网络通过DQN算法更新其参数,梯度更新公式如下:

其中λ

DEORL算法流程如下所示。

根据以上理论基础,Actor与Critic均包含在线网络和目标网络两种结构。通过在线策略网络与环境进行交互产生样本数据,并将该数据存储至经验回放池,下一时间步智能体从经验回放池随机采样一定样本,依据该样本数据进行在线策略网络和在线价值网络的参数更新。所述DEORL的算法流程为:

(1)随机初始化当前Actor网络μ(s|θ

(2)初始化目标Actor网络μ′和目标Critic网络Q′,各自的网络权重参数分别为:θ

(3)初始化经验回放池R;

(4)当i=1,2,…,最大回合数时,为动作探索初始化一个随机过程N,获得初始状态s

(5)当t=1,2,…,T时,根据公式a

其中,y

计算策略网络的梯度:

更新目标网络μ′和Q′:

θ

θ

其中,θ

总之,DEORL算法是以Actor-Critic网络框架为基础,在循环的回合和时间步骤下,通过环境、Actor网络和Critic网络三者之间的交互,完成各网络的迭代训练。

4、基于DEORL算法的最低油耗寻优控制

最低油耗模式是在保持推力不变的情况下降低耗油率,该模式用于巡航状态。耗油率的降低将增加飞机的巡航时间和作战半径。

耗油率sfc与燃油流量W

在最低油耗模式下,优化目标如下式所示:

为保证发动机工作状态的最优性、稳定性和结构强度,须对发动机的使用进行特定的限制。由于受到飞行条件、机械负荷、热负荷以及气动负荷的限制,所有这些限制可分为两类:一类是动力装置部件工作过程中气动稳定性条件的限制,与压气机、燃烧室等一些发动机部件有关;第二类是强度限制。在发动机的所有使用条件下,应保持必要的强度余量。对于发动机的稳定工作状态,要限制对涡轮叶片强度余量最有影响的转速极限值。在给定的飞行包线范围内,出于结构或气动考虑必须限制发动机的压力和温度。在正常工作条件下,要限制超温和超转。

综上所述,本发明选取的发动机的约束条件有:涡轮前温度不超温、高压压气机不喘振、高压转子不超转、风扇不超转、燃烧室不富油熄火、主燃烧室供油量不超过其最大供油量、喷管喉部面积不小于其最小面积等。

考虑到目标函数、约束条件以及控制变量的影响后,需要寻找一组合适的W

其中控制变量a

在最低油耗模式下,发动机推力F保持恒定。故使sfc最小化问题可转化为使航空发动机主燃油流量W

式中,JF表示保持发动机推力F不变的目标函数,F

因此,可将目标函数转化为:

上式中,ω

上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 基于改进遗传算法的航空发动机最低油耗控制优化方法
  • 基于改进遗传算法的航空发动机最低油耗控制优化方法
技术分类

06120116502080