一种针对敏捷对地观测卫星调度问题的优化方法、装置、电子设备和计算机存储介质
文献发布时间:2024-04-18 20:00:50
技术领域
本发明涉及敏捷对地观测卫星调度的技术领域,尤其涉及一种针对敏捷对地观测卫星调度问题的优化方法、装置、电子设备和计算机存储介质。
背景技术
敏捷地球观测卫星(agile earth observation satellites,AEOSs)是新一代的地球观测卫星,具有三个自由度:滚动、俯仰和偏航。由于观测范围广、观测时间长、不受地形限制,AEOS在天气预报、灾害预警、环境保护、地面测绘和海上搜救中发挥着重要作用。与传统的只有滚动能力的EOS相比,AEOS有更长的可见时间窗口(visible time window,VTW)用于地面目标观测。观测窗口(observation window,OW)代表任务的实际观测时间,其长度为用户要求的观测时间。OW是可变的,可以是VTW内的任何时间段来保证观测过程的完整性,这使得AEOSSP的解决空间很大。此外,当连续观测两个目标时,AEOS需要转换姿态。由于AEOS的姿态与OW的开始和结束时间有关,所以两个任务之间的姿态转换时间是可变的,并且是随时间变化的。敏捷对地观测卫星调度问题(agile earth observation satellitescheduling problem,AEOSSP)需要确定任务观测顺序和每个任务的OW,以满足观测完整性、姿态转换约束和卫星的一些如内存和功耗的硬约束。因此,AEOSSP是一个典型的具有复杂约束的组合优化问题,已被证明是一个NP-hard问题。
随着AEOS应用领域的扩大,观测请求变得频繁,观测要求也变得多样化。尽管AEOS的观测能力更加出色,但仍是难以满足高观测需求的稀缺资源。此外,一些突发事件,如地震和洪水,需要卫星尽快完成观测。因此,一个快速有效的调度算法对于提高卫星的利用率至关重要。
发明内容
本发明的目的在于提供一种针对敏捷对地观测卫星调度问题的优化方法、装置、电子设备和计算机存储介质,解决复杂的问题调度问题。
为实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种针对敏捷对地观测卫星调度问题的优化方法,具体包括如下步骤:
S101、输入问题算例;
S102、更新AEOSSP的状态图及当前状态下的问题特征;
S103、将更新后的问题特征输入到基于图注意力网络的决策神经网络GDNN中,得到候选节点的行动概率;
S104、使用MASK机制对所述S103的输出进行约束;
S105、根据得到的节点行动概率,选择下一个任务;
S106、判断候选任务是否为空,若是,则输出解序列;若否,则执行步骤S102。
进一步地,所述步骤S101进一步包括:
将需要调度的AEOS及其各项参数构造成问题算例。
进一步地,所述步骤S102进一步包括:
所述步骤根据最新调度结果,更新AEOSSP的状态图,以及当前状态下的问题特征。
进一步地,所述问题特征包括节点特征和边特征;具体地,包括十个节点特征和五个边特征。
进一步地,所述步骤S103进一步包括,GDNN由九层组成,前四层是嵌入层,每个嵌入层是一个单层的GAT网络,使用注意力机制来权衡节点和边特征;接下来的五层都是全连接层,只负责更新特征的属性;第五层是中间层,负责转换网络尺寸;第六至第八层是隐藏层,其尺寸保持不变;最后一层是输出层,输出一个一维的行动概率。
进一步地,所述步骤S103进一步包括,应用近似策略优化PPO来训练GDNN;其中PPO的训练框架遵循Actor-Critic框架,包括一个参数为Θ
进一步地,所述步骤S104进一步包括,节点e
第二方面,本发明还提供一种针对敏捷对地观测卫星调度问题的优化装置,包括如下模块:
输入模块,输入问题算例;
更新模块,更新AEOSSP的状态图及当前状态下的特征;
行动概率计算模块,将更新后的问题特征输入到GDNN中,得到候选节点的行动概率;
MASK机制模块,使用MASK机制对行动概率计算模块的输出进行约束;
任务选择模块,根据得到的节点行动概率,选择下一个任务;
判断模块,判断候选任务是否为空,若是,则输出解序列;若否,则执行更新模块。
第三方面,本发明还提供了一种电子设备,包括:
至少一个处理器,以及与至少一个所述处理器通信连接的存储器;
其中,所述存储器存储有可被至少一个所述处理器执行的指令,所述指令被至少一个所述处理器执行,以使至少一个所述处理器能够执行上述的方法。
第四方面,本发明提供了一种计算机可读存储介质,所述介质上存储有计算机指令,所述计算机指令用于使所述计算机执行上述的方法。
本发明的有益效果如下:
本发明体重一种针对敏捷对地观测卫星调度问题的优化方法、装置、电子设备和计算机存储介质,用于解决具有随时间变化的姿态转换约束的AEOSSP问题。用时间-姿态邻接图对AEOSSP进行建模,然后提取AEOSSP的特征,包括节点和边的特征,并设计一个GDNN来指导任务选择,并通过PPO训练GDNN。本发明中的针对敏捷对地观测卫星调度问题的优化方法在AEOSSP的大规模和快速反应要求中表现良好,能够解决复杂的卫星调度问题,可以有效提高针对敏捷对地观测卫星调度的效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1AEOSSP的时间-姿态邻接图。
图2AEOSSP构造解的过程
图3针对敏捷对地观测卫星调度问题的优化方法的流程图。
图4问题特征提取。
图5AEOSSP的GDNN结构。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
AEOSSP属于一类典型的复杂多约束组合优化问题,其本质是通过快速选择执行任务、调度任务执行时间生成任务的调度方案以实现卫星资源利用的最大化,获得最大的收益。问题的数学模型如下:
通过上述模型构建起AEOSSP的约束规划模型。其中,式(1)为问题的优化目标函数,即最大化完成任务优先级总和;式(2)表示卫星的硬时间窗口约束,即任务必须在卫星可见时间窗口内观测;式(3)表示任务的成像开始、结束与持续时间的等式关系;式(4)表示的式任务之间时间依赖转换时间约束;式(5)表示卫星的固存约束,即单轨内消耗电量不能超过卫星剩余电量阈值;式(6)表示每个任务最多存在一个紧前(前驱)任务;式(7)表示每个任务最多存在一个紧后(后继)任务;式(8)表示任务既不能是自己的紧前任务又不能是自己的紧后任务;式(9)表示决策变量的值域;式(10)表示两姿态之间的最短姿态转换时间计算方式,在本问题研究中相关常量取值为b
参数定义如下:
将AEOSSP建模为一个邻接图,这是一类典型的有向无环图。当卫星直接经过目标上空时(过顶时间),卫星的俯仰角为0。我们引入时间-姿态坐标来表示任务的VTW。如图1所示,卫星运行时间轴是x轴,卫星的滚动角是y轴。任务是图中的一个节点,其坐标
时间p姿态邻接图是静态的,不能很好地描述时间依赖的转换时间约束。同时,构造解可以被视为一个连续的决策过程。每个任务决策都可以看作一个阶段。如图2所示,在每个阶段中,可以根据策略基于当前图状态来决定下一个任务节点。一旦确定了一个阶段的节点,就更新当前状态的图。根据当前状态选择下一个任务节点。然后,构造最优调度解。
将该构造过程建模为由5元组定义的马尔可夫决策过程(MDP),具体如下。
·S是时间-姿态邻接图模型的状态集。
·A是卫星可以执行的动作集,即决策任务集。
·T:S×A→S是状态转换函数。
·R:S×A→R
·C:S×A→{0,1}是约束的集合,包括约束(2),(4)和(5).当C(s,a)=0,有T(s,a)=⊥,这意味着不满足约束并且状态转换是不可行的。
根据Bellman方程,在最优策略π
相应最优策略π
本发明提出一种针对敏捷对地观测卫星调度问题的优化方法,具体包括如下步骤:
S101、输入问题算例。
具体地,将需要调度的AEOS及其各项参数构造成问题算例。
进一步地,根据当前可调度的卫星个数M,卫星与当前任务之间的距离D,卫星负载率P
具体地,S11、判断当前可调度卫星个数与第一阈值之间的关系,若当前可调度卫星个数M大于等于第一阈值,进入步骤S111,否则进入S12。
S111,从当前可调度的卫星中判断卫星与当前任务之间的距离D是否小于等于第二阈值,若小于等于第二阈值,进入S112,否则,进入S113。
S112、获取与当前任务之间的距离D小于等于第二阈值的卫星数量M1,从M1中选择与任务之间距离D最小的卫星作为当前的待观测卫星,结束流程。
S113,获取与当前任务之间的距离D大于第二阈值的的卫星数量M2,获取M2个卫星中负载率P
S12、若当前可调度卫星个数M小于第一阈值,将可调度的卫星个数M发送至后台管理人员,由后台管理人员获取M个卫星的历史任务日志,从历史任务日志中筛选出历史工作时间T
S121,获取M4个卫星中与当前任务之间的距离D小于等于第五阈值的卫星数量M5,从M5中选择与任务之间距离D最小的卫星作为当前的待观测卫星,结束流程。
S122,获取M4个卫星中与当前任务之间的距离D大于第五阈值卫星数量M6,获取M6个卫星中负载率P
S102、更新AEOSSP的状态图及当前状态下的问题特征。
具体地,根据最新调度结果,更新AEOSSP的状态图,以及当前状态下的问题特征。其中,问题特征包括节点特征和边特征。
将AEOSSP描述为时间-姿态邻接图,并构造相应的AEOSSP问题特征。AEOSSP的特征包括十个节点特征和五个边特征,如图4所示。以下部分描述了每个特征的含义。需要注意的是,所有特征都需要进行归一化处理,以提高网络的泛化能力,避免因数据分布的差异而导致网络决策效果的减弱或失效。
进一步地,节点特征可分为任务、VTW和状态特征。收益pri
进一步地,边特征矩阵E表示两个点之间的边特征关系,
其中tw
S103、将更新后的问题特征输入到基于图注意力网络的决策神经网络(graphattention network-based decision neural network,GDNN)中,得到候选节点的行动概率。
本发明公开了基于图注意力网络的决策神经网络(graph attention network-based decision neural network,GDNN)。图注意力网络(GAT)是一种图形神经网络结构,该网络在图神经网络结构中引入了注意力机制,可以权衡图节点之间的关系。通过提取问题特征,GAT可以根据当前状态的特征计算出后续行动的概率。如图5所示,GDNN由九层组成。前四层是嵌入层,每个嵌入层是一个单层的GAT网络,使用注意力机制来权衡节点和边特征。接下来的五层都是全连接层,只负责更新特征的属性。第五层是中间层,负责转换网络尺寸。第六至第八层是隐藏层,其尺寸保持不变。最后一层是输出层,输出一个一维的行动概率。
在GDNN中,节点特征为
(1)嵌入层和传输网络(l∈[1,4])
节点特征向量v通过公式(15)、(16)和(17)在嵌入层网络中转移。满足公式(18)所示的条件,ReLU函数被用来激活层间。边特征矩阵E在嵌入层网络中通过公式(19)转移,公式(20)和公式(21)中所示的条件需要被满足。
其中,W为模型学习参数,Z和α为中间系数。
(2)中间层和隐藏层网络(l∈[5,8])。
中间层和隐藏层都是全连接层。输入和输出的维度都是F
(3)输出层网络转移(l=9)
输出层也是全连接的,输出维度为1。特征传输采用公式(23)中的方法。
进一步地,GDNN的参数必须通过从大批量的训练数据中学习获得。应用近似策略优化(PP0)来训练GDNN。PPO的训练框架遵循Actor-Critic框架,包括一个参数为Θ
其中,γ为衰减系数。网络的具体训练过程如下:
Step 1:初始化训练参数裁剪因子∈、均方差系数c
Step 2:生成新的训练实例Emp={E,v,S
Step 3:如式(25),根据状态s
a
其中,sample(·)为概率抽样函数,依概率获取位置索引。
Step 4:执行选择动作a
Step 5:判断采样次数t是否达到参数更新步长Tp,若tp=Tp则转入下一步参数训练更新,否则转入Step 15。
Step 6:根据式(24)更新采样池奖励值数据。
Step 7:根据批处理规模K,采用式(26)计算Critic与Actor网络即新旧网络的输出概率比值u
Step 8:采用式(27)计算优势函数
Step 9:采用式(28)计算替代损失值L
其中,CLIP损失
s[p
式(29)中clip(·)为修剪函数,能够将u
Step 10:采用随机梯度下降法SGD更新网络参数Θ。
Step 11:若完成所有批次训练,转入下一步,否则转入Step 7。
Step 12:若完成k次参数更新,转入下一步,否则转入Step 7。
Step 13:采用Actor网络参数更新Critic网络参数,即Θ
Step 14:清空采样池,采样计数t=1。
Step 15:若当前实例数据采样状态终止,则转入Step 2,否则转入下一步。
Step 16:若训练场景数达到N,则终止网络训练并返回网络参数Θ,否则继续Step2。
S104、使用MASK机制对所述S103的输出进行约束。
具体地,Mask机制的引入是为了避免不可行的行动选择。对于违反约束条件的节点,其输出概率为零。节点e
S105、根据得到的节点行动概率,选择下一个任务。
进一步地,选择下一个任务包括如下方法:
S1051、判断行动概率排序第一的节点的行动概率是否大于预定值,若是,则将行动概率排序第一的节点作为下一个任务节点;若否,则执行S1052。
S1052、获取行动概率前M的节点。其中,M可以根据实际需要进行选择。
S1053、获得所述M个节点与前驱节点间的d
S1054、若有d
S106、判断候选任务是否为空,若是,则输出解序列;若否,则执行步骤S102。
本发明的另一实施例,提供了一种针对敏捷对地观测卫星调度问题的优化装置,包括如下模块:
输入模块,输入问题算例;
更新模块,更新AEOSSP的状态图及当前状态下的特征;
行动概率计算模块,将更新后的问题特征输入到GDNN中,得到候选节点的行动概率;
MASK机制模块,使用MASK机制对行动概率计算模块的输出进行约束;
任务选择模块,根据得到的节点行动概率,选择下一个任务;
判断模块,判断候选任务是否为空,若是,则输出解序列;若否,则执行更新模块。
该针对敏捷对地观测卫星调度问题的优化装置可以使用相应的模块实现上述方法,具体实现方式与前述相同,在此不再赘述。
进一步地,本发明还提供了一种电子设备,包括处理器和存储器,存储装置可以被配置成存储执行上述方法实施例的针对敏捷对地观测卫星调度问题的优化的方法的程序代码,处理器可以被配置成用于执行存储器中的程序代码,该程序代码包括但不限于执行上述方法实施例的针对敏捷对地观测卫星调度问题的优化的方法的程序代码。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的一种针对敏捷对地观测卫星调度问题的优化的方法的程序,该程序可以由处理器加载并运行以实现上述针对敏捷对地观测卫星调度问题的优化的方法。
本发明中的介质,可以采用一个或多个计算机可读的介质的任意组合。介质可以是计算机可读信号介质或者计算机可读存储介质。介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
- 一种天然铀纯化过程形成的界面污物处理方法
- 一种用于铀纯化过程的在线高浓度铀分析探测装置