掌桥专利:专业的专利平台
掌桥专利
首页

基于层次强化学习的航天活动设计方法和装置

文献发布时间:2024-07-23 01:35:21


基于层次强化学习的航天活动设计方法和装置

技术领域

本申请涉及层次强化学习领域,尤其涉及一种基于层次强化学习的航天活动设计方法、装置和电子设备。

背景技术

随着航天技术发展,大型多任务航天活动设计越来越受到人们关注,它包含了航天器的设计、总体活动级规划、具体任务级计划调度等内容,大型航天活动的最终实现离不开正确的航天器设计、架构部署调度和每次任务的精确设计,而由于每次任务的执行都存在不确定性,因此任务间相互影响很容易导致整个航天活动的失败(即所谓的级联失败)。为了解决不确定性条件下的大型航天活动设计、规划和调度问题,人们研究了很多方法,主流的方法是强化学习和混合整数线性规划方法,然而,随着大型航天活动日益复杂,这些方法所需的计算时间呈指数级增长,且暴露出不能适应航天任务不确定性等问题,即在不确定性条件下的数学规划很容易导致变量和约束条件的快速增加,最终使整个问题变得无法描述。

后来,层次强化学习法被使用以解决大型航天活动设计调度问题,常用的层次强化学习结构为option框架和MAXQ框架。但这两种框架也不能成功应用于大型航天活动设计中,原因是没有清晰的策略模型来连接高级任务和低级任务,且低级任务的奖励不能从高级任务中解耦,在不确定性条件下,无法进行有效优化。

发明内容

有鉴于此,本申请提出了一种基于层次强化学习的航天活动设计方法,以解决上述背景技术所体现的问题。

根据本申请的一方面,提供了一种基于层次强化学习的航天活动设计方法,包括:

分别获取航天运输任务和架构设施部署的状态信息;

执行所述航天运输任务,确定航天器设计信息;

根据所述航天器设计信息和所述架构设施部署的状态信息制定架构设施部署计划;

按照所述架构设施部署计划,计算航天任务的物流价值,并根据所述物流价值调度所述航天任务。

作为本申请的一种可选实施方案,所述执行所述航天运输任务,确定航天器设计信息,包括:

执行所述航天运输任务中的第一任务,获得航天器设计需求;

根据所述航天器设计需求确定航天器设计信息。

作为本申请的一种可选实施方案,在根据所述航天器设计需求确定航天器设计信息之前,还包括:

确定所述航天运输任务中剩余任务对应的剩余任务需求;

将所述剩余任务需求与所述第一任务对应的第一任务需求进行比较;

在所述剩余任务需求小于或等于所述第一任务需求时,根据所述航天器设计需求确定航天器设计信息。

作为本申请的一种可选实施方案,在根据所述航天器设计需求确定航天器设计信息之前,还包括:

确定所述航天运输任务中剩余任务对应的剩余任务需求;

将所述剩余任务需求与所述第一任务对应的第一任务需求进行比较;

在所述剩余任务需求小于或等于所述第一任务需求时,根据所述航天器设计需求确定航天器设计信息。

作为本申请的一种可选实施方案,在根据所述航天器设计需求确定航天器设计信息之前,还包括:

获取航天器设计参数,并输入近似价值函数,获得所述第一任务的期望值;

判断所述期望值中的造价信息是否满足所述剩余任务需求中的造价需求;

若所述期望值中的造价信息满足所述剩余任务需求中的造价需求,则根据所述航天器设计需求确定航天器设计信息;

若所述期望值中的造价信息不满足所述剩余任务需求中的造价需求,则对所述航天器设计参数进行调整。

作为本申请的一种可选实施方案,在对所述航天器设计参数进行调整时,包括:

将所述期望值输入到目标函数,得到目标函数结果;

根据所述目标函数结果调整所述航天器设计参数。

作为本申请的一种可选实施方案,在根据所述目标函数结果调整所述航天器设计参数之后,还包括:

将调整后的所述航天器设计参数再次输入到所述近似价值函数,获得新期望值。

作为本申请的一种可选实施方案,还包括:

接收所述物流价值,根据所述物流价值和所述航天器设计需求再确定所述航天器设计信息。

作为本申请的一种可选实施方案,还包括:

获取新架构设施部署的状态信息;

根据所述物流价值、所述航天器设计信息和所述新架构设施部署的状态信息制定新架构设施部署计划。

本申请还提供了一种基于层次强化学习的航天活动设计装置,包括:

获取信息模块,用于分别获取航天运输任务和架构设施部署的状态信息;

执行任务模块,用于执行所述航天运输任务,确定航天器设计信息;

制定计划模块,用于根据所述航天器设计信息和所述架构设施部署的状态信息制定架构设施部署计划;

调度任务模块,用于按照所述架构设施部署计划,计算航天任务的物流价值,并根据所述物流价值调度所述航天任务。

本申请还提供了一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令时实现上述所述的基于层次强化学习的航天活动设计方法。

本申请的有益效果:

本发明通过分别获取航天运输任务和架构设施部署的状态信息,执行所述航天运输任务,确定航天器设计信息,根据所述航天器设计信息和所述架构设施部署的状态信息制定架构设施部署计划,按照所述架构设施部署计划,计算航天任务的物流价值,并根据所述物流价值调度所述航天任务。采用分层框架,每层只需要关心所属问题的策略学习和计算,因此学习效率高,计算速度快,能够解决不确定性条件下的具体任务计划问题,且能够使用各种强化学习方法,具备良好的可扩展性。

根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。

图1示出本申请实施例的基于层次强化学习的航天活动设计方法的流程图;

图2示出本申请实施例的基于层次强化学习的航天活动设计方法的航天活动设计三层框架流程图;

图3示出本申请实施例的基于层次强化学习的航天活动设计装置框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

其中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请或简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。

在航天设计活动中,解耦具有重要意义。由于航天系统通常包含多个复杂且相互依赖的子系统,解耦可以帮助设计团队更好地理解和管理这些子系统之间的关系,降低系统开发和维护的复杂性。通过解耦,设计团队可以更加专注于每个子系统的功能和性能优化,从而提高整个系统的性能和可靠性。

航天运输任务是指将有效载荷从地面运送到太空预定位置(轨道)、从太空某位置运回地面或运送到太空另一位置的过程。航天运输任务的有效载荷包括人员、航天器以及完成航天任务所需的设备、器材和物资。

近似价值函数(Value Function Approximation)的基本思想是通过引入合适的参数和选取能够恰当描述状态的特征,来构建一定的函数以近似计算得到状态或行为价值。这种方法在强化学习中具有重大作用,它可以处理状态空间或行为空间很大的问题。

实施例1

图1示出根据本申请一实施例的基于层次强化学习的航天活动设计方法的流程图。通过该方法,能够兼容现在主流各类强化学习方法,具备良好的扩展性如图1所示,该流程图包括:

S100,分别获取航天运输任务和架构设施部署的状态信息;

航天运输任务通过相关人员根据具体情况来制定获得,例如确定航天运输任务的主要目标为将卫星送入预定轨道,以及该任务的优先级、重要性和紧急性等。在航天设计活动中,架构设施的部署状态是一个关键方面,它涉及到航天器、航天系统以及地面支持设施等多个方面的设计和部署。架构设施部署的状态信息可通过多种传感器和遥测设备收集重要考虑因素的数据获得,为后续制定架构设施部署计划提供基础数据。

S200,执行所述航天运输任务,确定航天器设计信息;

参见图2,由航天器设计智能体完成航天器设计,航天器设计智能体采用的是强化学习方法,通过该航天器设计智能体,得到完成航天运输任务的可行的航天器设计信息。

S300,根据所述航天器设计信息和所述架构设施部署的状态信息制定架构设施部署计划;

在本实施例中,由架构设施部署智能体接收航天设计参数信息和架构部署所处的状态信息,其中航天设计参数信息通过航天器设计信息获得,返回针对每个航天任务的架构设施部署计划,需要说明的是,航天任务与航天运输任务不同,航天任务的内容包括多个方面,而在每个方面,在涉及航天运输时需要制定详细的航天运输任务。

S400,按照所述架构设施部署计划,计算航天任务的物流价值,根据所述物流价值调度所述航天任务。

在本实施例中,由太空运输计划调度基于航天器设计参数和制定的架构设施部署计划,使用混合整数线性规划方法(MILP,mixed-integer linear programming)制定任务级的运输物流计划,航天任务中的任务级运输物流计划是一个综合性的规划,它涉及到从发射前的准备到任务执行过程中的各种物流活动和资源管理。例如在其中一个航天任务中,需要决策何时发射,以及发射点和目的点,进一步的,发射时采用什么航天器,应发射到哪个轨道中等等。相关人员可根据航天任务所涉及的关键方面,根据架构设施部署计划计算具体航天任务所涉及的关键方面的物流价值,调度航天任务。解决了不同级别的决策是互相依赖,并且存在着不确定性的问题。

作为本申请的一种可选实施方案,所述执行所述航天运输任务,确定航天器设计信息,包括:

执行所述航天运输任务中的第一任务,获得航天器设计需求;

航天器设计是伴随所有航天运输任务中的第一个航天运输任务进行的,即在确定所有航天运输任务后但没有执行的情况下,无法得到航天器设计需求,此时选择执行第一个航天运输任务,根据第一个航天运输任务的完成情况,确定至少能完成第一个航天运输任务的可行的航天器设计需求。

根据所述航天器设计需求确定航天器设计信息;

根据航天器设计需求确定详细的航天器设计信息,根据航天器设计信息完成的航天器设计能够满足所有航天运输任务的需求。

作为本申请的一种可选实施方案,在根据所述航天器设计需求确定航天器设计信息之前,还包括:

确定所述航天运输任务中剩余任务对应的剩余任务需求;

航天运输任务的需求即为对航天器设计需求。在进行航天器设计时不仅需要考虑第一个航天运输任务的需求,也需要考虑后续航天运输任务的需求,因此需要确定剩余航天运输任务的需求。

将所述剩余任务需求与所述第一任务对应的第一任务需求进行比较;

将剩余航天运输任务的需求皆与第一个航天运输任务的需求进行比较,可以确定是否只需要通过执行第一个航天运输任务即可确定航天器设计需求。

在所述剩余任务需求小于或等于所述第一任务需求时,根据所述航天器设计需求确定航天器设计信息。

当第一个航天运输任务的需求包括了后续航天运输任务的需求时,例如第一个航天运输任务的需求为轨道在500公里,第二个航天运输任务和第三个航天运输任务的需求皆为轨道在400公里,皆小于500公里,则第二个航天运输任务和第三个航天运输任务的需求小于第一个航天运输任务的需求。根据航天器设计需求确定详细的航天器设计信息,根据航天器设计信息完成的航天器设计即可满足全部航天运输任务的需求。

作为本申请的一种可选实施方案,在根据所述航天器设计需求确定航天器设计信息之前,还包括:

获取航天器设计参数,并输入近似价值函数,获得所述第一任务的期望值;

航天器设计参数可从确定的航天器设计信息中获得,也可以通过执行第一个航天运输任务后得到的航天器设计参数中获得。

在本实施例中,定义了一个近似价值函数项V(a

判断所述期望值中的造价信息是否满足所述剩余任务需求中的造价需求;

通过期望值能够确定是否精确表达了后续航天运输任务对航天器的造价。

若所述期望值中的造价信息满足所述剩余任务需求中的造价需求,则根据所述航天器设计需求确定航天器设计信息。

若第一个航天运输任务的期望值表达包括了后续航天运输任务对航天器的造价,则在执行完第一个航天运输任务后完成的航天器设计,即为已达到优化的航天器设计。

若所述期望值中的造价信息不满足所述剩余任务需求中的造价需求,则对所述航天器设计参数进行调整。

若第一个航天运输任务的期望值没有表达出包括了后续航天运输任务对航天器的造价,则需要对航天器设计参数进行调整,再通过近似价值函数项V(a

作为本申请的一种可选实施方案,在对所述航天器设计参数进行调整时,包括:

将所述期望值输入到目标函数,得到目标函数结果;

为了确保在第一个航天运输任务就能够得到一套可行的航天器设计参数a

在航天器设计活动中,目标函数是用于描述设计过程中需要优化或达到的指标或目标的数学表达式。这些目标函数通常与航天器的性能、效率、安全性、经济性等方面有关。也即,在本实施例中,相关人员可根据需求设定合适的目标函数,此处不进行限定。

根据所述目标函数结果调整所述航天器设计参数;

第一个航天运输任务的期望值没有表达出包括了后续航天运输任务对航天器的造价时,说明根据此时的航天器设计参数进行的航天器设计无法满足后续航天运输任务对航天器的造价需求。需要根据目标函数结果调整航天器设计参数,通过近似价值函数项V(a

作为本申请的一种可选实施方案,在根据所述目标函数结果调整所述航天器设计参数之后,还包括:

将调整后的所述航天器设计参数再次输入到所述近似价值函数,获得新期望值。

相关人员根据目标函数结果和预期的目标损耗项,进行调整航天器设计参数,调整后的航天器设计参数再次通过近似价值函数项V(a

在航天器设计智能体中,在航天器设计参数和第一个航天运输任务确定后,航天器设计参数进入根据后续航天运输任务的需求和造价需求的修改迭代,在整个航天活动迭代关卡(episodes)完成后,航天器设计智能体接收整个航天活动造价和航天器设计参数的改变作为奖励更新它的神经网络。即航天器设计智能体执行第一个航天运输任务得到航天器设计参数后,该航天器设计参数并不是固定的,会由于后续航天运输任务的需求大于第一个航天运输任务的需求或者是第一个航天运输任务的期望值没有表达包括了后续航天运输任务对航天器的造价,或是两种情况都没有满足,需要调整航天器设计参数,而调整航天器设计参数可能会影响到第一个航天运输任务的需求,进而使后续航天运输任务的需求小于或等于第一个航天运输任务的需求。同时,将调整后的航天器设计参数输入近似价值函数项V(a

作为本申请的一种可选实施方案,还包括:

接收所述物流价值,根据所述物流价值和所述航天器设计需求再确定航天器设计信息。

在太空运输计划调度这一层中根据架构设施部署计划计算物流价值后,会将物流价值返回给航天设计智能体和架构设施部署智能体,物流价值对于航天设计智能体来说,也属于奖励,在图2中采取r

作为本申请的一种可选实施方案,还包括:

获取新架构设施部署的状态信息;

在图2中,τ表示航天任务,S

架构设施部署计划在完成航天器设计之前,通过航天器设计信息得到航天器设计参数和架构设施部署所处的状态信息即确定完毕,因此在第一次航天任务时,架构设施部署智能体能在航天器设计参数改变优化之前,可以根据航天任务的具体任务信息选择对应的架构设施部署计划。在其中一个航天任务τ中,架构设施部署智能体处于某个状态S

根据所述物流价值、所述航天器设计信息和所述新架构设施部署的状态信息制定新架构设施部署计划。

该智能体获得奖励r

作为本申请的一种可选实施方案,还包括:

在所述剩余任务需求大于所述第一任务需求时,调整所述航天运输任务;

为了确保在第一个航天运输任务就能够得到一套可行的航天器设计参数a

例如调整第一个航天运输任务的需求,在不改变航天运输任务的具体内容情况下提高需求,使第一个航天运输任务的需求皆大于第二至最后的航天运输任务的需求。

例如还可以通过在执行第一个航天运输任务确定航天器设计需求后,在后续确定航天运输任务时,以前述的航天器设计需求为准,确定航天运输任务,可以不用将后续航天运输任务的需求与第一个航天运输任务的需求进行比较。

执行调整后的所述航天运输任务中的第一任务,再次确定航天器设计信息。

执行调整后的第一个航天运输任务,此时执行第一个航天运输任务得到的航天器设计需求能够满足后续航天运输任务的需求,达到一开始就得到优化的航天器的效果。

航天器设计智能体在确定航天器设计信息之前,可通过调整航天运输任务的需求,最终使根据执行第一个航天运输任务得到的航天器设计需求确定航天器设计信息,即能得到已有优化效果的航天器。在航天器设计完成后,通过太空运输计划调度返回的物流价值,即奖励r

以上方法中,通过迭代关卡(episodes),能够完成大型航天活动的设计。图2中三个层次框架通过把设计领域分割成两个强化学习智能体和混合整数线性规划方法解决了设计变量的循环引用问题,特别是解耦了航天器设计和架构部署过程的相互影响。还通过采用总目标函数,表示这三个层次框架对整个航天活动设计的造价的反映,每一层可使用对应的目标函数,目的是找到一组航天器设计参数、架构设施部署计划和实际的运输调度计划使得整个航天活动的造价最小。

通过以上方法,能够用于通常航天活动场景的设计,由于该方法中采用分层框架,每层只需要关心所属问题的策略学习和计算,因此学习效率高,计算速度快,能够解决不确定性条件下的具体任务计划问题,并且前两层的智能体所使用的强化学习方法可以是任意强化学习方法,具备良好的可扩展性。

实施例2

基于前述方法相同的原理,还提出一种基于层次强化学习的航天活动设计装置,参见图3,本公开实施例的一种基于层次强化学习的航天活动设计装置100包括:

110,获取信息模块,用于分别获取航天运输任务和架构设施部署的状态信息;

120,执行任务模块,用于执行所述航天运输任务,确定航天器设计信息;

130,制定计划模块,用于根据所述航天器设计信息和所述架构设施部署的状态信息制定架构设施部署计划;

140,调度任务模块,用于按照所述架构设施部署计划,计算航天任务的物流价值,并根据所述物流价值调度所述航天任务。

显然,本领域的技术人员应该明白,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。

实施例3

更进一步的,提出一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令时实现实施例1所述的基于层次强化学习的航天活动设计方法。

本公开实施例的电子设备包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面任一所述的基于层次强化学习的航天活动设计方法。

需要说明的是,处理器的个数可以为一个或多个。同时,在本公开实施例的电子设备中,还可以包括输入装置和输出装置。其中,处理器、存储器、输入装置和输出装置之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。

存储器作为基于层次强化学习的航天活动设计方法计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的基于层次强化学习的航天活动设计方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块,从而执行电子设备的各种功能应用及数据处理。

输入装置可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。

以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

相关技术
  • 基于深度Q值网络强化学习的微电网储能调度方法及装置
  • 基于层次深度强化学习的复杂游戏AI设计方法
  • 基于图强化学习的FPGA高层次综合调度方法
技术分类

06120116678633