掌桥专利:专业的专利平台
掌桥专利
首页

用于机场停机位与滑行道的分配方法及系统

文献发布时间:2023-06-19 11:45:49


用于机场停机位与滑行道的分配方法及系统

技术领域

本发明涉及机场运行优化技术领域,尤其涉及一种用于机场停机位与滑行道的分配方法及系统。

背景技术

随着经济的快速发展,航空运输成为了人们的主要出行方式之一,民航业发展迅速,从而对民航运营管理提出了巨大挑战,机场作为流量的起讫点所承载的空中交通压力不断增加,场面运行效率备受影响,亟需研究提升场面运行效率的新理论与技术。

在机场运行过程中,停机位(Gate)的分配结果直接影响着人员和物资的调配方案,在保障机场安全和高效运行中发挥着十分重要的作用。与停机位直接相连的滑行道(Taxiway)是进离港航班进出停机位的通道,滑行道的优化分配可以有效节约能源,降低运营成本。停机位与滑行道的联合分配好坏,对机场的场面运营管理和旅客的出行体验有着至关重要的影响。

虽然停机位和滑行道的联合分配问题的热度很高,但现有对该问题的研究还处于初级阶段,大部分研究人员仅将滑行道相关指标作为评价停机位分配的因素之一,例如,建立以避免滑行冲突为安全约束的多目标机场停机位分配问题模型、优化目标选择最大化近机位、机位占用率最高和最小化旅客行走距离等分配方案,但本质上还是对单一资源的调度,并未同时进行停机位和滑行道的分配,求解问题时大多采用禁忌搜索、蚁群算法或遗传算法等启发式算法。也有小部分研究真正实现小数据量下对两种资源进行分配,建立以旅客步行时间最小和航空器进港与出港滑行时间最短为优化目标,结合遗传算法和禁忌搜索算法等多种启发式算法进行求解,从而实现停机位分配与滑行路径规划。但总体来说,现有问题的研究还处于初级阶段。因此,现在亟需一种用于机场停机位与滑行道的分配方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题,本发明提供一种用于机场停机位与滑行道的分配方法及系统。

本发明提供一种用于机场停机位与滑行道的分配方法,包括:

基于马尔可夫决策过程模型,构建目标机场中停机位与滑行道的总体资源状态信息,并将所述总体资源状态信息转化为资源状态二维视图;

将所述资源状态二维视图输入到训练好的停机位与滑行道分配策略网络中,得到停机位与滑行道分配动作策略,以根据所述停机位与滑行道分配动作策略,对所述目标机场中的停机位与滑行道进行分配,其中,所述训练好的停机位与滑行道分配策略网络是由样本资源状态二维视图,对停机位策略网络和滑行道策略网络进行训练得到的,所述停机位策略网络和所述滑行道策略网络为神经网络。

根据本发明提供的一种用于机场停机位与滑行道的分配方法,所述训练好的停机位与滑行道分配策略网络通过以下步骤训练得到:

根据样本航班时刻表对应的样本物理资源状态信息、样本逻辑资源状态信息和样本资源占用时间状态信息,构建样本总体资源状态信息,并将所述样本总体资源状态信息转化为样本资源状态二维视图;

通过所述样本资源状态二维视图,分别对停机位策略网络和滑行道策略网络进行训练,得到训练好的停机位与滑行道分配策略网络。

根据本发明提供的一种用于机场停机位与滑行道的分配方法,所述通过所述样本资源状态二维视图,分别对停机位策略网络和滑行道策略网络进行训练,得到训练好的停机位与滑行道分配策略网络,包括:

将所述样本资源状态二维视图分别输入到停机位策略网络和滑行道策略网络中,基于蒙特卡罗方法进行情节仿真,得到每一仿真时刻对应的停机位状态样本和滑行道状态样本,其中,所述停机位状态样本包括停机位与滑行道的总体资源状态样本、停机位动作选择样本和停机位立即奖赏样本,所述滑行道状态样本包括停机位与滑行道的总体资源状态样本、滑行道动作选择样本和滑行道立即奖赏样本;

根据所述停机位状态样本和所述滑行道状态样本,分别对所述停机位策略网络和所述滑行道策略网络的参数进行训练更新,若满足预设训练条件,得到训练好的停机位与滑行道分配策略网络。

根据本发明提供的一种用于机场停机位与滑行道的分配方法,所述方法还包括:

将最大化近机位分配率与最小化超远机位分配率作为停机位的分配优化目标,并基于滑行道冲突情况的立即奖赏,构建停机位立即奖赏样本;

将最小化滑行道冲突率作为滑行道的分配优化目标,构建得到滑行道立即奖赏样本。

根据本发明提供的一种用于机场停机位与滑行道的分配方法,在所述根据所述停机位状态样本和所述滑行道状态样本,分别对所述停机位策略网络和所述滑行道策略网络的参数进行训练更新,若满足预设训练条件,得到训练好的停机位与滑行道分配策略网络之前,所述方法还包括:

根据航班属性信息和停机位分配规则信息,构建约束条件,所述约束条件包括航班与停机位匹配约束条件,以及滑行道与停机位匹配约束条件;

基于所述航班与停机位匹配约束条件和停机位策略网络参数,对每一仿真时刻中的停机位分配概率进行更新,并根据更新后的停机位分配概率获取停机位动作选择样本;

基于所述滑行道与停机位匹配约束条件和滑行道策略网络参数,对每一仿真时刻中的滑行道分配概率进行更新,并根据更新后的滑行道分配概率获取滑行道动作选择样本。

根据本发明提供的一种用于机场停机位与滑行道的分配方法,所述根据所述停机位状态样本和所述滑行道状态样本,对所述停机位策略网络和所述滑行道策略网络的参数进行训练更新,包括:

通过策略梯度算法,根据所述停机位状态样本和所述滑行道状态样本,对停机位与滑行道分配策略网络的参数进行训练更新。

根据本发明提供的一种用于机场停机位与滑行道的分配方法,在所述根据航班属性信息和停机位分配规则信息,构建约束条件之后,所述方法还包括:

基于更新后的停机位分配概率或更新后的滑行道分配概率,通过轮盘赌方法,获取对应的停机位或滑行道进行分配。

本发明还提供一种用于机场停机位与滑行道的分配系统,包括:

资源状态二维视图构建模块,用于基于马尔可夫决策过程模型,构建目标机场中停机位与滑行道的总体资源状态信息,并将所述总体资源状态信息转化为资源状态二维视图;

停机位与滑行道分配模块,用于将所述资源状态二维视图输入到训练好的停机位与滑行道分配策略网络中,得到停机位与滑行道分配动作策略,以根据所述停机位与滑行道分配动作策略,对所述目标机场中的停机位与滑行道进行分配,其中,所述训练好的停机位与滑行道分配策略网络是由样本资源状态二维视图,对停机位策略网络和滑行道策略网络进行训练得到的,所述停机位策略网络和所述滑行道策略网络为神经网络。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述用于机场停机位与滑行道的分配方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述用于机场停机位与滑行道的分配方法的步骤。

本发明提供的用于机场停机位与滑行道的分配方法及系统,通过构建适用于停机位和滑行道动态联合分配的分层马尔可夫决策过程模型,实现大型枢纽机场下停机位与滑行道两种资源的高效协同动态分配,提升了机场运行效率,节约能源与运营成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的用于机场停机位与滑行道的分配方法的流程示意图;

图2为本发明提供的停机位和滑行道的资源状态二维视图;

图3为本发明提供的停机位与滑行道分配策略网络的架构示意图;

图4为本发明提供的用于机场停机位与滑行道的分配系统的结构示意图;

图5为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有大多数机场的资源分配管理系统中尚缺乏可行性高的自动分配引擎,尽管机场实际运行操作中有一定的算法辅助,但最终决策仍然依赖人工,在早晚高峰和航班大面积延误时,导致工作人员压力巨大。因此,合理的停机位和滑行道多资源联合分配方案可以极大地提高机场的效率,形成机场运营一体化,对人力、物力和财力都是很大的节约。

另外,综合现有的研究联合分配方案,不论是从问题模型的设计创新性而言,还是从真正实现大型枢纽机场下停机位和滑行道联合动态分配来说,都存在以下缺点:一、传统问题模型固化,现有的研究几乎全部进行多目标优化问题模型设计,并采用常用的启发式算法求解,使得分配结果缺乏灵活性和对扰动航班的适应性;二、实验数据效果有限,停机位和滑行道联合分配问题是一个NP-hard问题,其计算时间复杂度随着机场和航班规模的增加呈指数增长,对于大型枢纽机场来说,在较短时间内获得最优解是极其困难的,通常需要借助其他智能算法。而现有的实现方法,所能处理的航班量仅仅在百架航班以内,所能执行分配的飞行计划仅能选择一天内的几个或十几个小时,并不能适应大型枢纽机场庞大的数据量,这导致所研究的联合分配方法很难真正运用到实际机场运作中。因此设计一个用于大型枢纽机场下停机位和滑行道联合分配方法具有很高的现实意义。

马尔可夫决策过程(Markov Decision Process,简称MDP)框架具有很强的抽象性和灵活性,可以以多种方式应用于许多不同的问题,同时引入时间步的概念,不需要固定的实时间隔,可以用来指决策和动作的任意阶段。在机场停机位和滑行道资源动态联合分配问题中,航班到达是离散的,有限的以及有先后顺序的,设计分层的MDP框架具有创新性和可行性。进一步地,本发明采用深度强化学习方法,可有效解决停机位和滑行道联合分配问题。

图1为本发明提供的用于机场停机位与滑行道的分配方法的流程示意图,如图1所示,本发明提供了一种用于机场停机位与滑行道的分配方法,包括:

步骤101,基于马尔可夫决策过程模型,构建目标机场中停机位与滑行道的总体资源状态信息,并将所述总体资源状态信息转化为资源状态二维视图。

本发明在传统的优化问题模型基础上,建立分层马尔可夫决策过程模型,完成传统模型到分层MDP模型的转换。由于航班按照时间顺序离散到达,因此需要停机位与滑行道分配策略算法在每个时刻监测航班的到达,并根据当前时刻资源状态和航班队列状态构建环境状态视图,即资源状态二维视图,依据环境状态执行相应停机位和滑行道联合分配动作,并在一段时间内对分配结果进行统计,达到预计的优化目标。

进一步地,本发明的MDP模型可以用一个五元组表示为

步骤102,将所述资源状态二维视图输入到训练好的停机位与滑行道分配策略网络中,得到停机位与滑行道分配动作策略,以根据所述停机位与滑行道分配动作策略,对所述目标机场中的停机位与滑行道进行分配,其中,所述训练好的停机位与滑行道分配策略网络是由样本资源状态二维视图,对停机位策略网络和滑行道策略网络进行训练得到的,所述停机位策略网络和所述滑行道策略网络为神经网络。

由于大型枢纽机场中停机位和滑行道联合动态协同分配系统的状态空间维度极高,状态变化影响因素复杂,状态转移概率矩阵P很难分析,采用理论方法求解该MDP问题极为困难,因此,本发明在分层MDP模型建立的基础上,对分层策略网络训练架构进行设计,采用分层的DRL架构解决停机位和滑行道联合分配的MDP问题,构建两层策略神经网络,并通过仿真实验,验证本发明的有效性,高效处理能力和对复杂的大型枢纽机场的适用性。

在本发明中,通过智能体来时刻感知机场的停机位和滑行道的环境状态S

即得到每一仿真时刻的停机位状态样本和滑行道状态样本,然后将这两种状态样本分别用于训练不同的策略网络,并运用策略梯度方法对策略网络参数θ和θ′进行训练更新。在策略网络训练完成后,利用策略网络对航班进行实时分配,可以很大程度上提升停机位和滑行道协同分配的运算速度,提高问题的求解效率,使其可以适应大型枢纽机场庞大的数据量,具备在大量航班和长时间的飞行计划下停机位和滑行道的动态协同分配的能力。

本发明提供的用于机场停机位与滑行道的分配方法,通过构建适用于停机位和滑行道动态联合分配的分层马尔可夫决策过程模型,实现大型枢纽机场下停机位与滑行道两种资源的高效协同动态分配,提升了机场运行效率,节约能源与运营成本。

在上述实施例的基础上,所述训练好的停机位与滑行道分配策略网络通过以下步骤训练得到:

根据样本航班时刻表对应的样本物理资源状态信息、样本逻辑资源状态信息和样本资源占用时间状态信息,构建样本总体资源状态信息,并将所述样本总体资源状态信息转化为样本资源状态二维视图;

通过所述样本资源状态二维视图,分别对停机位策略网络和滑行道策略网络进行训练,得到训练好的停机位与滑行道分配策略网络。

在上述实施例的基础上,所述方法还包括:

将最大化近机位分配率与最小化超远机位分配率作为停机位的分配优化目标,同时,为更好的满足两资源(即最大化近机位分配率与最小化超远机位分配率)分配的协同性,在构建停机位立即奖赏样本时,考虑了滑行道冲突情况的立即奖赏;

将最小化滑行道冲突率作为滑行道的分配优化目标,构建得到滑行道立即奖赏样本。

在本发明中,将大数据量的停机位和滑行道联合动态协同分配问题建模为一类分层MDP模型,在对停机位与滑行道分配策略网络进行训练之前,构建该MDP模型。首先,设计MDP模型的立即奖赏,本发明以最大化近机位分配率和最小化超远机位分配率F(Y

其中,y

其中,γ=1,表示未来立即奖赏的影响系数;r

进一步地,进行停机位和滑行道的总体资源状态构建。具体地,停机位策略网络和滑行道策略网络的输入状态相同,都为停机位和滑行道的总体资源状态信息,该资源状态包含三种状态信息:物理资源状态信息、逻辑资源状态信息和资源占用时间状态信息。其中,物理资源状态信息用来表示从当前时刻t到时刻t+T时,停机位和滑行道资源的实际占用情况,用数学表示为一个0/1矩阵:

其中,a

逻辑资源状态信息表示未来L个航班它们各自可以选用的停机位和滑行道的资源,这些资源表示那些符合机场实际操作规则的,对于特定到达航班可以停放和行驶的停机位与滑行道。在本发明中,逻辑操作规则考虑了航班的国际国内属性、所归属的航空公司、航班的飞行任务类别、航班的机型以及停机位与滑行道的固定匹配规则,与此同时,去掉了当前时刻被已占用的停机位和滑行道,用数学形式表示为:

其中,b

资源占用时间状态信息用来描述未来L个航班它们各自的停放时间,即,出港时间与到港时间的差值,表示如下:

C

最后,将上述三类信息拼接起来,则得到在当前时刻t的停机位和滑行道的总体资源状态信息:

S

进一步地,为了可以让停机位与滑行道分配策略网络更好的识别和训练,本发明将总体资源状态信息对应的矩阵形式转化为二维视图,进而将二维视图信息分别输入到分层的策略网络中,图2为本发明提供的停机位和滑行道的资源状态二维视图,可参考图2所示,第一部分是物理资源状态视图(Physical resource state),可以看出第二个和第四个停机位被占用,同时使用的是第一个和第二个滑行道;第二部分是逻辑资源状态视图(Logical resources state),可以看出,当前时刻机场实际情况中被占用了第二个和第四个停机位,未填充的表示不符合机场实际操作规则的停机位和滑行道资源,其中,物理资源状态视图和逻辑资源状态视图中的每一个方格表示占用的单位时间长度。需要说明的是,超远机位及超远机位的滑行道始终可用,如图2中逻辑资源状态视图的停机位最右侧区域和滑行道最右侧区域,这些区域的方格全部被填充;最后一列(Residence time)则表示未来航班的资源占用时间状态信息。

最后,对动作空间进行建模。具体地,当航班根据飞行计划表到达机场的时候,将被分配一个停机位和一个相应的滑行道,因此动作空间为M×Z,停机位策略网络和滑行道策略网络的选择动作分别为:

a

a

其中,a

在上述实施例的基础上,所述通过所述样本资源状态二维视图,分别对停机位策略网络和滑行道策略网络进行训练,得到训练好的停机位与滑行道分配策略网络,包括:

将所述样本资源状态二维视图分别输入到停机位策略网络和滑行道策略网络中,基于蒙特卡罗方法进行情节仿真,得到每一仿真时刻对应的停机位状态样本和滑行道状态样本,其中,所述停机位状态样本包括停机位与滑行道的总体资源状态样本、停机位动作选择样本和停机位立即奖赏样本,所述滑行道状态样本包括停机位与滑行道的总体资源状态样本、滑行道动作选择样本和滑行道立即奖赏样本;

根据所述停机位状态样本和所述滑行道状态样本,分别对所述停机位策略网络和所述滑行道策略网络的参数进行训练更新,若满足预设训练条件,得到训练好的停机位与滑行道分配策略网络。

在上述实施例的基础上,在所述根据所述停机位状态样本和所述滑行道状态样本,分别对所述停机位策略网络和所述滑行道策略网络的参数进行训练更新,若满足预设训练条件,得到训练好的停机位与滑行道分配策略网络之前,所述方法还包括:

根据航班属性信息和停机位分配规则信息,构建约束条件,所述约束条件包括航班与停机位匹配约束条件,以及滑行道与停机位匹配约束条件;

基于所述航班与停机位匹配约束条件和停机位策略网络参数,对每一仿真时刻中的停机位分配概率进行更新,并根据更新后的停机位分配概率获取停机位动作选择样本;

基于所述滑行道与停机位匹配约束条件和滑行道策略网络参数,对每一仿真时刻中的滑行道分配概率进行更新,并根据更新后的滑行道分配概率获取滑行道动作选择样本。

图3为本发明提供的停机位与滑行道分配策略网络的架构示意图,可参考图3所示,在本发明中,首先将机场的停机位和滑行道场景状态s(总体资源状态信息)抽象为资源状态二维视图;然后将资源状态视图分别输入到停机位策略网络和滑行道策略网络中,并将航班与停机位匹配约束条件B建模到停机位策略网络和滑行道策略网络的动作选择中。进一步地,当资源状态二维视图输入到策略网络后,得到停机位动作选择a′,获得相应的停机位奖惩值r′,再根据滑行道策略网络和滑行道与停机位匹配约束条件D,得到滑行道动作选择a″,并获得相应的滑行道奖惩值r″,再将r″用于强化滑行道策略网络的选择,组合r′与r″得到协同分配奖惩值r,将r用于强化停机位策略网络的选择,最后根据综合动作a=(a′,a″)对目标机场的停机位和滑行道资源状态进行更新。在本发明中,滑行道与停机位匹配约束条件D表示为:

其中,d

进一步地,对本发明中停机位与滑行道分配策略网络的训练过程进行具体说明,步骤如下:

步骤201,初始化策略网络训练参数,包括航班时刻表样本数E,训练迭代轮次数I,每个航班时刻表样本在每轮训练中并行仿真情节数量K,每个情节仿真最长时间步数T;

步骤202,初始化停机位属性与停机位分配规则信息;

步骤203,读取和初始化航班时刻表样本。具体地,读取航班时刻表样本,如果读取的航班时刻表样本数量小于E,则在该表中的每个航班叠加随机的时间扰动,生成一个新的航班时刻表样本,直至航班时刻表样本数量等于E;

步骤204,根据航班属性信息和停机位属性与分配规则信息,获得航班与停机位匹配约束信息,以及滑行道与停机位匹配约束信息;

步骤205,设置分层策略神经网络的结构参数,用随机的权重、偏置等系数初始化策略网络;

步骤206,初始化策略网络训练循环变量i=1,e=1,k=1;

步骤207,开始第i轮次的策略网络训练;

步骤208,选择第e个航班时刻表样本;

步骤209,根据当前航班时刻表样本,进行K个情节仿真,得到每个情节仿真的两条轨迹:

步骤210,计算每个情节仿真中的状态价值:

步骤211,采用Monte Carlo REINFORCE with baseline方法更新策略网络系数θ和θ′;

步骤212,判断本轮次训练中所有E个航班时刻表样本是否已经仿真完毕,是则进入步骤213,否则e=e+1并返回步骤208;

步骤213,判断第I轮次训练是否进行完毕,是则进入步骤214,否则i=i+1,e=1并返回步骤207。

步骤214,存储训练后的策略网络π

在上述实施例的基础上,所述根据所述停机位状态样本和所述滑行道状态样本,对所述停机位策略网络和所述滑行道策略网络的参数进行训练更新,包括:

通过策略梯度算法,根据所述停机位状态样本和所述滑行道状态样本,对停机位与滑行道分配策略网络的参数进行训练更新。

在上述实施例的基础上,在所述根据航班属性信息和停机位分配规则信息,构建约束条件之后,所述方法还包括:

基于更新后的停机位分配概率或更新后的滑行道分配概率,通过轮盘赌方法,获取对应的停机位或滑行道进行分配。

在本发明中,对情节仿真过程进行具体说明,步骤如下:

步骤301,当t=0时,初始化停机位和滑行道占用状态,构造停机位和滑行道状态矩阵

步骤302,开始第t个时间步的仿真;

步骤303,判断航班状态中是否有航班,是则进入步骤304,否则构造停机位和滑行道状态矩阵置0并跳往步骤311;

步骤304,将

步骤305,为停机位分配概率增加约束条件(航班与停机位匹配约束条件),对非法停机位概率设置为0,得到更新的停机位概率p

步骤306,根据p

步骤307,将

步骤308,为滑行道分配概率增加滑行道与停机位匹配约束条件,对非法滑行道概率置0,得到更新的滑行道概率p

步骤309,根据p

步骤310,计算立即奖赏r

步骤311,t=t+1;

步骤312,判断t是否大于T,是则结束当前的情节仿真,否则进行步骤313;

步骤313,根据停机位和滑行道的分配结果,更新停机位和滑行道状态二维视图

在本发明中,通过测试样本集对训练好的停机位与滑行道分配策略网络进行测试,统计全部样本的各性能评价结果的平均值,与现有的优化软件Gurobi求解的停机位和滑行道协同分配问题方法进行对比,在效果和效率上进行比较,证明本发明的有效性和高效性;与启发式算法Greedy求解的停机位和滑行道协同分配问题方法进行对比,探究不同协同系数对不同资源决策调度的影响,证明本发明可以调节多优化目标之间的权重,具有更好的适应性。需要说明的是,本发明的测试过程步骤可参考上述的训练过程和仿真过程,此处不再赘述。

图4为本发明提供的用于机场停机位与滑行道的分配系统的结构示意图,如图4所示,本发明提供了一种用于机场停机位与滑行道的分配系统,包括资源状态二维视图构建模块401和停机位与滑行道分配模块402,其中,资源状态二维视图构建模块401用于基于马尔可夫决策过程模型,构建目标机场中停机位与滑行道的总体资源状态信息,并将所述总体资源状态信息转化为资源状态二维视图;停机位与滑行道分配模块402用于将所述资源状态二维视图输入到训练好的停机位与滑行道分配策略网络中,得到停机位与滑行道分配动作策略,以根据所述停机位与滑行道分配动作策略,对所述目标机场中的停机位与滑行道进行分配,其中,所述训练好的停机位与滑行道分配策略网络是由样本资源状态二维视图,对停机位策略网络和滑行道策略网络进行训练得到的,所述停机位策略网络和所述滑行道策略网络为神经网络。

本发明提供的用于机场停机位与滑行道的分配系统,通过构建适用于停机位和滑行道动态联合分配的分层马尔可夫决策过程模型,实现大型枢纽机场下停机位与滑行道两种资源的高效协同动态分配,提升了机场运行效率,节约能源与运营成本。

本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。

图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(CommunicationsInterface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行用于机场停机位与滑行道的分配方法,该方法包括:基于马尔可夫决策过程模型,构建目标机场中停机位与滑行道的总体资源状态信息,并将所述总体资源状态信息转化为资源状态二维视图;将所述资源状态二维视图输入到训练好的停机位与滑行道分配策略网络中,得到停机位与滑行道分配动作策略,以根据所述停机位与滑行道分配动作策略,对所述目标机场中的停机位与滑行道进行分配,其中,所述训练好的停机位与滑行道分配策略网络是由样本资源状态二维视图,对停机位策略网络和滑行道策略网络进行训练得到的,所述停机位策略网络和所述滑行道策略网络为神经网络。

此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的用于机场停机位与滑行道的分配方法,该方法包括:基于马尔可夫决策过程模型,构建目标机场中停机位与滑行道的总体资源状态信息,并将所述总体资源状态信息转化为资源状态二维视图;将所述资源状态二维视图输入到训练好的停机位与滑行道分配策略网络中,得到停机位与滑行道分配动作策略,以根据所述停机位与滑行道分配动作策略,对所述目标机场中的停机位与滑行道进行分配,其中,所述训练好的停机位与滑行道分配策略网络是由样本资源状态二维视图,对停机位策略网络和滑行道策略网络进行训练得到的,所述停机位策略网络和所述滑行道策略网络为神经网络。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的用于机场停机位与滑行道的分配方法,该方法包括:基于马尔可夫决策过程模型,构建目标机场中停机位与滑行道的总体资源状态信息,并将所述总体资源状态信息转化为资源状态二维视图;将所述资源状态二维视图输入到训练好的停机位与滑行道分配策略网络中,得到停机位与滑行道分配动作策略,以根据所述停机位与滑行道分配动作策略,对所述目标机场中的停机位与滑行道进行分配,其中,所述训练好的停机位与滑行道分配策略网络是由样本资源状态二维视图,对停机位策略网络和滑行道策略网络进行训练得到的,所述停机位策略网络和所述滑行道策略网络为神经网络。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 用于机场停机位与滑行道的分配方法及系统
  • 基于时空间维度分解的机场停机位分配方法及系统
技术分类

06120113046480