掌桥专利:专业的专利平台
掌桥专利
首页

基于改进的k-prototype和灰色关联分析的机场相似日选择方法

文献发布时间:2023-06-19 18:37:28


基于改进的k-prototype和灰色关联分析的机场相似日选择方法

技术领域

本发明属于大数据和机场相似日领域,具体涉及一种基于改进的k-prototype和灰色关联分析的机场相似日选择方法。

背景技术

随着航空运输业的持续发展,空域资源的紧缺,机场运行效率也面临着极大的考验,而机场的效率很大程度上取决于管制人员的决策。但是管制员的决策主要依靠自己的经验和直觉,这不可避免的会造成不合理的流控措施。

由于天气的不确定性和日益增加的航班数量,使得机场的容量与需求不平衡问题变得严重,这不仅给航空公司、乘客和机场造成了经济损失,而且给管制系统提出了更高的要求与挑战。如何从过去的运行中获得经验,以支持当天的交通流控决策,从而帮助管制员更好地进行流量管理,这成为了本领域技术人员亟需解决的问题。因此,研究机场相似日可以帮助管制员从历史中吸取经验和教训,对提高流控工作效率和提高航班正常性具有重要意义。

针对传统研究所采用的聚类方式都是使用数值型指标寻找相似日集群,但是,在天气信息和航班运行数据中既有数值型特征也有分类型特征,所以直接用适用于处理数值型特征的聚类算法,得到的聚类结果会不准确。同时,之前研究并未找寻到与未知日相似的具体某一天,这就造成模型的实用价值不高。

发明内容

发明目的:本发明的目的是为了解决现有技术中存在的缺点,从而提出的一种基于改进的k-prototype和灰色关联分析的机场相似日选择方法,可以找寻未知日具体某天的相似日,展示了直观并且高准确率的相似日结果。

技术方案:本发明提供了一种基于改进的k-prototype和灰色关联分析的机场相似日选择方法,具体包括以下步骤:

S1:收集数据,包括METAR报文数据和航班运行数据;

S2:数据预处理,包括对航班数据补齐及数据归一化;

S3:使用CRITIC权重法得到数值属性的权重系数;

S4:通过改进的k-prototype对未知日和历史数据进行日属性聚类;

S5:使用误差平方和与轮廓系数曲线判断出最佳的聚类数;

S6:采用灰色关联分类法找寻未知日的相似日。

进一步地,步骤S1中所述航班运行数据包括实际进港航班数、实际离港航班数和计划进离港航班数。

进一步地,所述步骤S2包括以下步骤:

S2.1:解析METAR报,选择能见度,风向,风速,云底高,雾、雨和雷暴作为关键气象因素;

S2.2:对风向、雾、雨和雷暴进行离散化处理;

S2.3:获取的数据有数值型和属性型,其中数值型有能见度、风速、云底高、实际进港航班数、实际离港航班数和计划进离港航班数;属性型有风向、雾、雨和雷暴;采用线性插值的方式进行补全数据,对于缺失整天起降信息的日期进行删除处理;

S2.4:将数值型数据归一化采用MinMax法,利用公式

进一步地,所述步骤S3包括以下步骤:

S3.1:计算对比强度,计算公式为:

其中,V

S3.2:计算相关系数:

其中,x

S3.3:计算第j个指标与其他指标冲突性量化指标值:

其中,r

S3.4:计算指标信息量:各个指标的客观权重是以对比强度和冲突性来综合衡量的,计算公式为:

其中,C

S3.5:计算权重指标:

其中,w

进一步地,所述步骤S4包括以下步骤:

S4.1:数值属性指标之间采用欧式距离计算,计算公式为:

其中,x

S4.2:类别属性指标之间的采用汉明距离计算,即属性值相同为0,属性值不同为1计算公式为:

其中,x

S4.3:数据集和簇的相异度可以写为如下公式:

d(x

因为γ难以确定所以对d(x

式中,|A

S4.4:改进的k-prototype聚类是一个迭代过程,对比目标函数值是否改变,循环直到目标函数不再改变为止:

其中,γ

进一步地,所述步骤S5包括以下步骤:

S5.1:选取能见度,云底高,进离港航班等m个重要特征构建天气-交通矩阵,则第i日的日特征向量为:x

S5.2:数据进行无量纲化处理,得到灰色关联判断矩阵,未知日的特征向量x

式中,ρ为分辨系数,ρ∈[0,1],其中ρ取0.5;

S5.3:得到每个样本的灰色关联值γ

S5.4:依据灰色关联值,选择与未知日关联系数较大的日期组成相似日。

进一步地,所述步骤S6中选择关联系数最高的两日作为相似日进行分析。

有益效果:与现有技术相比,本发明的有益效果:本发明使用改进的K-prototype聚类算法克服了其他聚类算法无法度量分类属性的弊端,也充分考虑了天气特征和空中交通流量,能够帮助管制员进行决策,还可以用于事后分析,具备很好的应用价值。

附图说明

图1为本发明的程图;

图2为误差平方和与轮廓系数图;

图3为不同聚类中AAR值示意图;

图4为不同聚类中AAR值示意图;

图5为不同聚类中平均延误时间分布图;

图6为不同聚类中产生流控的原因占比图;

图7为相似日选取排序图;

图8为相似日中云底高与能见度示意图;

图9为相似日的AAR值示意图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明提供一种基于改进的k-prototype-灰色关联分析找寻机场相似日,如图1所示,其具体步骤如下:

S1:收集数据,包括METAR报文和航班运行数据。

本实施例中共收集了2021年南京禄口机场1到6月的航班起降信息和METAR报,并且从江苏空管局获取了当天的流控方案,以每1小时为间隔进行统计。航班运行数据包括实际进港航班数、实际离港航班数和计划进离港航班数一共三个属性。

S2数据预处理:包括对航班数据补齐及数据归一化。

解析METAR报,选择能见度,风向,风速,云底高,雾、雨和雷暴作为关键气象因素。

对风向、雾、雨和雷暴进行离散化处理。如风向,0表示顺风,1表示逆风。雾,0表示无雾,1表示薄雾(BR),2表示雾(FG)。雨,0表示无降雨,1表示小雨,2表示中雨,3表示大雨。雷暴,0表示有雷暴,1表示无雷暴。

在数据补齐时,假定短时间内数据呈线性变化,采用线性插值的方式进行补全数据,但对于缺失整天起降信息的日期进行删除处理,再采用MinMax算法进行归一化。归一化后的数据值域变换到[0,1],归一化函数如下所示:

式中:x为样本数据,x

S3:使用CRITIC权重法得到数值属性的权重系数。

计算数值属性的权重系数。计算对比强度,计算公式为:

计算相关系数,计算公式为:

其中,x

计算第j个指标与其他指标冲突性量化指标值,计算公式为:

其中,r

计算指标信息量:各个指标的客观权重是以对比强度和冲突性来综合衡量的,计算公式为:

其中,C

计算权重指标,公式为:

其中,w

在本实施例中,由于天气指标和交通流量特征属于两种不同类型的数值属性,所以分别进行使用CRITIC权重法得到权重系数。其中能见度权重设置为0.89,云底高权重设置为0.1,风速权重设置为0.01。离港航班权重设置为0.36,进港航班权重设置为0.35,计划进离港航班权重设置为0.28。

S4:获得预处理后的数据,通过改进的k-prototype聚类。

通过改进的k-prototype对未知日和历史数据进行日属性聚类,数值属性指标之间采用欧式距离计算,计算公式为,

其中,x

类别属性指标之间的采用汉明距离计算,即属性值相同为0;属性值不同为1计算公式为:

其中,x

数据集和簇的相异度可以写为如下公式:d(x

式中,|A

改进的k-prototype聚类是一个迭代过程,对比目标函数值是否改变,循环直到目标函数不再改变为止:

其中,γ

S5:使用误差平方和与轮廓系数曲线判断出最佳的聚类数,如图2所示。

误差平方计算公式为:

式中,C

轮廓系数计算公式为:

式中,a样本与其自身所在的簇中的其他样本的相似度;b样本与其他簇中的样本的相似度。

在本实施例中,误差平方和与轮廓系数曲线图,如图3所示。由图3可以看出k=2时轮廓系数最大,但是误差平方和过大。随着k的增加,SSE逐渐趋于平缓。当k=5时,轮廓系数处于一种较高的值,并且也是SSE曲线拐点所在的位置。综上所述,最佳的聚类个数为5类。

在本实施例中,对使用改进的k-prototype聚类的结果进行了分析绘制了不同聚类中机场接受率(Airport Acceptance Rate)AAR值示意图,如图3所示;不同聚类中AAR值示意图,如图4所示;不同聚类中平均延误时间分布图,如图5所示;和在不同聚类中产生流控的原因占比图,如图6所示。

S5:采用灰色关联分类法找寻未知日的相似日。

首先选取能见度,云底高,进离港航班等m个重要特征构建天气-交通矩阵,则第i日的日特征向量为:x

式中,ρ为分辨系数,ρ∈[0,1],其中ρ取0.5。得到每个样本的灰色关联值γ

依据灰色关联值,选择与未知日关联系数较大的日期组成相似日。

S6:根据S5中得到的灰色关联系数,选择其中关联系数最高的两日作为相似日进行分析。

本实施例中2021年4月22日为未知日,这一天处于聚类3中。利用灰色关联度分析,需要在聚类3中找出在4月22日前的关联度最高的两天作为相似日。图7是与4月22日关联度前十的日期。可以看出与4月22日关联度最大的是4月11日的数据,灰色关联度达到0.958。其次就是3月8日,关联度为0.954。

本实施例中考虑到不同变量的量纲不同,在图8中将数据进行归一化处理。可以看出这三天云底高和能见度的中位数值都差不多。但在分布方面,4月11日的云底高与未知日更加的接近,3月8日的云底高整体都偏低,但3月8日的能见度分布与未知日类似。在图9中,可以观察到两个相似日与未知日有相似的AAR,未知日的降落高峰在晚上,相似日与未知日变化趋势基本类似。总之,相似日与未知日在容量上和天气特征中具有很高的相似性。

进一步分析,其中的流控措施信息。这三天相似日的流控措施和这些措施带来的影响见表1。

表1三天相似日的流控措施和这些措施带来的影响

在未知日中,流控时间为16小时,平均延误40分钟,取消49个航班。在4月11日中,因为几乎没有流量控制,可以看出取消航班数量比较低。而3月8日,采取了严格的流量控制,当日流控时长超过了未知日,但是平均延误时间小于未知日的时长,这可能和3月8日实际执行航班数量有关。

在4月21日,我们能够获取4月22日的航班计划和天气预报信息,但如何科学地制定流控方案,并分析流控方案带来的延误影响,成为管制员关心的问题,依照本专利所述方法找到4月11日和3月8日这两个相似日,比对相似日实施的流控方案,将对4月22日流控方案的制定提供预测依据,如采取多长时间的流控,将产生多少时长的航班延误等。

挖掘历史相似日,能够为流控方案及其对应的延误影响等事后分析提供数据支持。

技术分类

06120115630464