掌桥专利:专业的专利平台
掌桥专利
首页

一种基于时间轴的模型数据指标推演方法

文献发布时间:2023-06-19 10:24:22


一种基于时间轴的模型数据指标推演方法

技术领域

本发明涉及轨道交通和计算机技术领域,特别涉及,一种基于时间轴的模型数据指标推演方法。

背景技术

轨道交通的作用是服务于区域发展,促进区域间的资源交流及经济发展;服务于城市发展,促进城市发展方式及城市结构转变;服务于城市居民,为其提供方便高效的生活方式。城市轨道交通应引导城市向更好的服务城市居民,更适于和谐和可持续发展的方向前进。

目前,我国各大中型城市相继投入巨资开始城市轨道交通建设,因此必须对城市轨道交通的服务质量引起高度重视。但是目前来看,国内轨道交通运营公司在运营阶段都是亏损经营,完全靠政府补贴。由于轨道交通行业实际上是多个专业协同工作的,导致整个分析过程非常庞杂,非一人之力可以完成。

针对上述问题,设计一种解决现有技术所存在的数据庞大导致分析过程过于复杂,造成大量人力资源的浪费以及大量成本的增加,且分析效率低、准确率差的问题的方法,用于分析运营情况并推演未来的运营花费情况。

发明内容

针对上述缺陷,本发明解决的技术问题在于,提供一种基于时间轴的模型数据指标推演方法,以解决现在技术所存在的数据庞大导致分析过程过于复杂,造成大量人力资源的浪费以及大量成本的增加,且分析效率低、准确率差的问题。

本发明提供了一种基于时间轴的模型数据指标推演方法,具体步骤包括:

步骤1、发现并纠正数据文件中可识别的错误,再进行数据清洗,其中数据清洗包括检查数据一致性、判断数据完整性和处理无效值与缺失值;

步骤2、基于时间序列的线性和非线性表示方法,分别对清洗后的数据向时间维度降维,其中线性表示方法包括极值点拟合法、特征点拟合法、基于关键点的线性拟合方法和一种精确的时间序列线性拟合方法;

步骤3、将降维后的数据根据分析目的选择具体的挖掘算法,得到多个基于时间轴的模型,选择拟合度高的模型推演未来时间点的相应数据。

优选地,所述步骤2中极值点拟合法的具体步骤包括:基于时间序列数据的单调变化属性,抽取并保留序列中的极值点作为特征数据即关键点,其中对于时间序列Q(q

优选地,所述步骤2中特征点拟合法的具体步骤包括:

步骤2.2.1、把时间按序列Q的起点和终点保留下来作为特征点;

步骤2.2.2、从保留下来的特征点中选取序列的极值点作为特征值点即关键点,其中极值点保持极值的时间段与序列Q长度的比值大于指定阈值M。

优选地,所述步骤2中基于关键点的线性拟合方法的具体步骤包括:

步骤2.3.1、选取序列Q的极值点作为特征值点,其中极值点保持极值的时间段与该序列Q长度的比值大于指定阈值M;

步骤2.3.2、抽取序列Q的转折点,其中转折点q

步骤2.3.3、选取极值点和转折点的并集作为序列Q的关键点。

优选地,所述步骤2中一种精确的时间序列线性拟合方法的具体步骤包括:

步骤2.4.1、通过极值的方法和斜率的方法选出时间序列的极值点和转折点;

步骤2.4.2、通过时间段阈值C选出满足条件的滤去噪声的极值点;

步骤2.4.3、将满足条件的极值点和转折点取并集作为时间序列的关键点。

优选地,所述步骤2中时间序列的非线性表示法采用奇异值表示法。

优选地,所述步骤3具体步骤包括:

步骤3.1、对线性和非线性表示方法得到的关键点,采用挖掘算法进行处理,将处理得到的数据生成以时间维度为横坐标的点序列;

步骤3.2、根据数据分布情况向已有模型曲线进行碰撞操作,其中已有模型曲线包括直线、指数曲线、对数曲线、正弦曲线、正态曲线;

碰撞操作在编码层面实现上,程序定位到时间轴上的某个点,然后通过曲线函数算出特征值,再通过比较真实数据在此时间值对应的特征数据与函数计算出的特征值的偏差是否在阈值内来判断与曲线是否拟合。

步骤3.3、按拟合度排序展示线性和非线性表示方法得到的模型曲线,选择拟合度最高的曲线;

步骤3.4、增加未来的时间点,根据选择后曲线的走向进行模拟插值操作,推演得到未来时间点的相应数据。

优选地,所述步骤2.4.1中斜率方法的具体步骤包括:

步骤2.4.1.1、计算除线段的两个端点外同一点连接相邻两点的线段的斜率;

步骤2.4.1.2、判断时间序列Q的第i个元素q

步骤2.4.1.3、根据斜率的变化幅度确定转折点。

优选地,所述步骤2.4.1.3中转折点判断步骤包括:若q

由上述方案可知,本发明提供的一种基于时间轴的模型数据指标推演方法与现有技术相比,将相关事物数据化,以可度量的方式进行收集,然后将数据展示在以时间维度作为横轴的坐标轴上,推演精细化运营,在尽量接近现实的可能下,提高决策效率。该方法基于时间轴将其他维度的数据量化成指标投射到时间维度上,经过数据清洗和标准化等常规数据处理手段,结合事实维度模型的方式建模,根据曲线的走向进行模拟插值操作,进而达到推演未来的目的。本发明有效解决现在技术所存在的数据庞大导致分析过程过于复杂,造成大量人力资源的浪费以及大量成本的增加,且分析效率低、准确率差的问题,作用效果显著,适于广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于时间轴的模型数据指标推演方法的过程框图;

图2为本发明实施例提供的一种基于时间轴的模型数据指标推演方法的时间序列的线性表示方法拟合误差比较对比表;

图3为本发明实施例提供的一种基于时间轴的模型数据指标推演方法的应用得到的拟合曲线图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。

数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在轨道交通行业中会体现出越来越重要的价值。

请一并参阅图1至图3,现对本发明提供的一种基于时间轴的模型数据指标推演方法的一种具体实施方式进行说明。该种基于时间轴的模型数据指标推演方法的具体步骤包括:

S1、发现并纠正数据文件中可识别的错误,再进行数据清洗,其中数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性、判断数据完整性和处理无效值与缺失值等;

一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。

无效值和缺失值的处理是由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理,示例性的,处理方法可以为估算插值、整例删除、变量删除和成对删除、赋默认值。估算插值和赋默认值是做补缺失值的;整例删除、变量删除、成对删除是做无效值清理的。

完整性是通过数据的内连接的方式对数据进行过滤,避免不完整的数据导致某个维度上的度量值出现极值情况,避免影响数据分布趋势。

S2、基于时间序列的线性和非线性表示方法,分别对清洗后的数据向时间维度降维,其中线性表示方法包括极值点拟合法、特征点拟合法、基于关键点的线性拟合方法和一种精确的时间序列线性拟合方法;

时间轴是指依据时间维度的顺序,把一方面或多方面的事件串联起来,形成相对完整的记录体系,再运用图文的形式呈现给用户;时间轴最大的作用就是把过去的事物系统化、完整化、精确化。由于轨道交通行业的特殊性,轨道交通行业捕获大量的传感器数据和运营数据,且都是时间敏感的,故时间序列数据作为一种数据形式,广泛出现在轨道交通行业的数据采集中,并形成规模庞大的时间序列数据集。

由于时间序列数据具有数据量大、噪声干扰严重和短期波动频繁等特点,直接在原始时间序列上进行相似性查询、分类聚类、模式挖掘等操作,很难得到满意的结果,且多维数据不便于人们决策分析。因此,对时间序列进行降维处理十分必要。降维方法包括时间序列的线性拟合、线性划分等,在刻画时间序列主要形态的同时,忽略那些微小的细节,把握局部特征,从而保持了序列主要特征的不变性,极大提高数据挖掘的效率,达到简化计算量的目的。

S2.1、极值点拟合法(IPSegmentation)的具体步骤包括:基于时间序列数据的单调变化属性,抽取并保留序列中的极值点作为特征数据即关键点,实现对时间序列数据压缩并保留其主要变化特征的目的,其中对于时间序列Q(q

S2.2、特征点拟合法(FPSegmentation)的具体步骤包括:

S2.2.1、把时间按序列Q的起点和终点保留下来作为特征点;

S2.2.2、从保留下来的特征点中选取序列的极值点作为特征值点即关键点,其中极值点保持极值的时间段(即该点的前后极值点之间的时间段)与序列Q长度的比值大于指定阈值M,其中阈值M看作特征点的判断影响因子,M的取值和领域知识、序列长度以及实际的关注点有关,一般在0.01~0.1之间。

S2.3、基于关键点的线性拟合方法(APSegmentation)的具体步骤包括:

S2.3.1、选取序列Q的极值点作为特征值点,其中极值点保持极值的时间段(即该点的前后极值点之间的时间段)与该序列Q长度的比值大于指定阈值M,其中阈值M看作特征点的判断影响因子,M的取值和领域知识、序列长度以及实际的关注点有关,一般在0.01~0.1之间;

S2.3.2、抽取序列Q的转折点,其中转折点q

S2.3.3、选取极值点和转折点的并集作为序列Q的关键点。

S2.4.、一种精确的时间序列线性拟合方法(FPSegmentation)的具体步骤包括:

S2.4.1、通过极值的方法和斜率的方法选出时间序列的极值点和转折点;

S2.4.1中斜率方法首先是计算连接同一点(除线段的两个端点外)的左右两条线段的斜率,然后通过斜率的变化幅度来确定该点是否是转折点,具体步骤包括:

S2.4.1.1、计算除线段的两个端点外同一点连接相邻两点的线段的斜率;

S2.4.1.2、判断时间序列Q的第i个元素q

S2.4.1.3、根据斜率的变化幅度确定转折点。

S2.4.1.3中转折点判断步骤包括:若q

S2.4.2、通过时间段阈值C选出满足条件的滤去噪声的极值点;

S2.4.3、将满足条件的极值点和转折点取并集作为时间序列的关键点。

S2.5、时间序列的非线性表示法采用奇异值表示法。奇异性是指信号本身或它的某阶导数在某一时刻存在突变,奇异点携带比较重要的信息。奇异值分解(Singular ValueDecomposition,SVD)法在统计学里也称主分量分析(Principle Component Analysis,PCA),是一种基于统计概率分布的投影方法。该方法搜索n个最能代表数据的k维正交向量n≤k,使原来的数据被投影到较小空间,实现数据压缩,是一种常见的降维方法。通过奇异值分解法获取数据中的奇异值,并通过奇异值对时间序列进行非线性表示。

S3、将降维后的数据根据分析目的选择具体的挖掘算法,示例性的,挖掘算法包括决策树分类、聚类分析、关联分析等等,得到多个基于时间轴的模型,选择拟合度高的模型推演未来时间点的相应数据。

本步骤具体的实现步骤可以为:

S3.1、对线性和非线性表示方法得到的关键点,采用挖掘算法进行处理,将处理得到的数据生成以时间维度为横坐标的点序列(以时间轴从左到右依次递增);

S3.2、根据数据分布情况向已有模型曲线进行碰撞操作;

S3.3、按拟合度排序展示线性和非线性表示方法得到的模型曲线,选择拟合度最高的曲线;

请参阅图2,根据实际数据通过四种线性表示方法得到的数据,选取拟合误差最小,压缩率最优的曲线进行显示与操作,从而提高后续推演得到的数据的准确率。

S3.4、增加未来的时间点,根据选择后曲线的走向进行模拟插值操作,推演得到未来时间点的相应数据。

数据标准化成时间维度上的指标数据,以供导入可视化系统分析使用,示例性的,可以显示为折线图、柱状图、散点图。该种基于时间轴的模型数据指标推演方法从现状分析开始,以此作为起点,然后将相关事物数据化,以可度量的方式进行收集,然后将数据展示在以时间维度作为横轴的图标上,以可视化图表的方式供决策人员使用,并通过模拟修改模型参数的方式做实验,推演精细化运营,在尽量接近现实的可能下,提高决策效率。

示例性的:请参阅图3,某地铁站早高峰两小时客流量推演情况,此图为根据早高峰两小时刷卡量描点,使用该种基于时间轴的模型数据指标推演方法通过碰撞比较比较接近指数形态得到的模型,其中x轴为时间轴,代表每十分钟的统计情况,未来每天相同时段可据此进行推演。

在编程层面,数据挖掘的算法会对数据的类型和结构做出一些要求,标准化即是把原始数据向算法能接受处理的数据转化的操作。通过事实维度模型的方式建模是一种标准的数据仓库的建模方式。

与现有技术相比,该方法以时间作为描述、表达变量的度量尺度,将其他维度的数据量化成指标投射到时间维度的横轴上,经过数据清洗和标准化等常规数据处理手段,并通过事实维度模型的方式建模,且将时间维度作为主维度。如果数据具有多维度属性,则先进行数据降维。然后通过直接比较或者组合、拟合后再比较的方式(所有将参与分析的数据必须选取相同的时间维度粒度,粒度选取需要参考既有数据的最大粒度),推演事情的发展趋势和拐点,为规律总结、决策分析、未来规划提供可视化的展示和支持。本发明有效解决现在技术所存在的数据庞大导致分析过程过于复杂,造成大量人力资源的浪费以及大量成本的增加,且分析效率低、准确率差的问题。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种基于时间轴的模型数据指标推演方法
  • 一种基于大数据模型的设备维修业务指标统计方法和系统
技术分类

06120112533313