掌桥专利:专业的专利平台
掌桥专利
首页

一种铁路列车模糊数据协议比对方法

文献发布时间:2024-04-18 19:52:40



技术领域

本发明属于轨道交通车辆领域,涉及一种铁路列车模糊数据协议比对方法。

背景技术

智能运维系统离不开列车海量运营数据的支撑,但不具备列车数据采集传输功能的老旧车型成为了数据获取过程中的短板。在系统设计上,老旧车型通过加装具有采集和无线传输功能的记录仪便可完成数据获取。对老旧车型的列车数据解析过程中,因为列车扩编、大修、新增系统等技术原因,导致留存数据协议与现有车辆不符。早期老旧车型的运营方和国外制造商对于数据协议管理不规范,导致留存数据协议与现有车辆不符。列车数据协议的不准确严重影响了列车的数据解析准确性,阻碍了智能运维平台搭建的数据完整性进程。

发明内容

为了解决这种模糊数据协议确认、更新问题,本发明提供了一种列车模糊数据协议的比对方法,提高列车数据解析的准确性,补全智能运维平台的数据完整性。本发明提供的一种铁路列车模糊数据协议比对方法,针对留存数据协议文本与现车运行的数据协议内容不符的老旧车型,该方法是一种比对方法满足现有老旧车型的数据解析要求,以留存协议为基础,分析模糊的协议变量与留存协议中确定变量的相关性;

一种铁路列车模糊数据协议比对方法,包括以下步骤:

步骤1、获取现车协议的各个端口的报文,并将各个端口的报文数据分别与采集时间戳进行时标对齐,得到各个端口报文的时间序列集合;

步骤2、对各个端口报文的时间序列集合的原始数据进行数据预处理;

步骤3将预处理后的时间序列集合分为确定时间序列子集合Y和模糊时间序列子集合X;

步骤4、计算确定时间序列集合Y和模糊时间序列集合X的相关性;

步骤5、通过相关性计算结果,预测模糊协议变量的变量类型和含义;

步骤6、通过短期的确认手段验证假定的结果正确性,长期的验证手段来确定假定的含义和类型符合车辆的实际运行情况。

进一步地:对各个端口报文的时间序列集合的原始数据进行数据预处理的过程如下:

对所有的时间序列进行预处理,预处理的过程包含归一化、时间长度裁剪、逐段聚集平均三个过程;

S21:归一化处理,通过线性归一化,如公式(1)所示,将时间序列的值集中在[0,1]范围内:

x代表某一时间序列的原始数据值,x′代表归一化处理过的时间序列值;

S22:列车运行数据记录的记录文件时间较长,以列车单方向运行时长T作为固定时长裁剪时间序列,T代表列车从起始站行驶到终点站的时长;以T为周期对时间序列集合进行裁剪,获得了长度统一的时间序列,并且以T为周期,整个列车的运行过程遍历了所有的运行场景和线路站点情况;

S23:通过逐段聚集平均的方法,缩减每条时间序列的维度,具体公式如下:

其中,

在时间序列上滑动一个大小固定的滑动窗口,并计算滑动窗口中数据的均值作为整个窗口内数据的表示,将时间序列的采样点进行缩减,对序列的特征进行提取。

进一步地:所述相关性程度的度量通过皮尔逊系数来进行计算相关性数值,所述皮尔逊系数的计算公式如下:

其中,N为序列x(iR和y(i)的长度,τ为时间延迟;

再通过相关性数值进行查表确定相关性程度。

进一步地:所述通过相关性计算结果,预测模糊协议变量的变量类型和含义的过程如下:

先假定X

若P

若P

综上所述,对X

进一步地:所述判断两个半字节序列的皮尔逊系数相关性的过程如下:

若两个半字节变量的皮尔逊系数大于≥0.6,则确定时间序列i的变量形式为字节变量,若两个半字节变量的皮尔逊系数<0.6,则确定时间序列i的变量形式为布尔变量。

一种铁路列车模糊数据协议比对装置,包括:

获取模块:用于获取现车协议的各个端口的报文,并将各个端口的报文数据分别与采集时间戳进行时标对齐,得到各个端口报文的时间序列集合;

预处理模块:用于对各个端口报文的时间序列集合的原始数据进行数据预处理;

划分模块:用于将预处理后的时间序列集合分为确定时间序列子集合Y和模糊时间序列子集合X;

计算模块:用于计算确定时间序列集合Y和模糊时间序列集合X的相关性;

预测模块:用于通过相关性计算结果,预测模糊协议变量的变量类型和含义;

确定模块:用于通过短期的确认手段验证假定的结果正确性,长期的验证手段来确定假定的含义和类型符合车辆的实际运行情况。

本发明提供的一种铁路列车模糊协议比对方法,便于快捷的确定模糊协议的含义,降低技术人员的工作强度,提高工作效率。提高列车数据解析的准确性,补全智能运维平台的数据获取的短板。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图;

图2为本发明数据类型预测流程图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。

此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。

本实施例通过车载数据采集记录仪对列车的各个数据端口的数据报文进行实时的记录。完整的数据报文以端口号进行区分,报文记录的时间戳也会随之记录下来。

老旧车型的留存协议与现车的协议不符合,存在以下几种情况:

现车协议在留存协议基础上进行扩充,大部分的留存协议相符合,增加部分以留存协议为基础进行预测。

现车协议在留存协议基础上进行删减,在逐个比对确认后,完成现车协议的比对。

现车协议在留存协议基础上拼接,根据原车的屏幕信息和车载记录文件以及列车各子系统标准化数据协议模板进行预测。

针对老旧车型列车模糊协议存在上述状况,本发明提供一种模糊协议比对方法来解决上述问题。其步骤如下:

步骤1、获取现车协议的各个端口的报文,并将各个端口的报文数据分别与采集时间戳进行时标对齐,得到各个端口报文的时间序列集合;

步骤2、对各个端口报文的时间序列集合的原始数据进行数据预处理;

步骤3、根据现车协议和人工确认后,将预处理后的时间序列集合分为确定时间序列子集合Y和模糊时间序列子集合X;

步骤4、计算确定时间序列集合Y和模糊时间序列集合X的相关性;

步骤5、通过相关性计算结果,预测模糊协议变量的变量类型和含义;

步骤6、通过短期的确认手段验证假定的结果正确性,长期的验证手段来确定假定的含义和类型符合车辆的实际运行情况。

步骤1、步骤2、步骤3、步骤4、步骤5和步骤6顺序执行;

列车的网络数据大致可以分为运行数据和故障数据两大类。对于列车的运行数据通过列车数据记录仪对列车网络的监测获得数据,对模糊运行数据协议的比对提供数据支撑。对于列车的故障数据是偶发的,需要特定条件触发才能获得各个端口的故障数据。列车故障数据的获取分为两个途径,以人为的故障注入形式触发高频的故障,进行模糊协议的比对确认。低频的故障或者难以通过人为的模拟进行触发的故障,需要长期的故障数据累积达到最终比对确认的目的。

所述获取现车协议的各个端口的报文,并将各个端口得报文数据分别与采集时间戳进行时标对齐,得到各个端口报文的时间序列集合的过程如下:

所述报文包括根据留存协议确认的数据变量和模糊待确认的数据变量;

根据留存的协议中数据变量形式将确认的数据变量进行拆分;

基本的数据变量形式分为:布尔变量Bool、字节变量Byte、字变量Word、双字变量DWord等。

各个端口的报文数据分别与采集时间戳进行时标对齐,便获得了各个端口的时间序列集合。

根据留存协议我们将端口报文拆分成了时间序列集合如下:

Y={Y

其中Y

针对模糊待确定的数据变量,将全部模糊变量首先默认为字节变量进行拆分,对齐时标后组成时间序列集合:

X

其中:X

由车载数据采集记录仪获取的各个端口的原始数据会存在一些数据质量问题,对齐时标后组成的时间序列合集也存在数据质量问题,需要进行数据预处理。所述对各个端口报文的时间序列集合的原始数据进行数据预处理的过程的过程如下:

数据预处理要去除数据集中的噪声数据和无关数据,处理遗漏数据、空缺值、识别删除孤立点等;

对所有的时间序列进行预处理,预处理的过程包含归一化、时间长度裁剪、逐段聚集平均三个过程;

S21:对每个时间序列进行归一化处理,通过线性归一化,如公式(3)所示,将时间序列的值集中在[0,1]范围内:

x代表某一时间序列的原始数据值,x′代表归一化处理过的时间序列值;

S22:列车运行数据记录的记录文件时间较长,为了方便比对,我们以列车单方向运行时长T作为固定时长裁剪时间序列,T代表列车从起始站行驶到终点站的时长;以T为周期对时间序列集合进行裁剪,获得了长度统一的时间序列,并且以T为周期,

遍历了所有的运行场景和线路站点情况;车载网络的端口采样周期都是毫秒级,某一变量的采集值在采样周期能会被重复多次采样;极短时间内对具有连续的序列进行采样取值,序列的取值范围变化不大,甚至有重复取值的情况出现;

S23:通过逐段聚集平均的方法具体公式如下:

/>

其中,

在时间序列上滑动一个大小固定的滑动窗口,并计算滑动窗口中数据的均值作为整个窗口内数据的表示。将时间序列的采样点进行缩减,对序列的特征进行提取,降低后续相关性计算的数据量,提高效率。

进一步地,以确定的时间序列集合Y={Y

两个时间序列的相关性等级的区分:

(1)两个时间序列在同一时间标度下之间根本不存在任何关联性;

(2)两个时间序列在同一时间标度下存在着模糊的关联性;

(3)两个时间序列在同一时间标度下存在着较强的关联性,但不存在清晰函数关系的关联性;

(4)两个时间序列在同一时间标度下存在着清晰的函数关系。

本发明不考虑对时间序列的函数关系进行深入探讨,仅针对两个时间序列的相关性进行分析比对,以预测以及确定模糊协议报文的具体含义。

利用皮尔逊系数来度量两个序列时间的相关性,其公式(3)如下所示。

其中,N为序列x(iR和y(i)的长度,τ为时间延迟,两时间序列之间相关性并不一定严格时间同步。

因为列车系统的总线传输延时以及机械电气子系统的系统延时都需考虑进去,总的延时可以根据当前端口对应的子系统特性进行考量,以端口采样周期的倍数作为τ的取值。E(x)和E(y)为两个序列的均值,σ(x)和σ(y)为两个序列的标准差。

通过皮尔逊系数的绝对值的大小,能通过下表来衡量两个序列的相关程度。

按照如下方法计算确定序列集合中Y和模糊序列集合X

进一步地,所述通过相关性计算结果,预测模糊协议变量的变量类型和含义的过程如下:

先假定X

若P

若P

综上所述,对X

所述判断两个半字节序列的皮尔逊系数相关性的过程如下:

若两个半字节变量的皮尔逊系数大于≥0.6,则确定时间序列i的变量形式为字节变量,若两个半字节变量的皮尔逊系数<0.6,则确定时间序列i的变量形式为布尔变量。

进一步地,计算确定时间序列集合Y和模糊时间序列集合X的相关性的过程如下:

计算集合X中每个序列x(i)与确定时间集合Y中每个序列y(j)的皮尔逊系数的绝对值,这样便得到相关性矩阵P

将相关性矩阵中元素大于0.6的保留,仅将极强相关和强相关元素作为后续的比对研究对象;

在确立了Y集合中元素y(i)与X集合中x(i)具有强相关性,y(i)所对应的变量的含义,与x(i)所对应的含义、对应的系统部件、关联状态变量、故障反馈等具有很强的关联性。将与y(i)具有强关联性的确定变量按相关性系数大小排序,综合分析相关性系数较大的几个变量的含义和所对应的部件,大致确定y(i)对应变量的范围。在该范围内,通过数据协议文件、系统原理图纸、专家的经验等综合生成假定的y(i)对应变量的含义。

进一步地、对于y(i)对应变量变量类型和含义进行假定后,通过短期的确认手段比如系统重启、故障信号注入、通信干扰等手段验证假定的结果正确性;长期的验证手段通过长时间运行,来确定假定的含义和类型符合车辆的实际运行情况。一个故障、一个信号反馈或者一个累积变量是系统间相互作用的结果。

一种铁路列车模糊数据协议比对装置,包括:

获取模块:用于获取现车协议的各个端口的报文,并将各个端口的报文数据分别与采集时间戳进行时标对齐,得到各个端口报文的时间序列集合;

预处理模块:用于对各个端口报文的时间序列集合的原始数据进行数据预处理;

划分模块:用于将预处理后的时间序列集合分为确定时间序列子集合Y和模糊时间序列子集合X;

计算模块:用于计算确定时间序列集合Y和模糊时间序列集合X的相关性;

预测模块:用于通过相关性计算结果,预测模糊协议变量的变量类型和含义;

确定模块:用于通过短期的确认手段验证假定的结果正确性,长期的验证手段来确定假定的含义和类型符合车辆的实际运行情况。

一种铁路列车模糊数据协议比对装置,包括:

获取模块:用于获取现车协议的各个端口的报文,并将各个端口的报文数据分别与采集时间戳进行时标对齐,得到各个端口报文的时间序列集合;

预处理模块:用于对各个端口报文的时间序列集合的原始数据进行数据预处理;

划分模块:用于将预处理后的时间序列集合分为确定时间序列子集合Y和模糊时间序列子集合X;

计算模块:用于计算确定时间序列集合Y和模糊时间序列集合X的相关性;

预测模块:用于通过相关性计算结果,预测模糊协议变量的变量类型和含义;

确定模块:用于通过短期的确认手段验证假定的结果正确性,长期的验证手段来确定假定的含义和类型符合车辆的实际运行情况。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种高速铁路列车的车号识别方法及装置
  • 一种铁路列车连续运行方法及其铁路列车和铁路设施
  • 铁路配置数据比对方法、装置、电子设备及存储介质
技术分类

06120116329527