掌桥专利:专业的专利平台
掌桥专利
首页

用于设备状态分析的多源异构数据的模糊时间对齐方法

文献发布时间:2024-04-18 20:01:55


用于设备状态分析的多源异构数据的模糊时间对齐方法

技术领域

本发明涉及数据应用与分析技术领域,尤其涉及一种用于设备状态分析的多源异构数据的模糊时间对齐方法。

背景技术

在许多领域,如医学、金融、钢铁生产等,数据的准确性和可靠性非常重要。在数据分析和研究中,将使用时间和数值两个维度来描述某种状态的数据称为时间序列数据,时间序列数据经常需要进行比对和处理。然而,在实际应用中,由于各种原因,例如传感器故障、网络延迟等,数据采集的频率可能无法达到理想状况。在这样的情况下,对时间序列数据的处理和比较就变得更加具有挑战性。

数据时间戳对齐的应用场景是在进行数据采集或监测时出现的情况,例如,某一个压力监测设备每30秒记录一次当前压力设定值,并将其保存为数据集合A;同时另一个压力监测设备每30秒记录一次当前压力实际值,并将其保存为数据集合B。由于两个设备的计时不完全同步,且记录时间间隔也不是精确的30秒,因此数据集合A和B中的数据点的时间并不是完全对齐的。生产上需要计算数据集合A和B在同一时刻的压力差值,以便对相关变化进行分析。

通常,实现时间对齐首先需要对数据进行时间序列重构,该过程包括以下两个步骤:

1)列举时刻-将需要比对的数据集合A和数据集合B的所有时刻列出,并按照从小到大的顺序排列,去除重复,最终形成一个包含A和B所有时刻且不重复的时间序列C;

2)按时间匹配数据-将A和B数据按照时间匹配并分别写入数据C的两列,对于空缺的部分,可以有多种方式进行补点,比如取前一点的值、后一点的值、一段时间的均值、中位数或众数等。

上述时间序列重构需要采用计算机程序来解决两组数据在时间轴上的不对齐问题,并计算出它们在某一时刻上的差异值,以便进行进一步的数据分析。

在传统时间对齐方法中,为了确保两个参数在同一时刻都能够被比较分析,会保留两个参数间所有不重复的时间点。然而在实际生产过程中,由于两个参数的采集频率及其异构性等因素,两个参数在同一时刻的重合率往往极低,导致进行补点操作后的数据量几乎是补点前的单个参数数据量的倍数。可以预见,其中大部分数据都是由于补点导致的,而这些数据并不代表该时刻真实的状态值,而是基于趋势下的推理所得。这种时间对齐的方法极大程度地破坏了数据的真实性,而在后续的计算分析中也会带来更大的误差。

另外,传统时间对齐方法的数据量在时间对齐后倍增,其对数据时间戳的要求更为严苛,只有时刻完全相等的两个数据才能对齐。实际生产过程中即使是采样频率几乎同步的压力设定值与压力实际值也在秒级有细微的差别,导致两数据时间对齐后的数据量几乎翻倍。还存在时间对齐后虚假数据增多的问题,时间对齐后使得原本稀少且易于滤除的极值噪点变多,降低数据的质量和可靠性,增加数据传递和后续进一步数学处理的难度。

发明内容

本发明所要解决的技术问题是提供一种用于设备状态分析的多源异构数据的模糊时间对齐方法,本方法克服传统数据时间对齐方式的缺陷,通过数据对齐和模糊匹配,使数据的误差率大幅降低,提高数据分析的准确性和可信度,节省大量的算法计算时间,提高数据处理效率。

为解决上述技术问题,本发明用于设备状态分析的多源异构数据的模糊时间对齐方法包括如下步骤:

步骤一、对于时间序列数据X

其中,i=1,2,...,m,m为时间序列数据X

步骤二、为了将各时间序列X

步骤三、选取长度最短的时间序列作为基准时间序列,设定k

步骤四、对于其他时间序列X

其中,

步骤五、对所有的时间序列X

其中,t

步骤六、当所有的时间序列X

步骤七、对于基准时间序列

其中,t

由于本发明用于设备状态分析的多源异构数据的模糊时间对齐方法采用了上述技术方案,即本方法的时间序列数据由时间点和数值组成;将各时间序列的长度进行统一,在设定的允许时间误差范围内,将在时间上临近的数据视为同一时间点;选取长度最短的时间序列作为基准时间序列;对于其他时间序列,从基准时间序列中找出距离其他时间序列的时间最近的时间点,即最小时间差;对所有的时间序列都根据基准时间序列进行时间匹配后,得到新的时间序列,并对各时间序列的长度进行统一;基准时间序列中的每个时间点存在于其他时间序列中,则保留该时间点及其对应的数值,否则删除,得到最终的时间序列。本方法克服传统数据时间对齐方式的缺陷,通过数据对齐和模糊匹配,使数据的误差率大幅降低,提高数据分析的准确性和可信度,节省大量的算法计算时间,提高数据处理效率。

附图说明

下面结合附图和实施方式对本发明作进一步的详细说明:

图1为本方法的流程框图;

图2为连铸机扇形段边部压力设定值与实际值的趋势图;

图3为压力设定值的分布图;

图4为压力实际值的分布图;

图5为两种方法近一周产生的报警数。

具体实施方式

实施例如图1所示,本发明用于设备状态分析的多源异构数据的模糊时间对齐方法包括如下步骤:

步骤一、对于时间序列数据X

其中,i=1,2,...,m,m为时间序列数据X

步骤二、为了将各时间序列X

步骤三、选取长度最短的时间序列作为基准时间序列,设定k

步骤四、对于其他时间序列X

其中,

步骤五、对所有的时间序列X

其中,t

步骤六、当所有的时间序列X

步骤七、对于基准时间序列

其中,t

本方法在某连铸机的应用介绍,该连铸机扇形段边部压力设定值会依据钢种、温度、铸坯断面、拉速、还有所处的段位等不同工况下根据生产工艺进行自动调控或人工调控,压力实际值会随着压力设定值变化最终与设定值持平。设定值与实际值持续一段时间相差太大视为状态异常,产生报警。根据生产需要,压力设定值调整频繁,从图2数据趋势图可以看出压力设定值与压力实际值的波动较大(图中两组数据数值差异较小,导致曲线重叠度较高),这就要求时间对齐后的数据要尽可能地保留数据的精确度与时效性,才能保证计算出的差值的真实性与可靠性。

如图2、图3和图4所示,从两组数据的趋势图和分布图可看出,压力设定值与压力实际值的变化趋势极为相似,只在时序上略有滞后,通过计算两组数据同一时刻的差值,可以反映压力实际值的滞后情况,是否超出预期。如果超出预期太多,会产生报警。

报警数量对比:

在实际应用中,需要根据应用场景调整参数值,为更好地反映时间对齐方法的效果,本文对两种方法的时序重构条件与报警条件进行设置。

时序重构条件:传统时间对齐方法按照时间顺序对两组数据的时序进行重构后,计算一个窗口内的平均值对缺失值进行填补;本方法匹配时间最相近的数据。所使用的两组数据压力设定值与压力实际值的采样频率均为30s,故而设置时间差阈值为60s,匹配的最近时间差超过60s,则删除这个时刻的数据。

报警条件:时间对齐后压力设定值与压力实际值的差值大于设定值的10%,统计一周内产生的报警。由图5可以看出,使用本方法在一定程度上降低了报警的产生,从所选数据样本的结果来看,报警数量平均下降了60%。

补点的数值与报警时刻:

在实际应用中,压力设定值与压力实际值需要进行差值计算,计算过程选定一段窗口,传统时间对齐方法在该窗口采用全部数据的平均值来填补缺失值。然而,由于该数据在一段时间内的波动较大,计算得出的平均值为0.168,并且与缺失数值的时刻前后相差较大。在后续的差值计算中,差值超过了压力设定值的10%,满足报警条件,产生报警。但可以看出这个报警完全是由于时间对齐时填充的数值不合理造成的,是不具有真实性和价值的错误报警,在实际生产中需要尽力避开。

本方法选取了缺失值附近时刻最相近的点来反映数据在缺失时刻的状态,采用这种方式进行时间对齐在同一时刻没有产生报警,观察所选数据项中设定值的变化趋势,可以看出这种数据对齐方式具有更好的效果,采用本方法补点后的数据更趋向于真实值。

补点位置:

传统时间对齐方法和本方法在数据缺失时的处理方式也有差别,表1为压力设定值采样时间和压力实际值采样时间的两组原始数据,该两组原始数据的采样频率相同,只是在秒级略有差异,空格的位置是数据缺失的采样时间。

表1:

采用传统方法进行时间对齐时,要求数据的时刻完全一致,这就导致这两个数据的某些时刻虽然相近,但仍被视作两个需要时间对齐的点,进而导致数据量翻倍,表2为传统方法补点的两组数据,其中,深色框中为补点,加粗值为补点数据。

表2:

本方法则不会造成这种问题,本方法会匹配最相近的两个时刻,用临近点的状态来反应缺失时刻的情况,表3为采用本方法补点的两组数据,其中,深色框中为补点,加粗值为补点数据。可见本方法对数据量的影响较小,也会更好地保留数据的真实性。

表3:

通过对两种方法的实验数据进行评估比较,本方法在时间对齐和数据比对方面相比传统方法具有更优秀的性能。具体来说,通过数据对齐和模糊匹配,可以使数据的误差率大幅降低,提高数据分析的准确性和可信度。同时,还可以节省大量的算法计算时间,提高数据处理效率。

技术分类

06120116571065