掌桥专利:专业的专利平台
掌桥专利
首页

时间序列数据处理方法、装置和计算机可读存储介质

文献发布时间:2023-06-19 11:39:06


时间序列数据处理方法、装置和计算机可读存储介质

技术领域

本公开涉及大数据技术领域,特别是一种时间序列数据处理方法、装置和计算机可读存储介质。

背景技术

随着无线通信技术、传感器技术的发展和广泛应用,时间序列数据与日俱增,大量的时间序列数据中隐藏着可以挖掘的有效信息,同时会对存储空间造成与日俱增的压力。

发明内容

本公开的一个目的在于提高对时间序列数据的有效利用和处理效率。

根据本公开的一些实施例的一个方面,提出一种时间序列数据处理方法,包括:将时间序列数据做图形化处理,获取时间序列曲线;根据时间序列曲线的图形化特征对时间序列数据做预定粒度的划分,获取多组初分类时间序列数据,其中,每组初分类时间序列数据中包括一条或多条时间序列数据;通过聚类算法处理每组初分类时间序列数据,获取聚类时间序列数据簇;根据聚类时间序列数据簇执行数据存储或挖掘中的至少一项。

在一些实施例中,根据时间序列数据做图形化处理,获取时间序列曲线包括:基于清洗后的根据时间序列数据做归一化处理;根据归一化处理后的时间序列数据按照时间顺序绘制曲线;将绘制后的曲线并做平滑化处理,获取时间序列曲线。

在一些实施例中,通过聚类算法处理每组初分类时间序列数据,获取聚类时间序列数据包括:针对每组初分类时间序列数据,以对应的时间序列曲线为处理单位:基于全局约束的DTW(Dynamic Time Warping,动态时间归整)算法获取时间序列曲线间的距离相似度矩阵;根据距离相似度矩阵,基于改进的AP算法做聚类运算,获取聚类时间序列数据。

在一些实施例中,根据距离相似度矩阵,基于改进的AP算法做聚类运算,获取聚类时间序列数据包括:设置偏向参数;基于AP算法,更新吸引信息矩阵和归属信息矩阵,确定当前偏向参数下的聚类结果;基于预定策略修改偏向聚类参数,确定修改后的当前偏向参数下的聚类结果,直至获取全部偏向参数下的聚类结果;获取每个偏向参数下的聚类结果的轮廓系数;获取轮廓系数最大的聚类结果对应的聚类时间序列数据簇。

在一些实施例中,偏向参数包括相似度值的中值和中值的多个分位数。

在一些实施例中,轮廓系数s(i)为:

其中,i为时间序列数据样本标识,a(i)为簇内不相似度,b(i)为簇间不相似度。

在一些实施例中,时间序列数据为随时间的先后次序改变的数据,包括流量数据、潮汐数据、语音数据、波动数据或心电图数据中的一种或多种。

在一些实施例中,图形化特征包括有效波峰的数量和/或振幅。

通过这样的方法,能够基于时间序列数据进行曲线提取,进而通过粗分类和聚类分析,得到时间序列数据的聚类提取,便于舍弃相似度偏低的序列数据,着重研究相似度较高的数据,有效提高下游任务后续挖掘的精度和效率,提高对时间序列数据的有效利用和处理效率。

根据本公开的一些实施例的一个方面,提出一种时间序列数据处理装置,包括:预处理单元,被配置为将时间序列数据做图形化处理,获取时间序列曲线;初分类单元,被配置为根据时间序列曲线的图形化特征,对时间序列数据做预定粒度的划分,获取多组初分类时间序列数据,其中,每组初分类时间序列数据中包括一条或多条时间序列数据;聚类单元,被配置为通过聚类算法处理每组初分类时间序列数据,获取聚类时间序列数据簇;下游任务单元,被配置为根据聚类时间序列数据簇执行数据存储或挖掘中的至少一项。

根据本公开的一些实施例的一个方面,提出一种时间序列数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上文中任意一种时间序列数据处理方法。

通过这样的时间序列数据处理装置,能够基于时间序列数据进行曲线提取,进而通过粗分类和聚类分析,得到时间序列数据的聚类提取,便于舍弃相似度偏低的序列数据,着重研究相似度较高的数据,有效提高下游任务后续挖掘的精度和效率,提高对时间序列数据的有效利用和处理效率。

根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种时间序列数据处理方法的步骤。

通过执行这样的计算机可读存储介质上的指令,能够基于时间序列数据进行曲线提取,进而通过粗分类和聚类分析,得到时间序列数据的聚类提取,便于舍弃相似度偏低的序列数据,着重研究相似度较高的数据,有效提高下游任务后续挖掘的精度和效率,提高对时间序列数据的有效利用和处理效率。

附图说明

此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:

图1为本公开的时间序列数据处理方法的一些实施例的流程图。

图2为本公开的时间序列数据处理方法中聚类分析的一些实施例的流程图。

图3为本公开的时间序列数据处理装置的一些实施例的流程图。

图4为本公开的时间序列数据处理装置的另一些实施例的流程图。

图5为本公开的时间序列数据处理装置的又一些实施例的流程图。

具体实施方式

下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

时间序列相似性的度量是其他时间序列数据挖掘任务实现的前提,是研究分类、异常检测和模式识别等问题的必要手段。目前时间序列的相似性度量方法常见的有,欧氏距离(ED)、DTW距离、符号近似化SAX等。

然而,现有的度量技术主要存在三个问题:

1、时间复杂度大,运算效率低,耗时长,容易受到随机波动和人工干预的影响;

2、无法完整地反映序列的全局特征,忽略时间序列形态变化和关键点的重要信息,该模式分类精度低,度量效果不佳,普适性和灵活性差;

3、仅用距离计算无法批量发现相似的多序列簇及类中心,需要人工设定相似程度的阈值。

本公开的时间序列数据处理方法的一些实施例的流程图如图1所示。

在步骤101中,将时间序列数据做图形化处理,获取时间序列曲线。在一些实施例中,可以基于清洗后的根据时间序列数据做归一化处理,根据归一化处理后的时间序列数据按照时间顺序绘制曲线,将绘制后的曲线并做平滑化处理,获取时间序列曲线。

在一些实施例中,时间序列数据为随时间的先后次序改变的数据,例如流量数据、潮汐数据、语音数据、波动数据或心电图数据等。

在步骤102中,根据时间序列曲线的图形化特征对时间序列数据做预定粒度的划分,获取多组初分类时间序列数据。在一些实施例中,可以根据需求,如从运算量、运算时间等方面考虑,设置和逐步调整预定粒度,实现对时间序列曲线的粗分类。在一些实施例中,每组初分类时间序列数据中可以包括一条或多条时间序列数据。

在一些实施例中,图形化特征可以包括有效波峰的数量、振幅等,可以根据序列的有效波峰数进行分类,再通过有效波峰的局部相邻波峰波谷的振幅分级,从而完成序列的全局形状特征的粗分类。

在步骤103中,通过聚类算法处理每组初分类时间序列数据,获取聚类时间序列数据簇。

在步骤104中,根据聚类时间序列数据簇执行数据存储或挖掘中的至少一项。

通过这样的方法,能够基于时间序列数据进行曲线提取,进而通过粗分类和聚类分析,得到时间序列数据的聚类提取,根据有效的波峰数和相邻峰谷的振幅等级,从形状上快速粗分类,可高效地实现时间序列的数据压缩,提高计算序列相似性的效率;便于舍弃相似度偏低的序列数据,着重研究相似度较高的数据,有效提高下游任务后续挖掘的精度和效率,提高对时间序列数据的有效利用和处理效率。

在一些实施例中,可以基于AP聚类算法进行聚类处理。AP聚类过程是信息传递的过程,用吸引信息矩阵R和归属信息矩阵A在数据点之间交换信息,不断迭代更新,直到结束。吸引信息矩阵中的项r(i,k)与归属信息矩阵中的项a(i,k)的值越大,则k点成为聚类中心的可能性越大,并且i点隶属于以k为聚类中心的类簇的可能性越大。通过这样的方法,无需事先指定聚类个数,也无需随机选取初值,误差较低,且对数据的适用范围大。

在一些实施例中,针对AP聚类算法本身复杂度高等问题,通过改进AP聚类的相似度矩阵计算,并对相似度矩阵中的偏向参数进行调整,提升聚类效率和分类精度。在一些实施例中,改进主要可以包括两个方面:

(1)先基于全局约束的DTW算法获得相似度矩阵:

在聚类之前,先通过DTW算法获取相似度矩阵,从而解决时间序列数据在时域会出现左右偏移、伸缩、不等长等问题。

在一些实施例中,基于动态时间轴,采用全局约束设置搜索范围,将搜索路径控制在弯曲窗口内部,从而限制动态匹配时允许的偏离范围,解决DTW在时域动态上复杂度高的难题。

全局约束的DTW,是在一定的弯曲窗口内,通过时间序列补齐和距离累积的方式来计算两个不等长时间序列的相似性,可减少一部分的运算量,提高DTW运算的效率,而且选择合适的弯曲窗口能提高分类精度。

通过这样的方法,在解决时间序列数据在时域会出现左右偏移等问题的基础上,保证不会对运算量造成过大影响,一方面提高了聚类的准确度,另一方面也保证了运算效率。

(2)偏向参数的改进:

相似度矩阵主对角线上的元素值s(i,i)为偏向参数,其值与聚类结果数目有关。利用聚类评价指标选择合理的偏向参数值,能有效减少算法的迭代次数,提高聚类精度。

AP聚类的偏向参数默认取相似度值的中值。由于中值容易受到无明显变化规律的数据干扰,可以通过网络搜索法遍历中值的多个分位数(如1/8、1/4、1/2、3/2、2、4、6等),寻找最优的参数取值。

AP聚类算法的稳定性较好,对于多次迭代轮廓系数(silhouette_score)范围变动较小。因此,利用轮廓系数指标作为AP聚类算法的偏向参数选取和收敛判据,如式(1)所示。

即:

式中,a

通过这样的方法,在粗粒度分类的基础上,充分结合时域动态和形状特征,采用全局约束的DTW距离,通过迭代自适应的AP聚类识别最优类中心,从而更准确、高效地实现相似形状的序列簇的自动聚类。

在一些实施例中,度量序列相似性是时间序列数据挖掘应用的重要基础,可广泛用于基站流量潮汐分析、网络故障检测、语音信号处理、心电图异常模式发现、生物序列识别等场景。通过使用时序数据库的存储方式,使得时序大数据可以高效存储和快速处理海量时序数据,是解决海量时序数据挖掘的一项重要技术。该技术极大提高了时间相关数据的处理能力,相对于关系型数据库它的存储空间减半,查询速度极大的提高,如InformixTime Series,适合在物联网分析中应用。

针对每组初分类时间序列数据,以对应的时间序列曲线为处理单位,本公开的时间序列数据处理方法中聚类分析的一些实施例的流程图如图2所示。

在步骤201中,基于全局约束的DTW算法获取时间序列曲线间的距离相似度矩阵。

基于获得的距离相似度矩阵,可以输入AP算法中做聚类运算,执行如下步骤:

在步骤202中,将每个数据节点均为候选的聚类中心,且适应度为0。

在步骤203中,设定偏向参数preference。

在步骤204中,基于偏向参数和AP算法更新吸引信息矩阵和归属信息矩阵。

在步骤205中,判断聚类中心是否稳定;在聚类中心稳定的情况下,确定当前聚类结果为当前偏向参数下的聚类结果;在聚类中心不稳定的情况下,返回步骤204,继续执行基于偏向参数更新吸引信息矩阵和归属信息矩阵的操作。

通过这样的方法,能够充分结合时域动态和形状特征,采用全局约束的DTW距离,通过迭代自适应的AP聚类识别最优类中心,从而更准确、高效地实现相似形状的序列簇的自动聚类,有效地解决了在时间轴上的伸缩、偏移、不等长序列,无需人工参与,抗干扰强,可实时迭代更新。

在一些实施例中,如图2所示,还可以包括步骤206~208。

在步骤206中,确定当前偏向参数下的聚类结果的情况下,返回步骤203,从而基于预定策略修改偏向聚类参数,直至获取全部偏向参数下的聚类结果。在一些实施例中,AP聚类的偏向参数(Preference)默认取相似度值的中值。由于中值容易受到无明显变化规律的数据干扰,因此,可以通过网络搜索法遍历中值的多个分位数(如1/8、1/4、1/2、3/2、2、4、6等),寻找最优的参数取值。

在步骤207中,获取每个偏向参数下的聚类结果的轮廓系数。轮廓系数的算法可以如公式(1)、(2)所示。

在步骤208中,确定轮廓系数最大的聚类结果对应的聚类时间序列数据簇。

通过这样的方法,能够通过修改偏向参数的方式寻找最优的参数取值,从而能够更准确、高效地实现相似形状的序列簇的自动聚类。

本公开的时间序列数据处理装置的一些实施例的流程图如图3所示。

预处理单元301能够将时间序列数据做图形化处理,获取时间序列曲线。在一些实施例中,可以基于清洗后的根据时间序列数据做归一化处理,根据归一化处理后的时间序列数据按照时间顺序绘制曲线,将绘制后的曲线并做平滑化处理,获取时间序列曲线。

初分类单元302能够根据时间序列曲线的图形化特征对时间序列数据做预定粒度的划分,获取多组初分类时间序列数据。在一些实施例中,可以根据需求,如从运算量、运算时间等方面考虑,设置和逐步调整预定粒度,实现对时间序列曲线的粗分类。在一些实施例中,每组初分类时间序列数据中可以包括一条或多条时间序列数据。在一些实施例中,图形化特征可以包括有效波峰的数量、振幅等,可以根据序列的有效波峰数进行分类,再通过有效波峰的局部相邻波峰波谷的振幅分级,从而完成序列的全局形状特征的粗分类。

聚类单元303能够通过聚类算法处理每组初分类时间序列数据,获取聚类时间序列数据簇。。

下游任务单元304能够根据聚类时间序列数据簇执行数据存储或挖掘中的至少一项。

通过这样的时间序列数据处理装置,能够基于时间序列数据进行曲线提取,进而通过粗分类和聚类分析,得到时间序列数据的聚类提取,便于舍弃相似度偏低的序列数据,着重研究相似度较高的数据,有效提高下游任务后续挖掘的精度和效率,提高对时间序列数据的有效利用和处理效率。

本公开时间序列数据处理装置的一个实施例的结构示意图如图4所示。时间序列数据处理装置包括存储器401和处理器402。其中:存储器401可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中时间序列数据处理方法的对应实施例中的指令。处理器402耦接至存储器401,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器402用于执行存储器中存储的指令,能够提高对时间序列数据的有效利用和处理效率。

在一个实施例中,还可以如图5所示,时间序列数据处理装置500包括存储器501和处理器502。处理器502通过BUS总线503耦合至存储器501。该时间序列数据处理装置500还可以通过存储接口504连接至外部存储装置505以便调用外部数据,还可以通过网络接口506连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。

在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高对时间序列数据的有效利用和处理效率。

在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现时间序列数据处理方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

相关技术
  • 时间序列数据处理方法、装置和计算机可读存储介质
  • 一种新的时间序列的预测方法、装置、电子设备及计算机可读存储介质
技术分类

06120113008014