掌桥专利:专业的专利平台
掌桥专利
首页

一种时间序列数据处理方法、装置、设备及计算机介质

文献发布时间:2023-06-19 11:29:13


一种时间序列数据处理方法、装置、设备及计算机介质

技术领域

本申请涉及数据处理技术领域,更具体地说,涉及一种时间序列数据处理方法、装置、设备及计算机介质。

背景技术

在人工智能及大数据建模分析等应用场景中,如果时间序列数据的均值没有系统的变化(无趋势)、方差没有系统变化,且严格消除了周期性变化,就可以称之是平稳的,也即时间序列数据具备平稳性。

因为时间序列数据的平稳性是数据具备可分析性的一个基本要求,所以需要对时间序列数据进行平稳性处理,比如通过ADF(Augment Dickey-Fuller,增广迪基-福勒)检验来判断时间序列数据是否具有单位根进而判断时间序列数据是否是平稳性的时间序列数据。具体的,因为ADF检测具有三个检测模型,分别为不含常数项检测模型、含常数项检测模型及含趋势项检测模型,所以可以同时用三个检测模型来判断时间序列数据是否具有单位根,若其中一个检测模型的检测结果表明时间序列数据不具有单位根,则认为时间序列数据是平稳的,若三个检测模型的检测结果均表明时间序列数据具有单位根,则认定时间序列数据是非平稳的。

然而,存在单位根是时间序列数据不平稳的充分而非必要条件,所以仅仅通过ADF检测的三个检测模型来判断时间序列数据是否具有单位根进而判断时间序列数据是否具有平稳性是不准确的,从而会导致后续对时间序列数据的处理不准确。

综上所述,如何提高时间序列数据的处理准确性是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种时间序列数据处理方法,具有对时间序列数据处理准确的效果。本申请还提供了一种时间序列数据处理装置、电子设备及计算机可读存储介质。其具体方案如下:

第一方面,本申请公开了一种时间序列数据处理方法,包括:

获取原始时间序列数据,并将所述原始时间序列数据作为待检测数据;

基于增广迪基-福勒ADF检测的含趋势项检测模型对所述待检测数据进行检测,得到第一类检测结果并解析;

若所述第一类检测结果表征所述待检测数据不具有确定性时间趋势但具有单位根,则基于所述ADF检测的含常数项检测模型对所述待检测数据进行检测,得到第二类检测结果并解析;

若所述第二类检测结果表征所述待检测数据不具有常数项但具有单位根,则基于所述ADF检测的不含常数项检测模型对所述待检测数据进行检测,得到第三类检测结果并解析;

若所述第三类检测结果表征所述待检测数据不具有单位根,则将所述待检测数据输出为具有平稳性的目标时间序列数据,以基于所述目标时间序列数据进行数据处理。

可选的,所述得到第一类检测结果并解析之后,还包括:

若所述第一类检测结果表征所述待检测数据不具有确定性时间趋势和单位根,则将所述待检测数据输出为所述目标时间序列数据;

若所述第一类检测结果表征所述待检测数据具有确定性时间趋势,则确定所述待检测数据不具有平稳性;

所述得到第二类检测结果并解析之后,还包括:

若所述第二类检测结果表征所述待检测数据不具有单位根,则将所述待检测数据输出为所述目标时间序列数据;

若所述第二类检测结果表征所述待检测数据具有单位根,则确定所述待检测数据不具有平稳性;

所述得到第三类检测结果并解析之后,还包括:

若所述第三类检测结果表征所述待检测数据具有单位根,则确定所述待检测数据不具有平稳性。

可选的,所述确定所述待检测数据不具有平稳性之后,还包括:

对所述待检测数据进行平稳性变换,得到第一变换数据;

将所述第一变换数据作为所述待检测数据,返回执行所述基于ADF检测的含趋势项检测模型对所述待检测数据进行检测的步骤。

可选的,所述对所述待检测数据进行平稳性变换,得到第一变换数据,包括:

若所述待检测数据具有确定性时间趋势和单位根,则对所述待检测数据进行差分,得到差分结果,剔除所述差分结果中的确定性时间趋势或对所述差分结果进行差分,得到所述第一变换数据;

若所述待检测数据具有确定性时间趋势但不具有单位根,则对所述待检测数据进行差分,得到所述第一变换数据;

若所述待检测数据不具有确定性时间趋势但具有单位根,则对所述待检测数据进行差分,得到所述第一变换数据。

可选的,所述得到第一类检测结果并解析,包括:

得到第一类检测结果,所述第一类检测结果包括所述含趋势项检测模型中与确定性时间趋势对应的第一系数值、所述含趋势项检测模型中与单位根对应的第二系数值;

将所述第一系数值和所述第二系数值分别与零进行比较;

若所述第一系数值和所述第二系数值均等于零,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势但具有单位根;

若所述第一系数值等于零且所述第二系数值不等于零,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势和单位根;

若所述第一系数值不等于零且所述第二系数值等于零,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势和单位根;

若所述第一系数值和所述第二系数值均不等于零,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势但不具有单位根。

可选的,所述得到第一类检测结果并解析,包括:

得到第一类检测结果,所述第一类检测结果包括第一系数值为零的第一概率值、第二系数值为零的第二概率值;所述第一系数值为所述含趋势项检测模型中与确定性时间趋势对应的系数值;所述第二系数值为所述含趋势项检测模型中与单位根对应的系数值;

将所述第一概率值、所述第二概率值及显著性水平设定值进行比较;

若所述第一概率值大于等于所述第二概率值,且所述第二概率值大于所述显著性水平设定值的最小值,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势但具有单位根;

若所述第一概率值大于等于所述显著性水平设定值的最大值,且所述第二概率值小于等于所述显著性水平设定值的最小值,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势和单位根;

若所述第一概率值大于等于所述第二概率值且小于所述显著性水平设定值的最大值,所述第二概率值小于等于所述显著性水平设定值的最小值,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势和单位根;

若所述第一概率值小于所述第二概率值,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势但不具有单位根。

可选的,所述基于所述ADF检测的含常数项检测模型对所述待检测数据进行检测,得到第二类检测结果并解析,包括:

对所述待检测数据进行差分,得到第二变换数据;

基于所述ADF检测的含常数项检测模型对所述第二变换数据进行检测,得到所述第二类检测结果并解析;

所述基于所述ADF检测的不含常数项检测模型对所述待检测数据进行检测,得到第三类检测结果并解析,包括:

对所述待检测数据进行差分,得到第三变换数据;

基于所述ADF检测的不含常数项检测模型对所述第三变换数据进行检测,得到所述第三类检测结果并解析。

第二方面,本申请公开了一种时间序列数据处理装置,包括:

序列数据获取模块,用于获取原始时间序列数据,并将所述原始时间序列数据作为待检测数据;

第一检测模块,用于基于增广迪基-福勒ADF检测的含趋势项检测模型对所述待检测数据进行检测,得到第一类检测结果并解析;

第二检测模块,用于若所述第一类检测结果表征所述待检测数据不具有确定性时间趋势但具有单位根,则基于所述ADF检测的含常数项检测模型对所述待检测数据进行检测,得到第二类检测结果并解析;

第三检测模块,用于若所述第二类检测结果表征所述待检测数据不具有常数项但具有单位根,则基于所述ADF检测的不含常数项检测模型对所述待检测数据进行检测,得到第三类检测结果并解析;

第一输出模块,用于若所述第三类检测结果表征所述待检测数据不具有单位根,则将所述待检测数据输出为具有平稳性的目标时间序列数据,以基于所述目标时间序列数据进行数据处理。

可选的,所述第一检测模块还用于:在得到第一类检测结果并解析之后,若所述第一类检测结果表征所述待检测数据不具有确定性时间趋势和单位根,则将所述待检测数据输出为所述目标时间序列数据;若所述第一类检测结果表征所述待检测数据具有确定性时间趋势,则确定所述待检测数据不具有平稳性;

所述第二检测模块还用于:在得到第二类检测结果并解析之后,若所述第二类检测结果表征所述待检测数据不具有单位根,则将所述待检测数据输出为所述目标时间序列数据;若所述第二类检测结果表征所述待检测数据具有单位根,则确定所述待检测数据不具有平稳性;

所述第三检测模块还用于:得到第三类检测结果并解析之后,若所述第三类检测结果表征所述待检测数据具有单位根,则确定所述待检测数据不具有平稳性。

可选的,还包括:

数据转换模块,用于对不具有平稳性的所述待检测数据进行平稳性变换,得到第一变换数据;将所述第一变换数据作为所述待检测数据传输至所述第一检测模块。

可选的,所述数据转换模块包括:

第一转换单元,用于若所述待检测数据具有确定性时间趋势和单位根,则对所述待检测数据进行差分,得到差分结果,剔除所述差分结果中的确定性时间趋势或对所述差分结果进行差分,得到所述第一变换数据;

第二转换单元,用于若所述待检测数据具有确定性时间趋势但不具有单位根,则对所述待检测数据进行差分,得到所述第一变换数据;

第三转换单元,用于若所述待检测数据不具有确定性时间趋势但具有单位根,则对所述待检测数据进行差分,得到所述第一变换数据。

可选的,所述第一检测模块包括:

第一检测单元,用于得到第一类检测结果,所述第一类检测结果包括所述含趋势项检测模型中与确定性时间趋势对应的第一系数值、所述含趋势项检测模型中与单位根对应的第二系数值;

第一解析单元,用于将所述第一系数值和所述第二系数值分别与零进行比较;若所述第一系数值和所述第二系数值均等于零,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势但具有单位根;若所述第一系数值等于零且所述第二系数值不等于零,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势和单位根;若所述第一系数值不等于零且所述第二系数值等于零,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势和单位根;若所述第一系数值和所述第二系数值均不等于零,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势但不具有单位根。

可选的,所述第一检测模块包括:

第二检测单元,用于得到第一类检测结果,所述第一类检测结果包括第一系数值为零的第一概率值、第二系数值为零的第二概率值;所述第一系数值为所述含趋势项检测模型中与确定性时间趋势对应的系数值;所述第二系数值为所述含趋势项检测模型中与单位根对应的系数值;

第二解析单元,用于将所述第一概率值、所述第二概率值及显著性水平设定值进行比较;若所述第一概率值大于等于所述第二概率值,且所述第二概率值大于所述显著性水平设定值的最小值,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势但具有单位根;若所述第一概率值大于等于所述显著性水平设定值的最大值,且所述第二概率值小于等于所述显著性水平设定值的最小值,则确定所述第一类检测结果表征所述待检测数据不具有确定性时间趋势和单位根;若所述第一概率值大于等于所述第二概率值且小于所述显著性水平设定值的最大值,所述第二概率值小于等于所述显著性水平设定值的最小值,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势和单位根;若所述第一概率值小于所述第二概率值,则确定所述第一类检测结果表征所述待检测数据具有确定性时间趋势但不具有单位根。

第三方面,本申请公开了一种电子设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上任一所述时间序列数据处理方法的步骤。

第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述时间序列数据处理方法的步骤。

本申请中,因为并不知道待检测数据适合哪类检测模型,而含趋势项检测模型所能检测到的平稳性信息最多,不含常数项检测模型所能检测到的平稳性判定信息最少,所以在将原始时间序列作为待检测数据之后,先基于含趋势项检测模型对待检测数据进行检测,并且在检测出待检测数据不具有确定性时间趋势但具有单位根的情况下,才应用含常数项检测模型对待检测数据进行检测,在检测出待检测数据不具有常数项但具有单位根的情况下,才应用不含常数项检测模型对待检测数据进行检测,且在检测出待检测数据不具有单位根的情况下,才将待检测数据输出为具有平稳性的目标时间序列数据,在此过程中,不仅可以借助ADF三个检测模型间的关系确定待检测数据最合适的检测模型,且综合考虑确定性时间趋势、常数项、单位根对时间序列数据的平稳性影响来确定出具有平稳性的目标时间序列数据,与现有技术中只借助单位根来确定平稳性的时间序列数据相比,提高了目标时间序列数据具有平稳性的判定准确性,从而可以提高后续对时间序列数据的处理准确性。本申请提供的一种时间序列数据处理装置、电子设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请提供的时间序列数据处理方案所适用的系统框架示意图;

图2为本申请提供的一种时间序列数据处理方法流程图;

图3为本申请提供的一种具体的时间序列数据处理方法流程图;

图4为本申请提供的一种具体的时间序列数据处理方法流程图;

图5为本申请提供的一种具体的时间序列数据处理方法流程图;

图6为本申请提供的一种具体的时间序列数据处理方法流程图;

图7为本申请提供的一种具体的时间序列数据处理方法流程图;

图8为本申请提供的一种时间序列数据处理装置结构示意图;

图9为本申请提供的一种具体的时间序列数据处理装置结构示意图;

图10为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

当前,在人工智能及大数据建模分析等应用场景中,如果时间序列数据的均值没有系统的变化(无趋势)、方差没有系统变化,且严格消除了周期性变化,就可以称之是平稳的,也即时间序列数据具备平稳性。因为时间序列数据的平稳性是数据具备可分析性的一个基本要求,所以需要对时间序列数据进行平稳性处理,比如通过ADF(Augment Dickey-Fuller,增广迪基-福勒)检验来判断时间序列数据是否具有单位根进而判断时间序列数据是否是平稳性的时间序列数据。具体的,因为ADF检测具有三个检测模型,分别为不含常数项检测模型、含常数项检测模型及含趋势项检测模型,所以可以同时用三个检测模型来判断时间序列数据是否具有单位根,若其中一个检测模型的检测结果表明时间序列数据不具有单位根,则认为时间序列数据是平稳的,若三个检测模型的检测结果均表明时间序列数据具有单位根,则认定时间序列数据是非平稳的。

然而,存在单位根是时间序列数据不平稳的充分而非必要条件,所以仅仅通过ADF检测的三个检测模型来判断时间序列数据是否具有单位根进而判断时间序列数据是否具有平稳性是不准确的,从而会导致后续对时间序列数据的处理不准确。为了克服上述技术问题,本申请提供了一种时间序列数据处理方案,能够提高时间序列数据的处理准确性。

本申请的时间序列数据处理方案中,采用的系统框架具体可以参见图1所示,具体可以包括:后台服务器01和与后台服务器01建立通信连接的若干数量的用户端02。

本申请中,后台服务器01用于执行时间序列数据处理方法步骤,包括获取原始时间序列数据,并将原始时间序列数据作为待检测数据;基于ADF检测的含趋势项检测模型对待检测数据进行检测,得到第一类检测结果并解析;若第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根,则基于ADF检测的含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析;若第二类检测结果表征待检测数据不具有常数项但具有单位根,则基于ADF检测的不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析;若第三类检测结果表征待检测数据不具有单位根,则将待检测数据输出为具有平稳性的目标时间序列数据,以基于目标时间序列数据进行数据处理。

进一步的,后台服务器01中还可以设有原始时间序列数据库、第一类检测结果数据库、第二类检测结果数据库、第三类检测结果数据库及目标时间序列数据库等以保存方案运行中的相应数据。可以理解的是,经过本申请的时间序列数据处理方案对原始时间序列数据处理完毕后,得到的是具有平稳性的目标时间序列数据,这样后续对目标时间序列数据进行处理时,因为目标时间序列数据具有平稳性,所以可以保证处理结果的准确性。且本申请中,后台服务器01可以对一个或多个用户端02的时间序列数据处理请求进行响应。

图2为本申请实施例提供的一种时间序列数据处理方法流程图。参见图2所示,该时间序列数据处理方法包括:

步骤S11:获取原始时间序列数据,并将原始时间序列数据作为待检测数据。

本实施例中,原始时间序列指的是未经处理的时间序列数据,时间序列数据指的是数据在一段时间序列中的观测结果,原始时间序列数据的类型可以根据应用场景来确定,比如原始时间序列数据的类型可以为用户购买频次在一段时间序列中的观测结果、用户购买金额在一段时间序列中的观测结果、销售金额在一段时间序列中的观测结果、工件温度在一段时间序列中的观测结果、用电量在一段时间序列中的观测结果、用户网络行为在一段时间序列中的观测结果、服务器性能在一段时间序列中的观测结果等,且时间序列的跨度可以为年、月、时等,其可以根据实际需要确定。在获取原始时间序列数据之后,便可以将原始时间序列数据作为待检测数据,以便对原始时间序列数据进行后续处理。

步骤S12:基于ADF检测的含趋势项检测模型对待检测数据进行检测,得到第一类检测结果并解析。

本实施例中,因为在对时间序列数据进行处理的过程中,需要确定时间序列数据是否具有平稳性,所以本申请中需先借助ADF检测来确定时间序列数据是否具有平稳性。为了便于理解,先对ADF检测进行描述,ADF检测中有三类检测模型,分别为含趋势项检测模型、含常数项检测模型及不含常数项检测模型,假设时间序列数据为x

含常数项检测模型的样式可以如下:

不含常数项检测模型的样式可以如下:

其中,Δx

申请人对三个检测模型的样式进行分析后发现,含趋势项检测模型具有检测待检测数据是否具有常数项、确定性时间趋势、单位根的能力,含常数项检测模型具有检测待检测数据是否具有常数项及单位根的能力,而不含常数项检测模型只具有检测待检测数据是否具有单位根的能力,且常数项、确定性时间趋势及单位根均会影响待检测数据的平稳性判断结果,所以应该综合应用三个检测模型的能力来对待检测数据的平稳性进行判断,然而由于时间序列数据与三个检测模型间的匹配关系未知,也即无法预先确定是基于含趋势项检测模型,还是基于含常数项检测模型,抑或基于不含常数项检测模型来对待检测数据进行分析,所以在基于ADF检测对待检测数据进行平稳性检测的过程中可能存在误检的情况,为了避免此种情况,本实施例中可以先基于ADF检测的含趋势项检测模型对待检测数据进行检测,以充分对待检测数据中的非平稳性因素进行检测,比如判断待检测数据是否具有确定性时间趋势或单位根。应当指出,第一类检测结果的类型可以根据含常数项检测模型的具体检测方式来确定,本申请在此不做具体限定。

步骤S13:若第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根,则基于ADF检测的含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析。

本实施例中,基于ADF检测的含趋势项检测模型对待检测数据进行检测后可以确定出待检测数据是否具有确定性时间趋势和/或单位根,而平稳性的时间序列数据并不具有确定性时间趋势,且不具有单位根,所以在第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根的情况下,此时直接基于具有单位根来判定待检测数据不具有平稳性的话,可能会出现判定出错的情况,为了避免此种情况,提高平稳性的判断准确性,可以用不含趋势项的含常数项检测模型来对待检测数据进行检测,以判断待检测数据是否具有常数项和/或单位根。

步骤S14:若第二类检测结果表征待检测数据不具有常数项但具有单位根,则基于ADF检测的不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析。

本实施例中,如果基于不含常数项检测模型检测出待检测数据不具有常数项但具有单位根,则需要进一步借助不含常数项检测模型对待检测数据进行检测,以确定待检测数据是否真正具有单位根。

步骤S15:若第三类检测结果表征待检测数据不具有单位根,则将待检测数据输出为具有平稳性的目标时间序列数据,以基于目标时间序列数据进行数据处理。

本实施例中,只有在基于不含常数项检测模型检测出待检测数据不具有单位根的情况下,才能准确确定待检测数据具有平稳性,才能将待检测数据输出为具有平稳性的目标时间序列数据。

应当指出,本申请中对目标时间序列数据进行数据处理的类型可以根据实际需要确定,比如可以对目标时间序列数据所反映的规律进行分析、根据目标时间序列数据对未来一段时间序列可能出现的数据进行预测等,本申请在此不做具体限定。

本申请中,因为并不知道待检测数据适合哪类检测模型,而含趋势项检测模型所能检测到的平稳性信息最多,不含常数项检测模型所能检测到的平稳性判定信息最少,所以在将原始时间序列作为待检测数据之后,先基于含趋势项检测模型对待检测数据进行检测,并且在检测出待检测数据不具有确定性时间趋势但具有单位根的情况下,才应用含常数项检测模型对待检测数据进行检测,在检测出待检测数据不具有常数项但具有单位根的情况下,才应用不含常数项检测模型对待检测数据进行检测,且在检测出待检测数据不具有单位根的情况下,才将待检测数据输出为具有平稳性的目标时间序列数据,在此过程中,不仅可以借助ADF三个检测模型间的关系确定待检测数据最合适的检测模型,且综合考虑确定性时间趋势、常数项、单位根对时间序列数据的平稳性影响来确定出具有平稳性的目标时间序列数据,与现有技术中只借助单位根来确定平稳性的时间序列数据相比,提高了目标时间序列数据具有平稳性的判定准确性,从而可以提高后续对时间序列数据的处理准确性。

图3为本申请实施例提供的一种时间序列数据处理方法流程图。参见图3所示,该时间序列数据处理方法包括:

步骤S201:获取原始时间序列数据,并将原始时间序列数据作为待检测数据。

步骤S202:基于ADF检测的含趋势项检测模型对待检测数据进行检测,得到第一类检测结果并解析。

步骤S203:若第一类检测结果表征待检测数据不具有确定性时间趋势和单位根,则将待检测数据输出为目标时间序列数据。

步骤S204:若第一类检测结果表征待检测数据具有确定性时间趋势,则确定待检测数据不具有平稳性。

本实施例中,在基于含趋势项检测模型得到第一类检测结果并解析之后,虽然在第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根之后,还需再次基于ADF检测的含常数项检测模型对待检测数据进行检测,但在此过程中还是存在能够确定待检测数据是否具有平稳性的特殊情况,所以为了提高本申请确定时间序列数据是否具有平稳性的能力,在得到第一类检测结果并解析之后,若第一类检测结果表征待检测数据不具有确定性时间趋势和单位根,则将待检测数据输出为目标时间序列数据;若第一类检测结果表征待检测数据具有确定性时间趋势,则确定待检测数据不具有平稳性。

步骤S205:若第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根,则基于ADF检测的含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析。

步骤S206:若第二类检测结果表征待检测数据不具有单位根,则将待检测数据输出为目标时间序列数据。

步骤S207:若第二类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性。

本实施例中,在基于含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析之后,虽然在第二类检测结果表征待检测数据不具有常数项但具有单位根之后,还需基于ADF检测的不含常数项检测模型对待检测数据再次进行检测,但在此过程中还是存在能够确定待检测数据是否具有平稳性的特殊情况,所以为了提高本申请确定时间序列数据是否具有平稳性的能力,在得到第二类检测结果并解析之后,若第二类检测结果表征待检测数据不具有单位根,则可以将待检测数据输出为目标时间序列数据;若第二类检测结果表征待检测数据具有单位根,则可以确定待检测数据不具有平稳性。

步骤S208:若第二类检测结果表征待检测数据不具有常数项但具有单位根,则基于ADF检测的不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析。

步骤S209:若第三类检测结果表征待检测数据不具有单位根,则将待检测数据输出为具有平稳性的目标时间序列数据,以基于目标时间序列数据进行数据处理。

步骤S210:若第三类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性。

本实施例中,在基于不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析之后,若第三类检测结果表征待检测数据具有单位根,则可以准确确定待检测数据不具有平稳性。

可见,本实施例中,实现了对ADF检测的三个检测模型的检测能力的进一步挖掘,通过对三个检测模型的检测结果的进一步分析,可以进一步提高本申请确定时间序列数据是否具有平稳性的能力。

图4为本申请实施例提供的一种时间序列数据处理方法流程图。参见图4所示,该时间序列数据处理方法包括:

步骤S301:获取原始时间序列数据,并将原始时间序列数据作为待检测数据。

步骤S302:基于ADF检测的含趋势项检测模型对待检测数据进行检测,得到第一类检测结果并解析。

步骤S303:若第一类检测结果表征待检测数据不具有确定性时间趋势和单位根,则将待检测数据输出为目标时间序列数据。

步骤S304:若第一类检测结果表征待检测数据具有确定性时间趋势,则确定待检测数据不具有平稳性,并对待检测数据进行平稳性变换,得到第一变换数据,将第一变换数据作为待检测数据,返回步骤S302。

步骤S305:若第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根,则基于ADF检测的含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析。

步骤S06:若第二类检测结果表征待检测数据不具有单位根,则将待检测数据输出为目标时间序列数据。

步骤S307:若第二类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性,并对待检测数据进行平稳性变换,得到第一变换数据,将第一变换数据作为待检测数据,返回步骤S302。

步骤S308:若第二类检测结果表征待检测数据不具有常数项但具有单位根,则基于ADF检测的不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析。

步骤S309:若第三类检测结果表征待检测数据不具有单位根,则将待检测数据输出为具有平稳性的目标时间序列数据,以基于目标时间序列数据进行数据处理。

步骤S310:若第三类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性,并对待检测数据进行平稳性变换,得到第一变换数据,将第一变换数据作为待检测数据,返回步骤S302。

本实施例中,如果仅仅将满足平稳性判定条件的待检测数据输出为目标时间序列数据的话,虽然可以得到平稳性的时间序列数据,但从效率上看,可能达不到生成平稳性数据的要求,为了提高平稳性数据的生成效率,在确定待检测数据不具有平稳性之后,还可以对待检测数据进行平稳性变换,得到第一变换数据;将第一变换数据作为待检测数据,返回执行基于ADF检测的含趋势项检测模型对待检测数据进行检测的步骤,以通过平稳性变换来快速得到平稳性的目标时间序列数据。

应当指出,本实施例中,为了保证经过平稳性变换的数据一定是平稳性的目标时间序列数据,在得到第一变换数据之后,还需返回执行基于ADF检测的含趋势项检测模型对待检测数据进行检测的步骤,以便再次通过本申请提供的方法来得到目标时间序列数据;当然,在实际应用中,可以在对待检测数据进行平稳性变换,得到第一变换数据之后,直接将第一变换数据输出为目标时间序列数据等,本申请在此不做具体限定。

具体应用场景中,在对待检测数据进行平稳性变换,得到第一变换数据的过程中:

如果待检测数据具有确定性时间趋势和单位根,则待检测数据的数据结构的样式如下:x

其中,ddt(x

如果待检测数据具有确定性时间趋势但不具有单位根,则待检测数据的数据结构的样式如下:x

如果待检测数据不具有确定性时间趋势但具有单位根,则待检测数据的数据结构的样式如下:x

本申请实施例提供的一种时间序列数据处理方法中,对ADF检测的三个检测模型进行分析后可知,若α

本申请实施例提供的一种时间序列数据处理方法中,在基于ADF检测确定时间序列数据是否具有平稳性的过程中,常常会借助假设检验及显著性水平设定值来确定时间序列数据是否具有确定性时间趋势、单位根,且实际应用中的假设检验是基于“小概率事件不轻易发生”的逻辑设计,拒绝原假设的显著性水平设定值存在一定的主观性,常见取值包括1%、5%以及10%等,在此过程中,因为对于确定性时间趋势,是拒绝原假设确认非平稳性,而对于单位根,是接受原假设确认非平稳性,所以对确定性时间趋势和单位根检验是非对称性,这会使得显著性水平设定的主观性造成统计结论的失谨性,比如显著性水平设定值为0.05,可能会得出时间序列数据不存在单位根,也不存在确定性时间趋势的结论,这样就造成时间序列数据表面上的平稳性,但如果显著性水平设定值为0.1,可能就会得出时间序列数据存在单位根,进而判定时间序列数据是非平稳的,如果显著性水平设定值为0.01,可能会得出时间序列数据存在确定性时间趋势,同样判定时间序列数据是非平稳的。为了避免显著性水平设定值的变动影响时间序列数据平稳性的判定结果,本实施例中让显著性水平设定值自适应于检测结果,根据确定性时间趋势的存在概率值、单位根的存在概率值及显著性水平设定值的最值关系来确定待检测数据是否具有确定性时间趋势、单位根。

图6为本申请实施例提供的一种时间序列数据处理方法流程图,p

将第一概率值、第二概率值及显著性水平设定值进行比较;

若第一概率值大于等于第二概率值,且第二概率值大于显著性水平设定值的最小值,则接受了具有单位根的原假设,且接受了没有确定性时间趋势的原假设,所以相当于确定第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根;

若第一概率值大于等于显著性水平设定值的最大值,且第二概率值小于等于显著性水平设定值的最小值,则接受了没有确定性时间趋势的假设,也直接接受了具有单位根的原假设,所以相当于确定第一类检测结果表征待检测数据不具有确定性时间趋势和单位根;

若第一概率值大于等于第二概率值且小于显著性水平设定值的最大值,第二概率值小于等于显著性水平设定值的最小值,则既拒绝了没有确定性时间趋势的假设,也拒绝了有单位根的原假设,所以相当于确定第一类检测结果表征待检测数据具有确定性时间趋势和单位根;

若第一概率值小于第二概率值,则可以认为拒绝了有单位根的原假设,但同时也会拒绝没有确定性时间趋势的原假设,所以相当于确定第一类检测结果表征待检测数据具有确定性时间趋势但不具有单位根。

可见,本实施例中不设定确定性的显著性水平值,而是通过设定显著性区域,让最终使用的显著性水平自适应于检验结果,这样可以避免显著性水平设定值的波动对平稳性结论的动态影响,相当于提供了一种逻辑自洽的时间序列数据处理方法,能自适应的保证数据的非平稳性得到处理,可以应用于机器学习、人工智能等应用场景中。

图7为本申请实施例提供的一种时间序列数据处理方法流程图。参见图7所示,该时间序列数据处理方法包括:

步骤S401:获取原始时间序列数据,并将原始时间序列数据作为待检测数据。

步骤S402:基于ADF检测的含趋势项检测模型对待检测数据进行检测,得到第一类检测结果并解析。

步骤S403:若第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根,则对待检测数据进行差分,得到第二变换数据;基于ADF检测的含常数项检测模型对第二变换数据进行检测,得到第二类检测结果并解析。

步骤S404:若第二类检测结果表征待检测数据不具有常数项但具有单位根,则对待检测数据进行差分,得到第三变换数据;基于ADF检测的不含常数项检测模型对第三变换数据进行检测,得到第三类检测结果并解析。

步骤S405:若第三类检测结果表征待检测数据不具有单位根,则将待检测数据输出为具有平稳性的目标时间序列数据,以基于目标时间序列数据进行数据处理。

本实施例中,在改变检测模型来对待检测数据进行检测的过程中,为了提高待检测数据转换为平稳性的目标时间序列数据的效率,在基于ADF检测的含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析的过程中,可以对待检测数据进行差分,得到第二变换数据;基于ADF检测的含常数项检测模型对第二变换数据进行检测,得到第二类检测结果并解析;

相应的,在基于ADF检测的不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析的过程中,可以对待检测数据进行差分,得到第三变换数据;基于ADF检测的不含常数项检测模型对第三变换数据进行检测,得到第三类检测结果并解析。

下面以对用户购物行为的分析预测为例,来对本申请中的技术方案进行说明;

首先获取用户每周的购物行为,并以周作为时间序列的跨度,生成原始时间序列数据;

将原始时间序列数据作为待检测数据;基于ADF检测的含趋势项检测模型对待检测数据进行检测,得到第一类检测结果并解析;

若第一类检测结果表征待检测数据不具有确定性时间趋势和单位根,则将待检测数据输出为目标时间序列数据;

若第一类检测结果表征待检测数据具有确定性时间趋势,则确定待检测数据不具有平稳性,并对待检测数据进行平稳性变换,得到第一变换数据,将第一变换数据作为待检测数据,返回基于ADF检测的含趋势项检测模型对待检测数据进行检测的步骤;

若第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根,则基于ADF检测的含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析;若第二类检测结果表征待检测数据不具有单位根,则将待检测数据输出为目标时间序列数据;

若第二类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性,并对待检测数据进行平稳性变换,得到第一变换数据,将第一变换数据作为待检测数据,返回基于ADF检测的含趋势项检测模型对待检测数据进行检测的步骤;

若第二类检测结果表征待检测数据不具有常数项但具有单位根,则基于ADF检测的不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析;若第三类检测结果表征待检测数据不具有单位根,则将待检测数据输出为具有平稳性的目标时间序列数据,基于目标时间序列数据确定用户购物的峰值时间段、预测用户下次购物的时间点等;

若第三类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性,并对待检测数据进行平稳性变换,得到第一变换数据,将第一变换数据作为待检测数据,返回基于ADF检测的含趋势项检测模型对待检测数据进行检测的步骤。

参见图8所示,本申请实施例还相应公开的一种时间序列数据处理装置,应用于后台服务器,包括:

序列数据获取模块11,用于获取原始时间序列数据,并将原始时间序列数据作为待检测数据;

第一检测模块12,用于基于ADF检测的含趋势项检测模型对待检测数据进行检测,得到第一类检测结果并解析;

第二检测模块13,用于若第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根,则基于ADF检测的含常数项检测模型对待检测数据进行检测,得到第二类检测结果并解析;

第三检测模块14,用于若第二类检测结果表征待检测数据不具有常数项但具有单位根,则基于ADF检测的不含常数项检测模型对待检测数据进行检测,得到第三类检测结果并解析;

第一输出模块15,用于若第三类检测结果表征待检测数据不具有单位根,则将待检测数据输出为具有平稳性的目标时间序列数据,以基于目标时间序列数据进行数据处理。

在一些具体实施例中,所述第一检测模块在得到第一类检测结果并解析之后,还可以用于:若第一类检测结果表征待检测数据不具有确定性时间趋势和单位根,则将待检测数据输出为目标时间序列数据;若第一类检测结果表征待检测数据具有确定性时间趋势,则确定待检测数据不具有平稳性;

所述第二检测模块在得到第二类检测结果并解析之后,还可以用于:若第二类检测结果表征待检测数据不具有单位根,则将待检测数据输出为目标时间序列数据;若第二类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性;

所述第三检测模块在得到第三类检测结果并解析之后,还可以用于:若第三类检测结果表征待检测数据具有单位根,则确定待检测数据不具有平稳性。

请参阅图9,在一些具体实施例中,所述时间序列数据处理装置还可以包括:

数据转换模块16,用于在第一检测模块、第二检测模块、第三检测模块确定待检测数据不具有平稳性之后,对不具有平稳性的待检测数据进行平稳性变换,得到第一变换数据;将第一变换数据作为待检测数据传输至第一检测模块。

在一些具体实施例中,所述数据转换模块可以包括:

第一转换单元,用于若待检测数据具有确定性时间趋势和单位根,则对待检测数据进行差分,得到差分结果,剔除差分结果中的确定性时间趋势或对差分结果进行差分,得到第一变换数据;

第二转换单元,用于若待检测数据具有确定性时间趋势但不具有单位根,则对待检测数据进行差分,得到第一变换数据;

第三转换单元,用于若待检测数据不具有确定性时间趋势但具有单位根,则对待检测数据进行差分,得到第一变换数据。

在一些具体实施例中,所述第一检测模块可以包括:

第一检测单元,用于得到第一类检测结果,第一类检测结果包括含趋势项检测模型中与确定性时间趋势对应的第一系数值、含趋势项检测模型中与单位根对应的第二系数值;

第一解析单元,用于将第一系数值和第二系数值分别与零进行比较;若第一系数值和第二系数值均等于零,则确定第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根;若第一系数值等于零且第二系数值不等于零,则确定第一类检测结果表征待检测数据不具有确定性时间趋势和单位根;若第一系数值不等于零且第二系数值等于零,则确定第一类检测结果表征待检测数据具有确定性时间趋势和单位根;若第一系数值和第二系数值均不等于零,则确定第一类检测结果表征待检测数据具有确定性时间趋势但不具有单位根。

在一些具体实施例中,所述第一检测模块可以包括:

第二检测单元,用于得到第一类检测结果,第一类检测结果包括第一系数值为零的第一概率值、第二系数值为零的第二概率值;第一系数值为含趋势项检测模型中与确定性时间趋势对应的系数值;第二系数值为含趋势项检测模型中与单位根对应的系数值;

第二解析单元,用于将第一概率值、第二概率值及显著性水平设定值进行比较;若第一概率值大于等于第二概率值,且第二概率值大于显著性水平设定值的最小值,则确定第一类检测结果表征待检测数据不具有确定性时间趋势但具有单位根;若第一概率值大于等于显著性水平设定值的最大值,且第二概率值小于等于显著性水平设定值的最小值,则确定第一类检测结果表征待检测数据不具有确定性时间趋势和单位根;若第一概率值大于等于第二概率值且小于显著性水平设定值的最大值,第二概率值小于等于显著性水平设定值的最小值,则确定第一类检测结果表征待检测数据具有确定性时间趋势和单位根;若第一概率值小于第二概率值,则确定第一类检测结果表征待检测数据具有确定性时间趋势但不具有单位根。

在一些具体实施例中,所述第二检测模块可以具体用于:

对待检测数据进行差分,得到第二变换数据;基于ADF检测的含常数项检测模型对第二变换数据进行检测,得到第二类检测结果并解析;

所述第三检测模块可以具体用于:

对待检测数据进行差分,得到第三变换数据;基于ADF检测的不含常数项检测模型对第三变换数据进行检测,得到第三类检测结果并解析。

进一步的,本申请实施例还提供了一种电子设备。图10是根据一示例性实施例示出的电子设备20结构图,图中的内容不能被认为是对本申请的使用范围的任何限制。

图10为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的异常显示检测方法中的相关步骤。另外,本实施例中的电子设备20具体可以为服务器。

本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。

另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及视频数据223等,存储方式可以是短暂存储或者永久存储。

其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量视频数据223的运算与处理,其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的时间序列数据处理方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种时间序列数据。

进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的时间序列数据处理方法步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种时间序列数据处理方法、装置、设备及计算机介质
  • 一种新的时间序列的预测方法、装置、电子设备及计算机可读存储介质
技术分类

06120112940994