掌桥专利:专业的专利平台
掌桥专利
首页

一种时间序列数据的处理方法及装置

文献发布时间:2023-06-19 10:19:37


一种时间序列数据的处理方法及装置

技术领域

本发明涉及数据处理技术领域,具体涉及一种时间序列数据的处理方法及装置。

背景技术

随着信息技术的快速发展,人们的社会活动及各种经济活动与大数据更加密切相关,如企业在互联网技术(Internet Technology,IT)监控、系统运维时产生的大量数据,气温、工业传感器数据,各种交易系统(如证券交易系统、电子商务交易系统等)产生的海量交易数据等,这些大数据往往具有较高的商业价值,需要被用于分析,但是,由于数据的数据格式不尽相同,很难被直接拿来分析利用。

时间序列数据是大数据中常见的数据形式,是一种包含有时间戳信息,数据不一定遵循标准的数据结构(如模式定义规范的行和列)的非结构化数据,在分析利用之前,需要将时间序列数据从非结构化数据转换成为结构化数据。其中,时间序列数据以字段(field)为数据单位,不同的时间序列数据对应的非结构化数据格式不尽相同,而且时间序列数据的字段的种类和格式也多种多样。目前,市面上比较常见的将非结构化数据转换成结构化数据的方法往往都是针对某一种数据格式,难以将数据格式多样化的时间序列数据转换成统一数据格式的结构化数据。可见,现有的数据格式转换方法很难将时间序列数据转换成统一数据格式的结构化数据。

发明内容

本发明实施例公开了一种时间序列数据的处理方法及装置,用于将数据格式多样化的时间序列数据转换成统一数据格式的结构化数据。

本发明实施例第一方面公开了一种时间序列数据的处理方法,可包括:

获取时间序列数据;

从所述时间序列数据中提取时间信息,将所述时间信息对应的原始时间格式转换成预设时间格式;

提取所述时间序列数据所携带的应用程序信息;

判断是否存储有与所述应用程序信息匹配的自定义解析规则;

若存在所述自定义解析规则,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值,获得字段值对;

若不存在所述自定义解析规则,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值,获得所述字段值对;

将转换成所述预设时间格式的时间信息与所述字段值对关联存储。

作为一种可选的实施方式,在本发明实施例第一方面中,所述若存在所述自定义解析规则,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值,获得字段值对,包括:

若存在所述自定义解析规则,根据所述自定义解析规则确定所述时间序列数据中的字段与所述字段对应的字段值之间的第一分隔符、以及所述字段之间的第二分隔符;

以所述第一分隔符和所述第二分隔符为依据,从确定所述第一分隔符和所述第二分隔符后的时间序列数据中提取关键字段和所述关键字段对应的字段值,根据所述关键字段和所述关键字段对应的字段值构建得到字段值对;

所述若不存在所述自定义解析规则,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值,获得所述字段值对,包括:

若不存在所述自定义解析规则,根据内置的正则表达式规则确定所述时间序列数据中的所述字段与所述字段对应的字段值之间的所述第一分隔符、以及所述字段之间的所述第二分隔符;

以所述第一分隔符和所述第二分隔符为依据,从确定所述第一分隔符和所述第二分隔符后的时间序列数据中提取所述关键字段和所述关键字段对应的字段值,根据所述关键字段和所述关键字段对应的字段值构建得到所述字段值对。

作为一种可选的实施方式,在本发明实施例第一方面中,所述若存在所述自定义解析规则,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值,获得字段值对,包括:

若存在所述自定义解析规则,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值;

判断所述关键字段对应的字段值是否正确;

若所述关键字段对应的字段值正确,根据所述关键字段和所述关键字段对应的字段值,获得第一字段值对,将所述第一字段值对作为所述字段值对;若所述关键字段对应的字段值不正确,将预设数值作为所述关键字段对应的字段值,获得第二字段值对,将所述第二字段值对作为所述字段值对;

所述若不存在所述自定义解析规则,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值,获得所述字段值对,包括:

若不存在所述自定义解析规则,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值;

判断所述关键字段对应的字段值是否正确;

若所述关键字段对应的字段值正确,根据所述关键字段和所述关键字段对应的字段值,获得第一字段值对,将所述第一字段值对作为所述字段值对;若所述关键字段对应的字段值不正确,将所述预设数值作为所述关键字段对应的字段值,获得第二字段值对,将所述第二字段值对作为所述字段值对。

作为一种可选的实施方式,在本发明实施例第一方面中,所述从所述时间序列数据中提取时间信息,将所述时间信息对应的原始时间格式转换成预设时间格式,包括:

判断根据多种预设时间信息格式对应的正则表达式规则能否从所述时间序列数据中匹配出至少一个原始时间信息;

当匹配出所述至少一个原始时间信息时,将所述至少一个原始时间信息中时间与当前时间最接近的原始时间信息作为所述时间序列数据对应的时间信息,所述时间信息对应的时间格式为原始时间格式;

将所述时间信息对应的所述原始时间格式转换成预设时间格式,所述预设时间格式为所述多种预设时间信息格式中的某一种预设时间信息格式或者不是所述多种预设时间信息格式中的任意一种预设时间信息格式。

作为一种可选的实施方式,在本发明实施例第一方面中,所述将转换成所述预设时间格式的时间信息与所述字段值对关联存储,包括:

根据所述预设时间格式的时间信息建立索引,以根据所述预设时间格式的时间信息检索所述字段值对;或者,根据所述预设时间格式的时间信息建立索引,以将所述字段值对关联存储至数据库。

本发明实施例第二方面公开了一种时间序列数据的处理装置,可包括:

获取模块,用于获取时间序列数据;

转换模块,用于从所述时间序列数据中提取时间信息,将所述时间信息对应的原始时间格式转换成预设时间格式;

第一提取模块,用于提取所述时间序列数据所携带的应用程序信息;

判断模块,用于判断是否存储有与所述应用程序信息匹配的自定义解析规则;

第二提取模块,用于在所述判断模块确定存在所述自定义解析规则时,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值,获得字段值对;以及,在所述判断模块确定不存在所述自定义解析规则时,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值,获得所述字段值对;

存储模块,用于将转换成所述预设时间格式的时间信息与所述字段值对关联存储。

作为一种可选的实施方式,在本发明实施例第二方面中,所述第二提取模块用于在所述判断模块确定存在所述自定义解析规则时,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值,获得字段值对的方式具体为:

在所述判断模块确定存在所述自定义解析规则时,根据所述自定义解析规则确定所述时间序列数据中的字段与所述字段对应的字段值之间的第一分隔符、以及所述字段之间的第二分隔符;以及,以所述第一分隔符和所述第二分隔符为依据,从确定所述第一分隔符和所述第二分隔符后的时间序列数据中提取关键字段和所述关键字段对应的字段值,根据所述关键字段和所述关键字段对应的字段值构建得到字段值对;

所述第二提取模块用于在所述判断模块确定不存在所述自定义解析规则时,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值,获得所述字段值对的方式具体为:

在所述判断模块确定不存在所述自定义解析规则时,根据内置的正则表达式规则确定所述时间序列数据中的所述字段与所述字段对应的字段值之间的所述第一分隔符、以及所述字段之间的所述第二分隔符;以及,以所述第一分隔符和所述第二分隔符为依据,从确定所述第一分隔符和所述第二分隔符后的时间序列数据中提取所述关键字段和所述关键字段对应的字段值,根据所述关键字段和所述关键字段对应的字段值构建得到所述字段值对。

作为一种可选的实施方式,在本发明实施例第二方面中,所述第二提取模块用于在所述判断模块确定存在所述自定义解析规则时,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值,获得字段值对的方式具体为:

在所述判断模块确定存在所述自定义解析规则,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值;以及,判断所述关键字段对应的字段值是否正确;以及,若所述关键字段对应的字段值正确,根据所述关键字段和所述关键字段对应的字段值,获得第一字段值对,将所述第一字段值对作为所述字段值对;若所述关键字段对应的字段值不正确,将预设数值作为所述关键字段对应的字段值,获得第二字段值对,将所述第二字段值对作为所述字段值对;

所述第二提取模块用于在所述判断模块确定不存在所述自定义解析规则时,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值,获得所述字段值对的方式具体为:

在所述判断模块确定不存在所述自定义解析规则,根据内置的正则表达式规则从所述时间序列数据提取所述关键字段和所述关键字段对应的字段值;以及,判断所述关键字段对应的字段值是否正确;以及,若所述关键字段对应的字段值正确,根据所述关键字段和所述关键字段对应的字段值,获得第一字段值对,将所述第一字段值对作为所述字段值对;若所述关键字段对应的字段值不正确,将所述预设数值作为所述关键字段对应的字段值,获得第二字段值对,将所述第二字段值对作为所述字段值对。

作为一种可选的实施方式,在本发明实施例第二方面中,所述转换模块,具体用于判断根据多种预设时间信息格式对应的正则表达式规则能否从所述时间序列数据中匹配出至少一个原始时间信息;以及,当匹配出所述至少一个原始时间信息时,将所述至少一个原始时间信息中时间与当前时间最接近的原始时间信息作为所述时间序列数据对应的时间信息,所述时间信息对应的时间格式为原始时间格式;以及,将所述时间信息对应的所述原始时间格式转换成预设时间格式,所述预设时间格式为所述多种预设时间信息格式中的某一种预设时间信息格式或者不是所述多种预设时间信息格式中的任意一种预设时间信息格式。

作为一种可选的实施方式,在本发明实施例第二方面中,所述存储模块,具体用于根据所述预设时间格式的时间信息建立索引,以根据所述预设时间格式的时间信息检索所述字段值对;或者,根据所述预设时间格式的时间信息建立索引,以将所述字段值对关联存储至数据库。

本发明实施例第三方面公开了一种电子设备,可包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的一种时间序列数据的处理方法。

本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种时间序列数据的处理方法。

本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比,本发明实施例具有以下有益效果:

在本发明实施例中,先获取时间序列数据,从时间序列数据中提取出时间信息,将该时间信息对应的原始时间格式转换成预设时间格式,同时,还将从时间序列数据中提取所携带的应用程序信息,如果存储有与该应用程序信息匹配的自定义解析规则,根据该自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对,如果没有存储有与该应用程序信息匹配的自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,从而获得该字段值对,然后将预设时间格式的时间信息与该字段值对关联存储;可见,实施本发明实施例通过自定义解析规则或者内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得统一格式的字段值对,实现将非结构化数据中的字段提取并转为统一格式,利于转化为结构化数据,同时,时间序列数据的时间信息也将转换成统一时间格式,便于后续的查询统计,起到节省计算空间和查询时间的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一公开的时间序列数据的处理方法的流程示意图;

图2为本发明实施例二公开的时间序列数据的处理方法的流程示意图;

图3为本发明实施例公开的时间序列数据的处理装置的结构示意图;

图4为本发明又一实施例公开的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种时间序列数据的处理方法及装置,用于实现将非结构化数据中的字段提取并转为统一格式,利于转化为结构化数据,同时,时间序列数据的时间信息也将转换成统一时间格式,便于后续的查询统计,起到节省计算空间和查询时间的目的。

请参阅图1,图1为本发明实施例一公开的时间序列数据的处理方法的流程示意图;如图1所示,该时间序列数据的处理方法可包括:

101、获取时间序列数据。

其中,时间序列数据是在时间上分布的一系列数值,带有时间信息,如时间戳,这些数据按时间顺序收集,用于描述对象随时间变化的情况,包括时间序列化的传感器数据、设备参数监控数据、网页访问量数据、人流量数据等等。例如,监控系统周期性地生成各个被监控目标对象(例如应用程序)的指标数据,其时间信息表示该指标数据生成的时间,对于同一对象的指标数据,监控系统生成的指标数据的时间信息具有周期性的规律,即顺序生成的相同指标数据或指标组的相邻两条指标数据的时间信息所表示的时间的差值相同,其中,该差值即为时间序列数据的精度,差值越小,时间序列数据的精度越高,差值越大,时间序列数据的精度越低。相邻两条时间序列数据中前一条时间序列数据的时间信息所表示的时间到后一条时间序列数据的时间信息所表示的时间为该后一条时间序列数据所属的时间段。

进一步可以理解的,时间信息能够为后续进行时间序列数据分析提供了便利,避免重要时间数据的缺乏所导致的处理结果产生偏差。

102、从时间序列数据中提取时间信息,将该时间信息对应的原始时间格式转换成预设时间格式。

在一些可选的实施方式中,步骤102可以通过以下方式实现:

判断根据多种预设时间信息格式对应的正则表达式规则能否从时间序列数据中匹配出至少一个原始时间信息;

当匹配出至少一个原始时间信息时,将至少一个原始时间信息中时间与当前时间最接近的原始时间信息作为时间序列数据对应的时间信息,该时间信息对应的时间格式为原始时间格式;

将时间信息对应的原始时间格式转换成预设时间格式,该预设时间格式为多种预设时间信息格式中的某一种预设时间信息格式或者不是多种预设时间信息格式中的任意一种预设时间信息格式。

举例来说,各种预设时间信息格式对应的正则表达式规则(即预设时间信息格式)包括但不仅限于如下所示:

1998-12-31%Y-%m-%d;

98-12-31%y-%m-%d;

1998years,312days%Y years,%j days;

Jan 24,2003%b%d,%Y;

January 24,2003%B%d,%Y;

1397477611.862%s.%3N。

其中,时间序列数据可能对应多个匹配时间信息,而时间信息格式可以有很多种,本发明实施例中通过多种预设时间信息格式去匹配时间序列数据中的原始时间信息,如果存在多个匹配的原始时间信息,在本发明实施例中,选取一个作为时间序列数据对应的时间信息,具体可以是选择原始时间信息中时间与当前时间最接近的原始时间信息作为时间序列数据对应的时间信息,然后将选择出来作为时间序列数据的原始时间信息的时间信息格式转换成预设时间格式,该预设时间格式可以为预设时间信息格式中的任意一种或者除去预设时间信息格式之外的其它时间格式,本发明实施例对此不做任何限定。

举例来说,若时间序列数据匹配出3个原始时间信息,三个原始时间信息的时间信息格式分别为:%Y-%m-%d、%y-%m-%d和%B%d,%Y,其中,时间信息格式为%B%d,%Y的原始时间信息最接近当前时间,因为将时间信息格式为%B%d,%Y的原始时间信息作为时间序列数据的时间信息。预设时间格式为%Y-%m-%d,那么将时间序列数据的时间信息格式从%B%d,%Y转换成%Y-%m-%d,具体的,若时间序列数据的时间信息为January24,2003,转换格式后的时间信息为:2003-01-24。

103、提取时间序列数据所携带的应用程序信息。

其中,应用程序信息可以包括应用程序名称(App Name)。

104、判断是否存储有与应用程序信息匹配的自定义解析规则;其中,若存在,转向步骤105;若不存在,转向步骤106。

本发明实施例中,自定义解析规则存储在系统中,系统是指电子设备的操作系统,它可以包括但不限于Android操作系统、IOS操作系统、Symbian(塞班)操作系统、BlackBerry(黑莓)操作系统、Windows操作系统等等,本发明实施例不做限定。

可以理解,在真实场景中由于电子设备故障、通讯错误等问题,可能会导致时间序列数据存在很多缺失值,可选的,在执行本发明实施例步骤104之前,可以执行以下步骤:

获取包含缺失值的待处理时间序列数据和该待处理时间序列数据对应的掩膜序列数据,其中,掩膜序列数据可以与对应的待处理时间序列数据的尺寸相同,即掩膜序列数据的数据元素的数量与待处理时间序列数据相同。在掩膜序列数据中,待处理时间序列数据中缺失值对应的位置的值和待处理时间序列数据中非缺失值对应的位置的值不相同。例如,如果待处理时间序列数据中对应位置的值缺失,则掩膜序列数据中该位置的值为1;如果待处理时间序列数据中对应位置的值未缺失,则掩膜序列数据中该位置的值为0;

将待处理时间序列数据中的缺失值填充为预设数值,将填充预设数值后的待处理时间序列数据与对应的掩膜序列数据输入基于深度神经网络构建的数据填充模型,得到已填充时间序列数据,将该已填充时间序列数据作为本发明实施例的时间序列数据,然后执行步骤104;例如,预设数值可以为0,将0填充至待处理时间序列数据中的缺失位置,然后与掩膜序列数据一起输入至数据填充模型,获得填充后的已填充时间序列数据。

其中,数据填充模型可以是基于深度神经网络构建的,可以包括编码器和解码器。

通过上述实施方式,能够提升时间序列数据缺失值的填充精度,以提高后续对时间序列数据分析的准确性。

105、根据自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对。

其中,字段值对为预设格式,该预设格式为关键字段:字段值,例如field_name:field_value,从而能够将时间序列数据提取出统一格式的字段值对。

本发明实施例中,自定义解析规则是用户根据应用程序生成的时间序列数据自行编写的语法,可以对时间序列数据进行解析,获得时间序列数据的关键字段。其中,自定义解析规则可以定义若干条,依次选择自定义解析规则去匹配时间序列数据,如果自定义解析规则中存在与时间序列数据匹配的自定义解析规则,则使用该自定义解析规则的正则表达式规则对时间序列数据进行关键字段和关键字段对应的字段值进行提取,如果自定义解析规则中不存在与时间序列数据匹配的自定义解析规则,则从系统内置的正则表达式规则中挑选匹配的规则对时间数据进行解析。

作为一种可选的实施方式,在存在自定义解析规则时,根据自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对,可以包括以下步骤:

若存在该自定义解析规则,根据自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值;

判断该关键字段对应的字段值是否正确;

若关键字段对应的字段值正确,根据关键字段和关键字段对应的字段值,获得第一字段值对,将第一字段值对作为上述字段值对;若关键字段对应的字段值不正确,将预设数值作为该关键字段对应的字段值,获得第二字段值对,将第二字段值对作为上述字段值对。

可以理解,由于真实场景中电子设备的故障、同学错误等问题,时间序列数据往往会存在很多错误值,对于不正确的字段值,在本发明实施例中可以采用预设值进行填充,通过该实施方式,能够在检验出关键字段对应的字段值不正确时,填充预设值,避免丢弃掉重要的数据。

106、根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对。

其中,内置的正则表达式规则可以存储若干条,依次选择内置的正则表达式规则去匹配时间序列数据,如果内置的正则表达式规则中存在与时间序列数据匹配的正则表达式规则,则使用该正则表达式规则对时间序列数据进行关键字段和关键字段对应的字段值进行提取。

作为一种可选的实施方式,若不存在自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对,包括:

若不存在自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值;

判断该关键字段对应的字段值是否正确;

若关键字段对应的字段值正确,根据关键字段和该关键字段对应的字段值,获得第一字段值对,将第一字段值对作为上述字段值对;若关键字段对应的字段值不正确,将预设数值作为关键字段对应的字段值,获得第二字段值对,将第二字段值对作为所述字段值对。

通过该实施方式,能够在检验出关键字段对应的字段值不正确时,填充预设值,避免丢弃掉重要的数据。

107、将转换成预设时间格式的时间信息与字段值对关联存储。

在本发明实施例中,先获取时间序列数据,从时间序列数据中提取出时间信息,将该时间信息对应的原始时间格式转换成预设时间格式,同时,还将从时间序列数据中提取所携带的应用程序信息,如果存储有与该应用程序信息匹配的自定义解析规则,根据该自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对,如果没有存储有与该应用程序信息匹配的自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,从而获得该字段值对,然后将预设时间格式的时间信息与该字段值对关联存储;可见,实施本发明实施例通过自定义解析规则或者内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得统一格式的字段值对,实现将非结构化数据中的字段提取并转为统一格式,利于转化为结构化数据,同时,时间序列数据的时间信息也将转换成统一时间格式,便于后续的查询统计,起到节省计算空间和查询时间的目的。

请参阅图2,图2为本发明实施例二公开的时间序列数据的处理方法的流程示意图;如图2所示,该时间序列数据的处理方法可包括:

201、获取时间序列数据。

202、从时间序列数据中提取时间信息,将该时间信息对应的原始时间格式转换成预设时间格式。

203、提取时间序列数据所携带的应用程序信息。

204、判断是否存储有与应用程序信息匹配的自定义解析规则;其中,若存在,转向步205、207-208;若不存在,转向步骤206-208。

205、根据自定义解析规则确定时间序列数据中的字段与字段对应的字段值之间的第一分隔符、以及字段之间的第二分隔符。

本发明实施例中,时间序列数据中的字段和字段值之间的分隔符可为“:”、“=”等,本发明实施例不作限定;时间序列数据中的字段之间的分隔符可为“&”、“+”、“,”和空格等,本发明实施例不作限定。

206、根据内置的正则表达式规则确定时间序列数据中的字段与该字段对应的字段值之间的第一分隔符、以及字段之间的第二分隔符。

本发明实施例中,时间序列数据中的字段和字段值之间的分隔符可为“:”、“=”等,本发明实施例不作限定;时间序列数据中的字段之间的分隔符可为“&”、“+”、“,”和空格等,本发明实施例不作限定。

207、以第一分隔符和第二分隔符为依据,从确定第一分隔符和第二分隔符后的时间序列数据中提取关键字段和该关键字段对应的字段值,根据关键字段和关键字段对应的字段值构建得到字段值对。

208、将转换成预设时间格式的时间信息与字段值对关联存储。

可选的,步骤208可以包括:

根据预设时间格式的时间信息建立索引,以根据预设时间格式的时间信息检索字段值对;或者,根据预设时间格式的时间信息建立索引,以将字段值对关联存储至数据库。

通过上述实施方式,便于查询统计,节省计算空间和查询时间,有利于快速提取到有价值的信息。

作为一种可选的实施方式,在应用程序发生异常时,可以获取该应用程序的时间序列数据,根据自定义解析规则或者系统内置的正则表达式规则对该应用程序的时间序列数据进行字段值对提取,并将字段值对与转换成统一时间格式后的时间信息对应存储至数据库,使得专业人员可以根据字段值对呈现的信息对该应用程序进行异常分析,解决异常情况。通过该实施方式,能够在应用程序发生异常时,及时将异常数据存储下来,以便进一步对应用程序进行异常分析,解决异常问题。

可见,实施上述实施例,通过自定义解析规则或者内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得统一格式的字段值对,实现将非结构化数据中的字段提取并转为统一格式,利于转化为结构化数据,同时,时间序列数据的时间信息也将转换成统一时间格式,便于后续的查询统计,起到节省计算空间和查询时间的目的。

请参阅图3,图3为本发明实施例公开的时间序列数据的处理装置的结构示意图;如图3所示,该时间序列数据的处理装置可包括:

获取模块310,用于获取时间序列数据;

转换模块320,用于从时间序列数据中提取时间信息,将该时间信息对应的原始时间格式转换成预设时间格式;

第一提取模块330,用于提取时间序列数据所携带的应用程序信息;

判断模块340,用于判断是否存储有与应用程序信息匹配的自定义解析规则;

第二提取模块350,用于在上述判断模块340确定存在自定义解析规则时,根据自定义解析规则从时间序列数据提取关键字段和关键字段对应的字段值,获得字段值对;以及,在上述判断模块340确定不存在自定义解析规则时,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对;

存储模块360,用于将转换成预设时间格式的时间信息与字段值对关联存储。

实施上述装置,先获取时间序列数据,从时间序列数据中提取出时间信息,将该时间信息对应的原始时间格式转换成预设时间格式,同时,还将从时间序列数据中提取所携带的应用程序信息,如果存储有与该应用程序信息匹配的自定义解析规则,根据该自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对,如果没有存储有与该应用程序信息匹配的自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,从而获得该字段值对,然后将预设时间格式的时间信息与该字段值对关联存储;可见,实施本发明实施例通过自定义解析规则或者内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得统一格式的字段值对,实现将非结构化数据中的字段提取并转为统一格式,利于转化为结构化数据,同时,时间序列数据的时间信息也将转换成统一时间格式,便于后续的查询统计,起到节省计算空间和查询时间的目的。

作为一种可选的实施方式,上述第二提取模块350用于在判断模块340确定存在自定义解析规则时,根据自定义解析规则从时间序列数据提取关键字段和关键字段对应的字段值,获得字段值对的方式具体为:

在上述判断模块340确定存在自定义解析规则时,根据自定义解析规则确定时间序列数据中的字段与字段对应的字段值之间的第一分隔符、以及字段之间的第二分隔符;以及,以第一分隔符和第二分隔符为依据,从确定第一分隔符和第二分隔符后的时间序列数据中提取关键字段和关键字段对应的字段值,根据关键字段和关键字段对应的字段值构建得到字段值对。

上述第二提取模块350用于在判断模块340确定不存在自定义解析规则时,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对的方式具体为:

在判断模块340确定不存在自定义解析规则时,根据内置的正则表达式规则确定时间序列数据中的字段与字段对应的字段值之间的第一分隔符、以及字段之间的第二分隔符;以及,以第一分隔符和第二分隔符为依据,从确定第一分隔符和第二分隔符后的时间序列数据中提取关键字段和关键字段对应的字段值,根据关键字段和关键字段对应的字段值构建得到字段值对。

通过上述实施方式,通过自定义解析规则或者内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得统一格式的字段值对,实现将非结构化数据中的字段提取并转为统一格式。

作为一种可选的实施方式,上述第二提取模块350用于在判断模块340确定存在自定义解析规则时,根据自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对的方式具体为:

在判断模块340确定存在自定义解析规则,根据自定义解析规则从时间序列数据提取关键字段和该关键字段对应的字段值;以及,判断关键字段对应的字段值是否正确;以及,若关键字段对应的字段值正确,根据关键字段和关键字段对应的字段值,获得第一字段值对,将第一字段值对作为字段值对;若关键字段对应的字段值不正确,将预设数值作为关键字段对应的字段值,获得第二字段值对,将第二字段值对作为字段值对;

上述第二提取模块350用于在判断模块340确定不存在自定义解析规则时,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值,获得字段值对的方式具体为:

在判断模块340确定不存在自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和该关键字段对应的字段值;以及,判断关键字段对应的字段值是否正确;以及,若关键字段对应的字段值正确,根据关键字段和该关键字段对应的字段值,获得第一字段值对,将第一字段值对作为字段值对;若关键字段对应的字段值不正确,将预设数值作为关键字段对应的字段值,获得第二字段值对,将第二字段值对作为字段值对。

通过上述实施方式,对于不正确的字段值,在本发明实施例中可以采用预设值进行填充,通过该实施方式,能够在检验出关键字段对应的字段值不正确时,填充预设值,避免丢弃掉重要的数据

作为一种可选的实施方式,上述转换模块320,具体用于判断根据多种预设时间信息格式对应的正则表达式规则能否从时间序列数据中匹配出至少一个原始时间信息;以及,当匹配出至少一个原始时间信息时,将至少一个原始时间信息中时间与当前时间最接近的原始时间信息作为时间序列数据对应的时间信息,该时间信息对应的时间格式为原始时间格式;以及,将时间信息对应的原始时间格式转换成预设时间格式,该预设时间格式为多种预设时间信息格式中的某一种预设时间信息格式或者不是多种预设时间信息格式中的任意一种预设时间信息格式。

通过实施上述实施方式,能够获取较为准确的时间序列时间的时间信息,以提高数据分析的准确性。

作为一种可选的实施方式,存储模块360,具体用于根据预设时间格式的时间信息建立索引,以根据预设时间格式的时间信息检索字段值对;或者,根据预设时间格式的时间信息建立索引,以将字段值对关联存储至数据库。

通过上述实施方式,便于查询统计,节省计算空间和查询时间,有利于快速提取到有价值的信息。

请参阅图4,图4为本发明又一实施例公开的电子设备的结构示意图;图4所示的电子设备可包括:至少一个处理器410,例如CPU,通信总线430用于实现这些组件之间的通信连接。存储器420可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器420可选的还可以是至少一个位于远离前述处理器410的存储装置。其中,处理器410可以结合图3所描述的电子设备,存储器410中存储一组程序代码,且处理器410调用存储器420中存储的程序代码,用于执行以下操作:

获取时间序列数据;从时间序列数据中提取时间信息,将时间信息对应的原始时间格式转换成预设时间格式;提取时间序列数据所携带的应用程序信息;判断是否存储有与应用程序信息匹配的自定义解析规则;若存在自定义解析规则,根据自定义解析规则从时间序列数据提取关键字段和关键字段对应的字段值,获得字段值对;若不存在自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和关键字段对应的字段值,获得字段值对;将转换成预设时间格式的时间信息与字段值对关联存储。

作为一种可选的实施方式,上述处理器410还用于执行以下步骤:

若存在自定义解析规则,根据自定义解析规则确定时间序列数据中的字段与字段对应的字段值之间的第一分隔符、以及字段之间的第二分隔符;以第一分隔符和第二分隔符为依据,从确定第一分隔符和第二分隔符后的时间序列数据中提取关键字段和关键字段对应的字段值,根据关键字段和关键字段对应的字段值构建得到字段值对;以及,若不存在自定义解析规则,根据内置的正则表达式规则确定时间序列数据中的字段与字段对应的字段值之间的第一分隔符、以及字段之间的第二分隔符;以第一分隔符和第二分隔符为依据,从确定第一分隔符和第二分隔符后的时间序列数据中提取关键字段和关键字段对应的字段值,根据关键字段和关键字段对应的字段值构建得到字段值对。

作为一种可选的实施方式,上述处理器410还用于执行以下步骤:

若存在所述自定义解析规则,根据所述自定义解析规则从所述时间序列数据提取关键字段和所述关键字段对应的字段值;判断所述关键字段对应的字段值是否正确;若所述关键字段对应的字段值正确,根据所述关键字段和所述关键字段对应的字段值,获得第一字段值对,将所述第一字段值对作为所述字段值对;若所述关键字段对应的字段值不正确,将预设数值作为所述关键字段对应的字段值,获得第二字段值对,将所述第二字段值对作为所述字段值对;

以及,若不存在自定义解析规则,根据内置的正则表达式规则从时间序列数据提取关键字段和关键字段对应的字段值;判断关键字段对应的字段值是否正确;若关键字段对应的字段值正确,根据关键字段和关键字段对应的字段值,获得第一字段值对,将第一字段值对作为字段值对;若关键字段对应的字段值不正确,将预设数值作为关键字段对应的字段值,获得第二字段值对,将第二字段值对作为字段值对。

作为一种可选的实施方式,上述处理器410还用于执行以下步骤:

判断根据多种预设时间信息格式对应的正则表达式规则能否从时间序列数据中匹配出至少一个原始时间信息;当匹配出至少一个原始时间信息时,将至少一个原始时间信息中时间与当前时间最接近的原始时间信息作为时间序列数据对应的时间信息,该时间信息对应的时间格式为原始时间格式;将时间信息对应的原始时间格式转换成预设时间格式,该预设时间格式为多种预设时间信息格式中的某一种预设时间信息格式或者不是多种预设时间信息格式中的任意一种预设时间信息格式。

作为一种可选的实施方式,上述处理器410还用于执行以下步骤:

根据预设时间格式的时间信息建立索引,以根据预设时间格式的时间信息检索字段值对;或者,根据预设时间格式的时间信息建立索引,以将字段值对关联存储至数据库。

本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行图1至图2公开的一种时间序列数据的处理方法。

本发明实施例还公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行图1至图2公开的任意一种方法的部分或全部步骤。

本发明实施例还公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行图1至图2公开的任意一种方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种时间序列数据的处理方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 时间序列数据处理装置、时间序列数据处理系统以及时间序列数据处理方法
  • 一种时间序列数据的处理方法、装置及设备
技术分类

06120112502470