掌桥专利:专业的专利平台
掌桥专利
首页

时间序列数据的特征衍生方法、装置及电子设备

文献发布时间:2023-06-19 11:42:32


时间序列数据的特征衍生方法、装置及电子设备

技术领域

本发明涉及数据特征衍生技术领域,尤其是涉及一种时间序列数据的特征衍生方法、装置及电子设备。

背景技术

大数据技术的快速发展使电商平台、银行等企业积累了大量的时间序列数据,这些时间序列数据具有很多隐藏价值,在电商用户购买推荐、银行交易反欺诈中发挥重要作用。目前,时间序列数据主要用于机器学习中,在实际应用中,由于时间序列数据的原始特征较少,因此需要人工进行特征转换、聚合等,以此来生成具有建模价值的衍生特征,然而这一过程需要投入大量的专业人力,不仅提高了衍生特征的开发成本,还导致衍生特征的开发效率较低。

发明内容

有鉴于此,本发明的目的在于提供一种时间序列数据的特征衍生方法、装置及电子设备,可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。

第一方面,本发明实施例提供了一种时间序列数据的特征衍生方法,包括:获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据;根据接收到的规则参数生成目标聚合规则;利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征。

在一种实施方式中,所述规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种;所述根据接收到的规则参数生成目标聚合规则的步骤,包括:从所述原始时间序列数据所包含的特征类型中确定待聚合特征类型;通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;基于所述待聚合基础特征,所述目标时间窗口长度、所述目标观察点偏移量和所述目标聚合函数生成所述目标聚合规则。

在一种实施方式中,所述通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数的步骤,包括:通过第一预设界面以列表形式展示候选时间窗口长度,以提示用户从所述候选时间窗口长度中选择目标时间窗口长度;以及,通过第一预设界面以列表形式展示候选观察点偏移量,以提示用户从所述候选观察点偏移量中选择目标观察点偏移量;以及,通过第一预设界面以列表形式展示候选聚合函数,以提示用户从所述候选聚合函数中选择目标聚合函数。

在一种实施方式中,所述利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征的步骤,包括:对于每个所述观察点序列数据,根据该观察点序列数据、所述目标时间窗口长度和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间序列数据;利用所述目标聚合函数对所述目标时间序列数据中所述待聚合特征类型对应的特征进行特征分析处理,得到所述原始时间序列数据的衍生特征。

在一种实施方式中,所述根据该观察点序列数据、所述目标时间窗口长度和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间序列数据的步骤,包括:根据该观察点序列数据和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间点;以所述目标时间点作为起点或终点,按照所述目标时间窗口长度从所述原始时间序列数据中确定目标时间序列数据。

在一种实施方式中,所述原始时间序列数据包括第一主键字段、行为字段和第一时间戳字段;所述观察点序列数据包括第二主键字段和第二时间戳字段。

在一种实施方式中,通过第二预设界面展示所述衍生特征。

第二方面,本发明实施例提供了一种时间序列数据的特征衍生装置,包括:获取模块,用于获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据;目标聚合规则生成模块,用于根据接收到的规则参数生成目标聚合规则;特征分析模块,用于利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征。

第三方面,本发明实施例还提供一种电子设备,包括存储器以及处理器;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面和第二方面任一项所述的方法的步骤。

第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述第一方面和第二方面任一项所述的方法。

本发明实施例提供的一种时间序列数据的特征衍生方法及装置,首先获取原始时间序列数据和观察点序列数据,其中,观察点序列在原始时间序列数据上选取,然后,利用规则参数生成目标聚合规则,最后利用生成的目标聚合规则在原始时间序列数据和观察点序列数据进行特征分析,得到衍生特征。上述方法能够通过规则参数的设置,配置目标聚合规则,进而通过该目标聚合规则生成所需的衍生特征,本发明实施例可以根据规则参数快速、批量生成时间序列数据的衍生特征,不仅可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种时间序列数据的特征衍生方法的流程示意图;

图2为本发明实施例提供的一种时间序列数据的图像输入界面示意图;

图3为本发明实施例提供的一种时间窗口特征聚合计算示意图;

图4为本发明实施例提供的一种时间序列数据的特征衍生方法应用示意图;

图5为本发明实施例提供的一种时间序列数据的特征衍生装置的结构示意图;

图6本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前,特征衍生工作主要是通过工作人员手工完成,先对时间序列数进行观察和分析,然后根据自身掌握的知识和经验编写相应代码,以此生成特定的衍生特征,这种利用手工完成的特征衍生工作,需要投入大量的专业人力物力,衍生特征的开发成本较高且工作将较大。基于此,本发明实施例提供了一种时间序列数据的特征衍生方法、装置及电子设备,可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种时间序列数据的特征衍生方法进行详细介绍,具体参见图1所示的一种时间序列数据的特征衍生方法的流程示意图,该方法主要包括以下步骤:

步骤S102,获取待处理的原始时间序列数据和原始时间序列数据中的至少一个观察点序列数据。在实际应用中,从企业从后台获取原始时间序列数据,比如,银行、电商平台等。这些原始时间序列数据包含丰富的信息和富含建模价值的衍生特征,再根据业务需要或实际需求从这些原始时间序列数据中选取观察点序列数据,观察点序列数据可以是一个,也可以是多个。

步骤S104,根据接收到的规则参数生成目标聚合规则。在实际应用中,通过用户图形界面将规则参数输入,然后利用规则参数生成目标聚合规则。其中,规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种。

步骤S106,利用目标聚合规则对原始时间序列数据和各个观察点序列数据进行特征分析处理,得到原始时间序列数据的衍生特征。在一种实施方式中,生成目标聚合规则以后,利用该目标聚合规则对原始时间序列和选取的观察点序列数据进行处理,最终得到原始时间序列数据对应的衍生特征。在实际应用中,可以计算T时刻过去或者未来的某一时间段内某个行为值的聚合量,即最大、最小、平均、计算等。比如,对于T时刻过去3天的流量的最大值,对于T时刻过去3小时CPU负载的平均值。也可以对较为复杂的进行计算,比如,对于T时刻过去5天当前时刻流量平均值,则需要计算两次,先计算出所有天内当前时刻的流量,再计算过去5天当前时刻的流量值。

本发明实施例提供的一种时间序列数据的特征衍生方法,能够通过规则参数的设置,配置目标聚合规则,进而通过该目标聚合规则生成所需的衍生特征,本发明实施例可以根据规则参数快速、批量生成时间序列数据的衍生特征,不仅可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。

在一种实施方式中,规则参数包括待聚合基础特征、时间窗口长度、观察点便宜量、聚合函数中的一种或多种,基于上述步骤S104,本发明还提供了一种根据接收到的规则参数生成目标聚合规则的实施方式,包括;从原始时间序列数据所包含的特征类型中确定待聚合特征类型;通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;基于待聚合基础特征,目标时间窗口长度、目标观察点偏移量和目标聚合函数生成目标聚合规则。在实际应用中,利用图像输入界面输入规则参数,具体参见图2所示的一种图像输入界面示意图。分别通过特征窗口、时间窗口、观察点便宜窗口和聚合函数窗口输入预先设置的规则参数,最终生成目标聚合规则。其中,特征是从原始时间序列中选取的并确定为待聚合特征,可以根据实际业务需要和要求进行选取。另外,依据各种规则参数生成目标聚合规则的同时,还能生成新的衍生特征名称和衍生逻辑的说明文档,供使用者参阅。

为了清晰的展示目标聚合特征的生成过程,本发明还提供一种时间窗口特征聚合计算过程,具体参图3所示的一种时间窗口特征聚合计算示意图。首先获取原始时间序列数据D

基于此,本发明还提供一种通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数的实施方式,包括:通过第一预设界面以列表形式展示候选时间窗口长度,以提示用户从候选时间窗口长度中选择目标时间窗口长度;以及,通过第一预设界面以列表形式展示候选观察点偏移量,以提示用户从候选观察点偏移量中选择目标观察点偏移量;以及,通过第一预设界面以列表形式展示候选聚合函数,以提示用户从候选聚合函数中选择目标聚合函数。在实际应用中,第一预设界面向用户展示候选时间窗口长度、候选观察点偏移量、候选聚合函数,用户通过界面展示和提示,再结合实际需求分别选取目标时间窗口长度、目标观察点偏移量和目标聚合函数。

为了便于理解,本发明还提供了一种利用目标聚合规则对原始时间序列数据和各个观察点序列数据进行特征分析处理,得到原始时间序列数据的衍生特征的实施方式,包括:对于每个观察点序列数据,根据该观察点序列数据、目标时间窗口长度和目标观察点偏移量,从原始时间序列数据中确定目标时间序列数据;利用目标聚合函数对目标时间序列数据中待聚合特征类型对应的特征进行特征分析处理,得到原始时间序列数据的衍生特征。在实际应用中,需要从原始时间序列数据中选取部分作为目标时间序列数据,选取的依据是观察点序列数据、目标时间窗口长度和观察点偏移量,再利用目标聚合规则对目标时间序列数据进行分析处理。

本发明还提供一种根据该观察点序列数据、目标时间窗口长度和目标观察点偏移量,从原始时间序列数据中确定目标时间序列数据的实施方式,包括:根据该观察点序列数据和目标观察点偏移量,从原始时间序列数据中确定目标时间点;以目标时间点作为起点或终点,按照目标时间窗口长度从原始时间序列数据中确定目标时间序列数据。比如,在实际应用中,根据业务需要或实际需求,确定观察点时刻为t

在一种实施方式中,原始时间序列数据包括第一主键字段、行为字段和第一时间戳字段;观察点序列数据包括第二主键字段和第二时间戳字段。其中,第一时间戳字段主要用于记录第一主键字段原始时间序列在某个时间产生的某种行为;第二时间戳字段主要用于指定特征基准,比如,根据T时刻可以得到T-1时刻和T+1时刻等相对应的时刻。

在一种实施方式中,通过第二预设界面展示衍生特征。在实际应用中,将衍生特征向用户展示,以便获取分析结果。

为了便于理解,本发明提供一种时间序列数据的特征衍生方法应用示例,具体参见如图4所示的一种时间序列数据的特征衍生方法应用示意图。步骤S402,开始。步骤S404,导入原始时间序列数据和观察点时间序列数据。步骤S406,批量生成时间窗口聚合规则。步骤S408,应用聚合规则得到一组衍生特征。具体衍生示例如下:其中,原始序列数据、观测点序列数据、配置参数、输出结果、最终输出结果分别如表1、表2、表3、表4、表5所示。

表1原始时间序列数据

表2观察点序列数据

需要注意的是,观测点的行数等于最终输出结果的行数。

表3配置参数

表3所示的两条规则表示的是,最终会输出两个衍生特征。特征1用于输出观测点之前(偏移量为0)2个单位时间内网站流量的平均值。特征2用于输出观测点前一个时间单位(偏移量为1)之前的3个单位时间单位内网站流量的平均值。

表4输出结果

根据表4可以看出,由于配置参数是2行,所示最终的输出结果需要在观测点序列数据上新增两列。

表5最终输出结果

综上所述,本发明提供的时间序列数据的特征衍生方法,首先获取原始时间序列数据,并在原始时间序列数据中选取一个或多个观察点序列数据,然后利用预先配置好的规则参数生成目标聚合规则,最后利用生成的目标聚合规则对原始序列数据序列和观察点序列数据进行分析,得到衍生特征。本发明实施例通过上述方法可以降低人工开发的工作量和节省计算时间,提高特征衍生的效率。

基于前述实施例所提供的时间序列数据的特征衍生方法,本发明实施提供了一种时间序列数据的特征衍生方法的装置,参见图5所示的一种时间序列数据的特征衍生装置的结构示意图,装置至少包括以下部分:

获取模块502,用于获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据。

目标聚合规则生成模块504,用于根据接收到的规则参数生成目标聚合规则。

特征分析模块506,用于利用目标聚合规则对原始时间序列数据和各个观察点序列数据进行特征分析处理,得到原始时间序列数据的衍生特征。

本发明实施例提供的时间序列数据的特征衍生装置,能够通过规则参数的设置,配置目标聚合规则,进而通过该目标聚合规则生成所需的衍生特征,本发明实施例可以根据规则参数快速、批量生成时间序列数据的衍生特征,不仅可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。

在一种实施方式中,规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种,目标聚合规则生成模块504还用于:从原始时间序列数据所包含的特征类型中确定待聚合特征类型;通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;基于待聚合基础特征,目标时间窗口长度、目标观察点偏移量和目标聚合函数生成目标聚合规则。

在一种实施方式中,目标聚合规则生成模块504还用于,通过第一预设界面以列表形式展示候选时间窗口长度,以提示用户从候选时间窗口长度中选择目标时间窗口长度;以及,通过第一预设界面以列表形式展示候选观察点偏移量,以提示用户从候选观察点偏移量中选择目标观察点偏移量;以及,通过第一预设界面以列表形式展示候选聚合函数,以提示用户从候选聚合函数中选择目标聚合函数。

在一种实施方式中,特征分析模块506还用于:对于每个观察点序列数据,根据该观察点序列数据、目标时间窗口长度和目标观察点偏移量,从原始时间序列数据中确定目标时间序列数据;利用目标聚合函数对目标时间序列数据中待聚合特征类型对应的特征进行特征分析处理,得到原始时间序列数据的衍生特征。

在一种实施方式中,特征分析模块506还用于:根据该观察点序列数据和目标观察点偏移量,从原始时间序列数据中确定目标时间点;以目标时间点作为起点或终点,按照目标时间窗口长度从原始时间序列数据中确定目标时间序列数据。

在一种实施方式中,原始时间序列数据包括第一主键字段、行为字段和第一时间戳字段;观察点序列数据包括第二主键字段和第二时间戳字段。

在一种实施方式中,通过第二预设界面展示衍生特征。

本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

本发明实施例提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图6本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。

其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。

处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 时间序列数据的特征衍生方法、装置及电子设备
  • 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
技术分类

06120113022970