掌桥专利:专业的专利平台
掌桥专利
首页

一种指标数据的实时处理方法及大数据云平台

文献发布时间:2023-06-19 12:02:28


一种指标数据的实时处理方法及大数据云平台

技术领域

本申请涉及数据处理技术领域,特别涉及一种指标数据的实时处理方法及大数据云平台。

背景技术

随着经济的快速发展,银行业对银行产品指标数据获取的时效性要求越来越高。

随着Storm、Spark、Apache等新兴工具和技术的推广应用,所以银行也开始使用这些新兴的工具和技术进行数据的自动化处理,从而逐步地实现对简单的银行产品的资产变动实时数据的获取。

但是对于复杂的银行产品关键绩效指标数据的计算过程,由于涉及较多的业务组件和待处理数据等,需要对代理待处理数据进行查找获取,以及进行整合,然后再进行统计计算,所以使用现有的方式,获取这些数据的周期性较长,无法有效地保证指标的时效性。

发明内容

基于上述现有技术的不足,本申请提供了一种指标数据的实时处理方法及大数据云平台,以解决现有技术无法有效地保证指标的时效性的问题。

为了实现上述目的,本申请提供了以下技术方案:

本申请第一方面提供了一种指标数据的实时处理方法,应用于大数据云平台,其中,所述大数据云平台至少包括数据采集组件、流计算组件以及指标工厂,所述数据处理方法,包括:

所述数据采集组件采集实时数据;

所述流计算组件对所述实时数据进行预处理,得到事实表;其中,所述事实表中存储有对所述实时数据进行预处理后得到的待处理数据;

所述指标工厂基于配置的统计维度和度量字段的信息,将所述事实表与维度表进行关联,得到关联数据;其中,所述关联数据包括所述事实表以及所述维度表中存储的数据;所述统计维度和度量字段的信息通过所述指标工厂进行配置;

所述指标工厂将所述关联数据传递给所述流计算组件;

所述流计算组件基于所述指标工厂配置的指标定义信息,对所述关联数据进行汇总计算,得到关键指标。

可选地,在上述提供的方法中,所述数据采集组件采集实时数据,包括:

所述数据采集组件将事件驱动架构提供的实时消息数据采集至Kafka中;其中,所述实时数据包括实时流水数据和实时维度数据;所述维度表包括预加载维度表以及存储所述实时维度数据的实时维度表;

其中,所述流计算组件对所述实时数据进行预处理,得到事实表,包括:

所述流计算组件对所述实时流水数据进行预处理,得到事实表。

可选地,在上述提供的方法中,所述大数据云平台还包括MPP数据库以及Hbase数据库,所述指标工厂基于配置的统计维度和度量字段的信息,将所述事实表与维度表进行关联,得到关联数据之前,还包括:

MPP数据库同步Greenplum数据库中的所述预加载维度表,并将所述预加载维度表同步至所述Hbase数据库;

所述流计算组件对所述实时维度数据进行预处理,得到所述实时维度表,并将所述实施维度表存储至所述Hbase数据库。

可选地,在上述提供的方法中,所述流计算组件对所述待处理数据进行预处理,得到事实表,包括:

所述流计算组件将所述待处理数据解析为表格数据,并从所述表格数据提取出指定字段的数据,组成事实表。

可选地,在上述提供的方法中,所述指标工厂将所述事实表与维度表进行关联,得到关联数据,包括:

将所述维度表封装进第一容器中,以及将关联字段信息封装进第二容器中;其中,所述关联字段信息同时存储于所述事实表与所述维度表中;

通过将所述第一容器与第二容器进行关联,从所述事实表以及所述维度表中的多条目标数据中抽取出多个字段的数据,组成关联数据;其中,所述目标数据指代包含所述关联字段信息的数据。

可选地,在上述提供的方法中,所述流计算组件基于所述指标工厂配置的指标定义信息,对所述关联数据进行汇总计算,得到关键指标之前,还包括:

所述指标工厂通过调用应用程序接口将数据源信息、目标表信息、算子信息以及作业配置信息传递给所述流计算组件;

所述流计算组件基于所述数据源信息、所述目标表信息、所述算子信息以及所述作业配置信息,形成一条流计算作业;其中,所述流计算作业在启动时,执行所述基于所述指标工厂配置的指标定义信息,对所述关联数据进行汇总计算,得到关键指标。

可选地,在上述提供的方法中,所述流计算组件基于所述指标工厂配置的指标定义信息,对所述关联数据进行汇总计算,得到关键指标之后,还包括:

所述流计算组件依据所述指标工厂定义的目标表字段的映射关系,将所述关键指标存储至数据库中,以供前端进行展示。

本申请第二方面提供了一种大数据云平台,包括:

数据采集组件,用于采集实时数据;

指标工厂,用于配置统计维度和度量字段的信息,以及用于基于配置的统计维度和度量字段的信息,将所述事实表与维度表进行关联,得到关联数据,并将所述关联数据传递给所述流计算组件;其中,所述关联数据包括所述事实表以及所述维度表中存储的数据;

流计算组件,用于对所述实时数据进行预处理,得到事实表,以及用于基于所述指标工厂配置的指标定义信息,对所述关联数据进行汇总计算,得到关键指标;其中,所述事实表中存储有对所述实时数据进行预处理后得到的待处理数据。

可选地,在上述提供的大数据云平台中,所述数据采集组件采集实时数据时,用于:

将事件驱动架构提供的实时消息数据采集至Kafka中;其中,所述实时数据包括实时流水数据和实时维度数据;所述维度表包括预加载维度表以及存储所述实时维度数据的实时维度表;

其中,所述流计算组件对所述实时数据进行预处理,得到事实表时,用于:

对所述实时流水数据进行预处理,得到事实表。

可选地,在上述提供的大数据云平台中,还包括:MPP数据库以及Hbase数据库;

所述MPP数据库,用于同步Greenplum数据库中的所述预加载维度表,并将所述预加载维度表同步至所述Hbase数据库;

所述Hbase数据库,用于存储所述流计算组件对所述实时维度数据进行预处理,得到的所述实时维度表,以及存储所述MPP数据库同步的所述预加载维度表。

可选地,在上述提供的大数据云平台中,所述流计算组件对所述待处理数据进行预处理,得到事实表时,用于:

将所述待处理数据解析为表格数据,并从所述表格数据提取出指定字段的数据,组成事实表。

可选地,在上述提供的大数据云平台中,所述指标工厂将所述事实表与维度表进行关联,得到关联数据时,用于:

将所述维度表封装进第一容器中,以及将关联字段信息封装进第二容器中;其中,所述关联字段信息同时存储于所述事实表与所述维度表中;

通过将所述第一容器与第二容器进行关联,从所述事实表以及所述维度表中的多条目标数据中抽取出多个字段的数据,组成关联数据;其中,所述目标数据指代包含所述关联字段信息的数据。

可选地,在上述提供的大数据云平台中,所述指标工厂,还用于:

通过调用应用程序接口将数据源信息、目标表信息、算子信息以及作业配置信息传递给所述流计算组件。

可选地,在上述提供的大数据云平台中,所述流计算组件,还用于:

基于所述数据源信息、所述目标表信息、所述算子信息以及所述作业配置信息,形成一条流计算作业;其中,所述流计算作业在启动时,执行所述基于所述指标工厂配置的指标定义信息,对所述关联数据进行汇总计算,得到关键指标。

可选地,在上述提供的大数据云平台中,所述流计算组件,还用于:

依据所述指标工厂定义的目标表字段的映射关系,将所述关键指标存储至数据库中,以供前端进行展示。

本申请提供的一种指标数据的实时处理方法,应用于大数据云平台,其中,大数据云平台至少包括数据采集组件、流计算组件以及指标工厂。本申请实施例提供的数据处理方法,通过数据采集组件采集实时数据,并由流计算组件对实时数据进行预处理,得到存储待处理数据的事实表。并且,通过指标工厂进行配置了统计维度和度量字段,从而指标工厂基于配置的统计维度和度量字段的信息,将事实表与维度表进行关联,得到关联数据,从而实现数据的快速整合。最后指标工厂将所述关联数据传递给所述流计算组件,由流计算组件基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,得到关键指标。从而利用了流计算组件快速计算的特性,并且通过指标工厂进行信息配置简化的流计算组件的工作,可有效地提供对数据的处理效率,从而保证数据的时效性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种指标数据的实时处理方法的流程图;

图2为本申请另一实施例提供的一种表关联的方法的流程图;

图3为本申请另一实施例提供的另一种指标数据的实时处理方法的流程图;

图4为本申请另一实施例提供的一种大数据云平台的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例提供了一种指标数据的实时处理方法,应用于大数据云平台。其中,大数据云平台至少包括采集组件、流计算组件以及指标工厂。如图1所示,本申请实施例提供的指标数据的实时处理方法,包括以下步骤:

S101、数据采集组件采集实时数据。

可选地,可以将采集的实时数据存储至Kafka中,以能实现数据原封不动的落地。其中,Kafka由Apache软件基金会开发的一个开源流处理平台,

可选地,可以采用即事件驱动架构(Event-Driven Architecture,EDA)技术实施监控产品组件产生的实时数据,然后将产生的实时数据提供给数据采集组件,并有数据采集组件将实时数据存储至Kafka中。

S102、流计算组件对实时数据进行预处理,得到事实表;事实表中存储有对实时数据进行预处理后得到的待处理数据。

需要说明的是,由于可能只需要对实时数据中的部分数据进行处理,需对数据进行抽取。并且,实时数据中可能存在格式不统一的数据,或者当前格式无法进行处理的情况,需要对实时数据进行格式转化,以授权流水topic为例需要将13或20位数字的时间戳字段,转化为流计算组件可接受的是标准timestamp,供后续使用。所以由于上述等问题的存在,就需要先对实时数据进行预处理。其中,预处理具体可以包括格式转化、数据清洗、数据抽取等。在对实时数据进行处理后,将所得到的用于后续处理的数据作为待处理数据。

可选地,本申请另一实施例中,步骤S102的一种具体实施方式,包括:

流计算组件将待处理数据解析为表格数据,并从表格数据提取出指定字段的数据,组成事实表。

需要说明的是,由于本申请实施例中是以表格的形式对数据进行处理,并且只需要对部分数据间处理,所以需要将待处理数据解析为表格数据,并从表格数据提取出指定字段的数据,组成事实表。例如,若实时数据为由EDA提供的json格式的数据,则需要将json格式的实时数据解析为表格数据,即解析为表格格式的数据。然后可以从表格数据中提取处理需要的字段中的数据,例如,分期金额、分期类型等字段。

可选地,指定字段可以通过指标工厂进行配置。并且,所得到的事实表还可以先存储至kafka中,在后续需要用到时,再从中提取出来。

S103、指标工厂基于配置的统计维度和度量字段的信息,将事实表与维度表进行关联,得到关联数据。

其中,关联数据包括事实表以及维度表中存储的数据。统计维度和度量字段的信息通过指标工厂进行配置。具体的关联方式可以通过自定义的方式进行定义。

需要说明的是,在本申请实施例中,先通过指标工厂配置维度表和事实表两者的统计维度和度量字段的信息,通过统计维度和度量字段的信息就可以确定需要对维度表和事实表中的哪些字段中的数据,以哪种统计维度进行统计。

还需要说明的是,由于在统计算指定的关键指标时,可能用到的数据部分存在于事实表中,而部分存在于维度表中,所以需要将事实表与相应的维度表进行关联,得到关联数据,即可以理解为通过关联的方式获得计算提取出计算所需的所有数据。由此可知,事实表中也可能包含有计算所需的所有数据,此时是不需要与维度表进行关联的,所以此时步骤S103可以是将事实表,以一个空的维度表进行关联得到关联数据,即只从事实表中提取出数据执行后续的步骤S105。

可选地,本申请另一实施例中,步骤S103的一种具体实施方式,如图2所示,具体包括以下步骤:

S201、将维度表封装进第一容器中,以及将关联字段信息封装进第二容器中。

其中,关联字段信息同时存储于事实表与维度表中。

可选地,第一容器和第二容器均可以采用MAP容器。具体的,将维度表封装到第一容器中,然后通过SQL算子抽取出kafka中的事实表中的关联字段,并封装至第二容器中。

S202、通过将第一容器与第二容器进行关联,从事实表以及维度表中的多条目标数据中抽取出多个字段的数据,组成关联数据。

其中,目标数据指代包含关联字段信息的数据。

通过将第一容器与第二容器进行关联,匹配维度表中的每条目标数据,然后由于基于关键字段可以确定事实表中的目标数据,所以就可以从事实表以及维度表中的多条目标数据中抽取出多个字段的数据,组成关联数据。

例如,事实表中存储有信用卡号、分期金额以及产品编号,而维度表中存储信用卡号以及机构信息,则可以将信用卡号作为关联字段,从事实表中提取出分期金额、产品编号以及从维度表中提取出机构信息,共同组成关联数据。

S104、指标工厂将关联数据传递给流计算组件。

可选地,指标工厂可以通过调用RestAPI的方式自动调取流计算组件,从而将关联数据传递给流计算组件,并处理流计算组件执行步骤S105。

S105、流计算组件基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,得到关键指标。

可选地,指标定义信息可以包括度量、统计维度、统计方法以及口径等。即可以简单地理解为预先通过指标工厂定义了对哪些数据进行统计、从什么统计维度进行统计、采用的统计方法,以及统计的范围等。因此,流计算组件基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,就可以得到所要获得的关键指标。

然后指标工厂可以通过建立数据模型的方式,将事实表与维度表进行关联,最后可以把指标定义信息也映射到数据模型中,从而完成对指标配置。

可选地,在本申请另一实施例中,在执行步骤S105之前,还可以进一步执行:指标工厂通过调用应用程序接口将数据源信息、目标表信息、算子信息以及作业配置信息传递给流计算组件。

流计算组件基于数据源信息、目标表信息、算子信息以及作业配置信息,形成一条流计算作业。

其中,流计算作业在启动时,执行基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,得到关键指标。

需要说明的是,数据源信息、目标表信息、算子信息以及作业配置信息均通过指标工厂进行配置,流计算组件只需要进行汇总计算,从而可以极大的加快数据处理的效率。

可选地,可以采用异步的方式分别将数据源信息、目标表信息、算子信息以及作业配置信息传递给流计算组件,有流计算组件进行解析行成一条流计算作业。

可选地,数据源信息可以包括数据源名称、标题名称、kafka消费位置等。目标表信息可以包括sink源名称、表名等。算子信息则包括了完成的SQL语句,该SQL存对指标定义信息的完整表达,所以基于该SQL语句可以实现对关联数据进行汇总计算,得到关键指标。作业配置信息则一磅包括了关联的维度表信息以及统计窗口信息。

本申请实施例提供了一种指标数据的实时处理方法,应用于大数据云平台,其中,大数据云平台至少包括数据采集组件、流计算组件以及指标工厂。本申请实施例提供的数据处理方法,通过数据采集组件采集实时数据,并由流计算组件对实时数据进行预处理,得到存储待处理数据的事实表。并且,通过指标工厂进行配置了统计维度和度量字段,从而指标工厂基于配置的统计维度和度量字段的信息,将事实表与维度表进行关联,得到关联数据,从而实现数据的快速整合。最后指标工厂将所述关联数据传递给所述流计算组件,由流计算组件基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,得到关键指标。从而利用了流计算组件快速计算的特性,并且通过指标工厂进行信息配置简化的流计算组件的工作,可有效地提供对数据的处理效率,从而保证数据的时效性。

本申请另一实施例提供了另一种指标数据的实时处理方法,同样应用于大数据云平台。其中,所述大数据云平台至少包括数据采集组件、流计算组件、指标工厂、MPP数据库以及Hbase数据库。如图3所示,本申请实施例提供的指标数据的实时处理方法,包括以下步骤:

S301、数据采集组件将事件驱动架构提供的实时消息数据采集至Kafka中。

其中,实时数据包括实时流水数据和实时维度数据。维度表包括预加载维度表以及存储实时维度数据的实时维度表。

需要说明的是,预加载维度表为预先加载的维度表,存储预加载维度表通常数量相对较大。而实时维度数据为后续增加的,在后续计算需要用户的维度数据。

S302、流计算组件对实时流水数据进行预处理,得到事实表。

可选地,步骤S302的具体实施方式可相应地参考上述方法实施例中的步骤S102,此处不再赘述。

S303、MPP数据库同步Greenplum数据库中的预加载维度表,并将预加载维度表同步至Hbase数据库。

S304、流计算组件对实时维度数据进行预处理,得到实时维度表,并将实施维度表存储至Hbase数据库。

需要说明的是,步骤S304也可以与步骤S302同时执行,本申请实施例中的执行顺序仅是其中一种可选的方式。

S305、指标工厂基于配置的统计维度和度量字段的信息,将事实表与维度表进行关联,得到关联数据。

其中,关联数据包括事实表以及维度表中存储的数据。统计维度和度量字段的信息通过指标工厂进行配置。

S306、指标工厂将关联数据传递给流计算组件。

S307、流计算组件基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,得到关键指标。

S308、流计算组件依据指标工厂定义的目标表字段的映射关系,将关键指标存储至数据库中,以供前端进行展示。

其中,该数据库可以为oracle数据库。

将当前计算得到的关键指标存储至数据库中,还可以与先前计算得到的关键指标进行进一步的汇总,

本申请另一实施例提供了一种大数据云平台,如图4所示,包括:

数据采集组件401,用于采集实时数据。

指标工厂402,用于配置统计维度和度量字段的信息,以及用于基于配置的统计维度和度量字段的信息,将事实表与维度表进行关联,得到关联数据,并将关联数据传递给流计算组件。

其中,关联数据包括事实表以及维度表中存储的数据。

流计算组件403,用于对实时数据进行预处理,得到事实表,以及用于基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,得到关键指标;其中,事实表中存储有对实时数据进行预处理后得到的待处理数据。

可选地,在本申请另一实施例提供的大数据云平台中,数据采集组件采集实时数据时,用于:

将事件驱动架构提供的实时消息数据采集至Kafka中。

可选地,Kafka可以设置于数据采集组件中。

其中,实时数据包括实时流水数据和实时维度数据。维度表包括预加载维度表以及存储实时维度数据的实时维度表。

其中,在本申请实施例中,流计算组件对实时数据进行预处理,得到事实表时,用于:

对实时流水数据进行预处理,得到事实表。

可选地,在本申请另一实施例提供的大数据云平台中,同样参见图4,还可以进一步包括:

MPP数据库404以及Hbase数据库405。

MPP数据库404,用于同步Greenplum数据库中的预加载维度表,并将预加载维度表同步至Hbase数据库405。

Hbase数据库405,用于存储流计算组件403对实时维度数据进行预处理,得到的实时维度表,以及存储MPP数据库同步的预加载维度表。

可选地,在本申请另一实施例提供的大数据云平台中,流计算组件对待处理数据进行预处理,得到事实表时,用于:

将待处理数据解析为表格数据,并从表格数据提取出指定字段的数据,组成事实表。

可选地,在本申请另一实施例提供的大数据云平台中,指标工厂将事实表与维度表进行关联,得到关联数据时,用于:

将维度表封装进第一容器中,以及将关联字段信息封装进第二容器中。

其中,关联字段信息同时存储于事实表与维度表中。

通过将第一容器与第二容器进行关联,从事实表以及维度表中的多条目标数据中抽取出多个字段的数据,组成关联数据;其中,目标数据指代包含关联字段信息的数据。

可选地,在本申请另一实施例提供的大数据云平台中,指标工厂,还用于:

通过调用应用程序接口将数据源信息、目标表信息、算子信息以及作业配置信息传递给流计算组件。

可选地,在本申请另一实施例提供的大数据云平台中,流计算组件,还用于:

基于数据源信息、目标表信息、算子信息以及作业配置信息,形成一条流计算作业。

其中,流计算作业在启动时,执行基于指标工厂配置的指标定义信息,对关联数据进行汇总计算,得到关键指标。

可选地,在本申请另一实施例提供的大数据云平台中,流计算组件,还用于:

依据指标工厂定义的目标表字段的映射关系,将关键指标存储至数据库中,以供前端进行展示。

需要说明的是,本申请上述实施例提供的大数据云平台中的各个组成部件的具体工作过程,可相应参考上述方法实施例中的相应的步骤的实施方式,此处不再赘述。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种指标数据的实时处理方法及大数据云平台
  • 一种基于大数据的云平台电子商务数据处理方法及系统
技术分类

06120113148597