一种大数据处理方法、装置、系统、设备和存储介质

文献发布时间：2023-06-19 09:38:30

技术领域

本申请涉及大数据技术领域，尤其涉及一种大数据处理方法、装置、系统、设备和存储介质。

背景技术

随着业务的发展，越来越多的场景用到流式计算，流计算引擎随之得到蓬勃发展。在实际应用中，流计算引擎的计算能力往往与计算资源相关，占用的计算资源越多则计算能力越强。

目前，在利用流计算引擎进行长窗口(一种现有术语，用于表示数据处理窗口，其工作时间较长，例如银行的全天候业务监控窗口)大数据处理的过程中，需要置办大量的硬件设备，保障流计算引擎的计算能力。但是，长窗口大数据处理过程并不是时刻都需求高强度的计算能力，明显的，现有技术不可避免地会造成大量计算资源的浪费。

发明内容

申请人发现：在利用窗口监控业务数据(例如，工作时长为30天的监控窗口，该监控窗口监控业务在30天内所发生的实时流数据，并按照业务规则对实时流数据进行计算，得到计算结果)的场景下，各种流计算引擎都均显乏力，其主要原因是：在利用长窗口监控业务数据的场景下，流计算引擎不仅需要存储海量的数据计算结果，同时还得开辟数量较多的窗口针对不同时间段、不同类型的数据进行处理(例如进行数据清洗、转换、加工等)，额外开辟数量较多的窗口处理数据会消耗巨大的计算资源。

因此，本申请提供了一种大数据处理方法、装置、系统、设备和存储介质，目的在于提供一种行之有效的大数据处理方法，在利用流计算引擎进行长窗口大数据处理过程中，避免流计算引擎额外开辟窗口处理历史数据，减少计算资源的浪费。

为了实现上述目的，本申请提供了以下技术方案：

一种大数据处理系统，其特征在于，包括：

批计算引擎和流计算引擎；

所述批计算引擎，用于按照第一业务规则，对历史数据进行统计，得到数据统计结果；所述第一业务规则为，针对数据处理时长大于预设阈值的数据处理任务，预先制定的业务规则；

所述批计算引擎，还用于按照预设间隔时间，将所述数据统计结果发送给所述流计算引擎；

所述流计算引擎，用于获取实时流数据，并按照第二业务规则，对所述实时流数据进行实时处理，得到实时处理结果，通过预设窗口展示所述实时处理结果；所述第二业务规则为，针对所述数据处理时长不大于所述预设阈值的数据处理任务，预先制定的业务规则；

所述流计算引擎，还用于在触发业务汇总任务的情况下，按照所述业务汇总任务所指示的业务规则，对所述数据统计结果和所述实时处理结果进行汇总，得到业务汇总结果，并通过所述预设窗口展示所述业务汇总结果；所述业务汇总任务为，在预设周期时间内对所述历史数据和所述实时流数据进行汇总的任务。

可选的，还包括：

数据同步引擎；

所述数据同步引擎，用于按照所述预设间隔时间，将所述数据库中预存的所述历史数据发送给所述批计算引擎。

可选的，所述数据同步引擎还用于：

接收所述批计算引擎发送的所述数据统计结果，并将所述数据统计结果发送给所述流计算引擎。

可选的，所述数据同步引擎还用于：

接收所述实时流数据，并将所述实时流数据存储至所述数据库中。

可选的，所述数据同步引擎还用于：

按照所述预设间隔时间，清空所述数据库中的所述历史数据。

一种大数据处理方法，包括：

按照第一业务规则，对历史数据进行统计，得到数据统计结果；其中，所述第一业务规则为，针对数据处理时长大于预设阈值的数据处理任务，预先制定的业务规则；

获取实时流数据，并按照第二业务规则，对所述实时流数据进行实时处理，得到实时处理结果，通过预设窗口展示所述实时处理结果；所述第二业务规则为，针对所述数据处理时长不大于所述预设阈值的数据处理任务，预先制定的业务规则；

在触发业务汇总任务的情况下，按照所述业务汇总任务所指示的业务规则，对所述数据统计结果和所述实时处理结果进行汇总，得到业务汇总结果，并通过所述预设窗口展示所述业务汇总结果；所述业务汇总任务为，在预设周期时间内对所述历史数据和所述实时流数据进行汇总的任务。

可选的，还包括：

将所述实时流数据存储至预设的数据库中；

按照所述预设间隔时间，清空所述数据库中预存的所述历史数据。

一种大数据处理装置，包括：

统计单元，用于按照第一业务规则，对历史数据进行统计，得到数据统计结果；其中，所述第一业务规则为，针对数据处理时长大于预设阈值的数据处理任务，预先制定的业务规则；

实时处理单元，用于获取实时流数据，并按照第二业务规则，对所述实时流数据进行实时处理，得到实时处理结果，通过预设窗口展示所述实时处理结果；所述第二业务规则为，针对所述数据处理时长不大于所述预设阈值的数据处理任务，预先制定的业务规则；

汇总单元，用于在触发业务汇总任务的情况下，按照所述业务汇总任务所指示的业务规则，对所述数据统计结果和所述实时处理结果进行汇总，得到业务汇总结果，并通过所述预设窗口展示所述业务汇总结果；所述业务汇总任务为，在预设周期时间内对所述历史数据和所述实时流数据进行汇总的任务。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的大数据处理方法。

一种大数据处理设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的大数据处理方法。

本申请提供的技术方案，按照第一业务规则，对历史数据进行统计，得到数据统计结果。其中，第一业务规则为，针对数据处理时长大于预设阈值的数据处理任务，预先制定的业务规则。获取实时流数据，并按照第二业务规则，对实时流数据进行实时处理，得到实时处理结果，通过预设窗口展示实时处理结果。第二业务规则为，针对数据处理时长不大于预设阈值的数据处理任务，预先制定的业务规则。在触发业务汇总任务的情况下，按照业务汇总任务所指示的业务规则，对数据统计结果和实时处理结果进行汇总，得到业务汇总结果，并通过预设窗口展示业务汇总结果。业务汇总任务为，在预设周期时间内对历史数据和实时流数据进行汇总的任务。在利用流计算引擎进行长窗口大数据处理过程，且触发业务汇总任务的情况下，相较于现有技术，需要开辟额外窗口对历史数据和实时流数据进行汇总，本申请直接对数据统计结果和实时处理结果进行汇总，能够减少大量计算资源的浪费，业务汇总任务的处理效率也明显提高。并且，按照第一业务规则对历史数据进行统计，得到数据统计结果，能够为流计算引擎减轻计算负担，避免流计算引擎额外开辟窗口处理历史数据，减少计算资源的浪费。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种大数据处理系统的架构示意图；

图1b为本申请实施例提供的一种大数据处理具体实现过程的示意图；

图2为本申请实施例提供的一种大数据处理方法的示意图；

图3为本申请实施例提供的一种大数据处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1a所示，为本申请实施例提供的一种大数据处理系统的架构示意图，包括：

数据同步引擎100、批计算引擎200、以及流计算引擎300。

需要说明的是，数据同步引擎100包括但不限于treesoft、federated、以及dbsync等引擎，批计算引擎200包括但不限于spark、storm、以及flink等引擎，流计算引擎300包括但不限于spark、storm、以及flink等引擎。

批计算引擎200所采用的数据处理模式为批量计算，流计算引擎300所采用的数据处理模式为流式计算。批量计算和流式计算各自适用于不同的大数据应用场景中。

由于大数据普遍为数据流(即实时流数据，是指在时间分布和数量上无限的一系列动态数据集合，数据的价值随着时间的流逝而降低，因此必须实时计算给出秒级响应。流式计算，顾名思义，就是对实时流数据进行处理，即实时计算。批量计算则统一收集数据，存储到数据库中，然后对数据进行批量处理的数据计算方式。流式计算和批量计算两者之间的区别包括以下几个方面：

1、数据时效性不同：流式计算实时、低延迟，批量计算非实时、高延迟；

2、数据特征不同：流式计算的数据一般是动态、没有边界的，而批处理的数据一般则是静态数据；

3、应用场景不同：流式计算应用在实时场景，时效性要求比较高的场景，例如实时推荐、业务监控等，批量计算一般说批处理，应用在实时性要求不高、离线计算的场景下，例如数据分析、离线报表等；

4、运行方式不同：流式计算的任务持续进行的，批量计算的任务则一次性完成。

其中，大数据处理系统实现大数据处理的过程，如图1b所示，包括如下步骤：

S101：数据同步引擎接收实时流数据，并将实时流数据存储至数据库中。

其中，数据同步引擎可以接收预设的业务系统发送的实时流数据，也可以从云端获取实时流数据。需要说明的是，实时流数据存储在数据库中，则不再具备实时性，因此，将数据库中存储的数据称为历史数据。

S102：数据同步引擎按照预设间隔时间，将数据库中的历史数据发送给批计算引擎。

在执行S102之后，数据同步引擎继续执行S103。

S103：数据同步引擎按照预设间隔时间，清空数据库中的历史数据。

其中，由于历史数据不具备实时性，且已经被发送给批计算引擎，即可确定历史数据已无使用价值，故将历史数据从数据库中清除，从而能够有效节省计算资源。换言之，利用数据同步引擎定时清空无使用价值的历史数据，实现数据的动态存储。

S104：批计算引擎按照第一业务规则，对历史数据进行统计，得到数据统计结果。

在执行S104之后，批计算引擎继续执行S105。

其中，第一业务规则为，针对数据处理时长大于预设阈值的数据处理任务，预先制定的业务规则。例如，假设第一业务规则指示统计每月客户转账金额的总数，相应的，历史数据包括客户每天的转账金额，对历史数据进行统计的过程包括：对历史数据进行清洗，剔除部分无效数据(例如，转账失败数据)，计算客户当前月份内每天的转账金额的总和，得到数据统计结果。

需要说明的是，数据处理时长大于预设阈值的数据处理任务，即该任务不具备时效性，也就是无需进行实时计算。相较于现有技术，无需流计算引擎开辟新的窗口处理数据处理时长大于预设阈值的数据处理任务，在利用流计算引擎进行长窗口大数据处理过程中，由批计算引擎负责对历史数据进行统计，能够为流计算引擎减轻计算负担，避免流计算引擎浪费计算资源处理历史数据。

S105：批计算引擎按照预设间隔时间，将数据统计结果发送给数据同步引擎。

S106：数据同步引擎将数据统计结果发送给流计算引擎。

S107：流计算引擎获取实时流数据，并按照第二业务规则，对实时流数据进行实时处理，得到实时处理结果，通过预设窗口展示实时处理结果。

其中，第二业务规则为，针对数据处理时长不大于预设阈值的数据处理任务，预先制定的业务规则。例如，假设第二业务规则指示监控网站的访问流量，相应的，实时流数据包括访客的IP地址、访客所访问的内容、以及访客所输入的搜索信息等数据，对实时流数据进行实时处理的过程包括：对记录访客的IP地址、从访客所访问的内容中提取关键词、以及过滤访客所输入的搜索信息保留符合要求的字符串，通过窗口展示IP地址、关键词、字符串。

需要强调的是，S107与S101为并行关系，即上述S101-S106的执行顺序，并不会影响S107的执行。数据处理时长不大于预设阈值的数据处理任务，即该任务具备时效性，也就是需要进行实时计算。

S108：流计算引擎在触发业务汇总任务的情况下，按照业务汇总任务所指示的业务规则，对数据统计结果和实时处理结果进行汇总，得到业务汇总结果，并通过预设窗口展示业务汇总结果。

其中，业务汇总任务为，在预设周期时间内对历史数据和实时流数据进行汇总的任务，在实际应用中，业务汇总任务能够反映业务在预设周期时间内的变化详情。例如，假设业务汇总任务所指示的业务规则包括统计30天内客户的转账金额的总数，相应的，数据统计结果包括前29天内客户的转账金额的总数，实时处理结果包括当前1天内客户的转账金额，对数据统计结果和实时处理结果进行汇总的过程包括：计算前29天内客户的转账金额的总数与当前1天内客户的转账金额的总和，得到30天内客户的转账金额的总数，并通过窗口展示30天内客户的转账金额的总数。

需要说明的是，在触发业务汇总任务的情况下，流计算引擎只需按照业务汇总任务所指示的业务规则，对数据统计结果和实时处理结果进行汇总，便可得到业务汇总结果，相较于现有技术，需要开辟额外窗口对历史数据和实时流数据进行汇总，本实施例直接对数据统计结果和实时处理结果进行汇总，能够减少大量计算资源的浪费，业务汇总任务的处理效率也明显提高。

综上所述，在利用流计算引擎进行长窗口大数据处理过程，且触发业务汇总任务的情况下，相较于现有技术，需要开辟额外窗口对历史数据和实时流数据进行汇总，本实施例直接对数据统计结果和实时处理结果进行汇总，能够减少大量计算资源的浪费，业务汇总任务的处理效率也明显提高。并且，按照第一业务规则对历史数据进行统计，得到数据统计结果，能够为流计算引擎减轻计算负担，避免流计算引擎额外开辟窗口处理历史数据，减少计算资源的浪费。

需要说明的是，上述实施例中提及的数据同步引擎，为大数据处理系统实现大数据处理方法的一种可选的功能模块，并不影响整个大数据处理过程的实现。此外，利用数据同步引擎，将实时流数据存储至预设的数据库中、以及按照预设间隔时间清空数据库中预存的历史数据，也都是所述大数据处理过程一种可选的具体实现方式。为此，上述实施例所提及的大数据处理流程，可以概括为图2所示的方法。

如图2所示，为本申请实施例提供的一种大数据处理方法的示意图，包括如下步骤：

S201：按照第一业务规则，对历史数据进行统计，得到数据统计结果。

其中，第一业务规则为，针对数据处理时长大于预设阈值的数据处理任务，预先制定的业务规则。

S202：获取实时流数据，并按照第二业务规则，对实时流数据进行实时处理，得到实时处理结果，通过预设窗口展示实时处理结果。

其中，第二业务规则为，针对数据处理时长不大于预设阈值的数据处理任务，预先制定的业务规则。

S203：在触发业务汇总任务的情况下，按照业务汇总任务所指示的业务规则，对数据统计结果和实时处理结果进行汇总，得到业务汇总结果，并通过预设窗口展示业务汇总结果。

其中，业务汇总任务为，在预设周期时间内对历史数据和实时流数据进行汇总的任务。

与上述本申请实施例提供的大数据处理方法相对应，本申请还提供了一种大数据处理装置。

如图3所示，为本申请实施例提供的一种大数据处理装置的结构示意图，包括：

统计单元301，用于按照第一业务规则，对历史数据进行统计，得到数据统计结果。其中，第一业务规则为，针对数据处理时长大于预设阈值的数据处理任务，预先制定的业务规则。

实时处理单元302，用于获取实时流数据，并按照第二业务规则，对实时流数据进行实时处理，得到实时处理结果，通过预设窗口展示实时处理结果。第二业务规则为，针对数据处理时长不大于预设阈值的数据处理任务，预先制定的业务规则。

汇总单元303，用于在触发业务汇总任务的情况下，按照业务汇总任务所指示的业务规则，对数据统计结果和实时处理结果进行汇总，得到业务汇总结果，并通过预设窗口展示业务汇总结果。业务汇总任务为，在预设周期时间内对历史数据和实时流数据进行汇总的任务。

存储单元304，用于将实时流数据存储至预设的数据库中。

清空单元305，用于按照预设间隔时间，清空数据库中预存的历史数据。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的大数据处理方法。

本申请还提供了一种大数据处理设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的大数据处理方法，包括如下步骤：

可选的，还包括：

将所述实时流数据存储至预设的数据库中；

按照所述预设间隔时间，清空所述数据库中预存的所述历史数据。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：朱伟伟;徐烨;陈萌;杜锐;薛飞;牛佩云;张子奇;蒋威;
专利申请人：中国农业银行股份有限公司;

上一篇：车辆状态数据的上报方法和系统以及车辆状态的查看方法
下一篇：一种用于金属管道焊接作业前的预处理装置