导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>用于海量数据治理的数据处理方法和装置

用于海量数据治理的数据处理方法和装置

文献发布时间：2023-06-19 11:45:49

技术领域

本申请涉及大数据领域，具体而言，涉及一种用于海量数据治理的数据处理方法和装置。

背景技术

现有技术中，大多数据企业采用云数据库进行企业数据的存储与管理，随着企业业务规模的增长现有云数据库的容量难以满足企业的数据存储需求。数据增长的主要原因是大量无效数据的产生和缺乏对历史数据的整理，现有技术中主要采用分库分表的方法解决企业存储需求与现有云数据库容量不匹配的问题，由于分库分表的方法需要代码侵入，导致系统复杂度与风险度升高，且分库分表的方法所产生的成本较大，且分库分表存在未来扩展困难的技术问题。

因此，现有技术中的系统海量数据治理存在风险和成本较高以及难以拓展的技术问题。

申请内容

本申请的主要目的在于提供一种用于海量数据治理的数据处理方法和装置，通过对在线系统的架构层应用物理隔离部署，基于所述在线系统的系统结构，对需求数据进行处理，其中，所述需求数据为在线系统的应用过程中产生的需求数据，即，海量数据治理过程中产生的数据处理需求。识别所述需求数据对应的系统结构，基于系统结构，获得所述系统结构对应的逻辑规则，基于所述逻辑规则，对需求数据进行处理，实现对在线系统中的海量数据的治理，通过对在线系统的架构层应用物理隔离部署，可以解决现有技术中采用分库分表的方法进行海量数据治理存在风险和成本较高的技术问题，实现了根据数据特性和价值实现差异化治理方案，保持存储资源动态平衡和重复利用，提升资源使用效率的技术效果。

为了实现上述目的，本申请提出了一种用于海量数据治理的数据处理方法。

本申请的第二方面，提出了一种用于海量数据治理的数据处理装置。

本申请的第三方面，提出了一种计算机可读存储介质。

有鉴于此，根据本申请的第一方面，提出了一种用于海量数据治理的数据处理方法，包括：获取在线系统的架构数据，所述架构数据包括系统结构数据；获取需求数据，其中，所述需求数据为所述在线系统的应用过程中产生的需求数据；对所述需求数据进行识别，基于识别结果匹配所述需求数据对应的系统结构数据；基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据。

进一步地，对所述需求数据进行识别，基于识别结果匹配所述需求数据对应的系统结构数据，包括：对所述需求数据进行识别，识别所述需求数据对应的需求类型，包括：若所述需求数据对应的需求类型为第一需求类型，则匹配所述第一需求类型对应的第一系统结构数据；若所述需求数据对应的需求类型为第二需求类型，则匹配所述第二需求类型对应的第二系统结构数据。

进一步地，基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据，包括：基于所述系统结构数据获取所述系统结构数据对应的逻辑规则，包括：识别所述第一系统结构数据对应的第一系统结构，获取所述第一系统结构对应的第一逻辑规则；识别所述第二系统结构数据对应的第二系统结构，获取所述第二系统结构对应的第二逻辑规则。

进一步地，基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据，还包括：基于所述逻辑规则对所述需求数据进行处理，获取所述需求数据对应的结果数据，包括：基于所述第一逻辑规则，对所述第一需求数据进行处理，获取所述第一需求数据对应的第一结果数据；基于所述第二逻辑规则，对所述第二需求数据进行处理，获取所述第二需求数据对应的第二结果数据。

进一步地，获取所述在线系统的结构数据，包括：所述在线系统的结构数据与所述在架构层应用物理隔离部署的在线系统结构一致的子系统的结构数据。

根据本申请的第二方面，提出了一种用于海量数据治理的数据处理装置，其特征在于，包括：获取模块，用于获取在线系统的架构数据，所述架构数据包括系统结构数据；获取需求数据，其中，所述需求数据为所述在线系统的应用过程中产生的需求数据；需求预处理模块，用于对所述需求数据进行识别，基于识别结果匹配所述需求数据对应的系统结构数据；处理模块，基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据。

进一步地，需求预处理模块，用于对所述需求数据进行识别，基于识别结果匹配所述需求数据对应的系统结构数据，包括：用于对所述需求数据进行识别，识别所述需求数据对应的需求类型，包括：若所述需求数据对应的需求类型为第一需求类型，则匹配所述第一需求类型对应的第一系统结构数据；若所述需求数据对应的需求类型为第二需求类型，则匹配所述第二需求类型对应的第二系统结构数据。

进一步地，处理模块，基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据，包括：基于所述系统结构数据获取所述系统结构数据对应的逻辑规则，包括：识别所述第一系统结构数据对应的第一系统结构，获取所述第一系统结构对应的第一逻辑规则；识别所述第二系统结构数据对应的第二系统结构，获取所述第二系统结构对应的第二逻辑规则；

进一步地，处理模块，基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据，还包括：基于所述逻辑规则对所述需求数据进行处理，获取所述需求数据对应的结果数据，包括：基于所述第一逻辑规则，对所述第一需求数据进行处理，获取所述第一需求数据对应的第一结果数据；基于所述第二逻辑规则，对所述第二需求数据进行处理，获取所述第二需求数据对应的第二结果数据。

根据本申请的第三方面，提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述用于海量数据治理的数据处理方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，通过对在线系统的架构层应用物理隔离部署，基于所述在线系统的系统结构，对需求数据进行处理，其中，所述需求数据为在线系统的应用过程中产生的需求数据，即，海量数据治理过程中产生的数据处理需求。识别所述需求数据对应的系统结构，基于系统结构，获得所述系统结构对应的逻辑规则，基于所述逻辑规则，对需求数据进行处理，实现对在线系统中的海量数据的治理，通过对在线系统的架构层应用物理隔离部署，可以解决现有技术中采用分库分表的方法进行海量数据治理存在风险和成本较高以及难以拓展的技术问题，实现了根据数据特性和价值实现差异化治理方案，保持存储资源动态平衡和重复利用，提升资源使用效率的技术效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请提供的一种用于海量数据治理的数据处理方法的流程示意图；

图2为本申请提供的一种用于海量数据治理的数据处理方法的流程示意图；

图3为本申请提供的一种用于海量数据治理的数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，“连接”可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

图1为本申请提供的一种用于海量数据治理数据处理方法的流程示意图，如图1所示，该方法包括以下步骤：

S101：获取在线系统的架构数据，所述架构数据包括系统结构数据；

所述在线系统的结构数据与所述在架构层应用物理隔离部署的在线系统结构一致的子系统的结构数据。

在架构层应用物理隔离部署避免对系统进行代码侵入，基于数据库数据增长需求应用物理隔离部署，可实现数据库基于数据增长需求进行扩展的技术效果，解决现有技术中采用分库分表的技术方案难以实现基于不断增加的数据增长需求进行拓展的技术问题。

S102：获取需求数据，其中，所述需求数据为所述在线系统的应用过程中产生的需求数据；

所述需求数据可以为所述在线系统服务对象提出的需求数据，即，所述在线系统的上游系统所产生的需求数据，所述在线系统服务对象包括通过各类网络协议与核心系统交互的外围系统，可通过超文本传输(HTTP)协议，开源分布式服务框架(Dubbo)，套接字(Socket)等方式与所述在线系统连接；所述需求数据可以为所述在线系统在应用过程中产生需求数据，即，所述在线系统运行过程中产生的数据处理需求。

S103：对所述需求数据进行识别，基于识别结果匹配所述需求数据对应的系统结构数据；

对所述需求数据进行识别，识别所述需求数据对应的需求类型，基于所述需求类型匹配所述需求数据对应的结构数据，如，所述需求类型可以为所述上游系统产生的读请求、写请求等，可以为所述在线系统运行过程中产生的数据同步处理请求，数据清理归档请求。

S104：基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据。

图2为本申请提供的对所述需求数据进行处理的流程示意图，如图2所示，包括以下步骤：

S201：获取需求数据；

S202：对所述需求数据进行识别，识别所述需求数据对应的需求类型；

若所述需求数据对应的需求类型为第一需求类型，则匹配所述第一需求类型对应的第一系统结构数据；

若所述需求数据对应的需求类型为第二需求类型，则匹配所述第二需求类型对应的第二系统结构数据。

S203：基于所述系统结构数据获取所述系统结构数据对应的逻辑规则；

识别所述第一系统结构数据对应的第一系统结构，获取所述第一系统结构对应的第一逻辑规则；

识别所述第二系统结构数据对应的第二系统结构，获取所述第二系统结构对应的第二逻辑规则；

S204：基于所述逻辑规则对所述需求数据进行处理，获取所述需求数据对应的结果数据。

基于所述第一逻辑规则，对所述第一需求数据进行处理，获取所述第一需求数据对应的第一结果数据；

基于所述第二逻辑规则，对所述第二需求数据进行处理，获取所述第二需求数据对应的第二结果数据。

举例说明一，如，对获取得到的需求数据进行识别，判断所述需求数据为所述在线系统服务对象提出的需求数据，匹配所述在线系统服务对象的对应的系统结构，基于所述系统结构数据，获取所述系统结构数据对应的逻辑规则，基于所述逻辑规则，对所述需求进行处理，若所述需求数据为写请求，基于所述逻辑规则，识别所述需求数据对应的业务场景，基于预设业务场景的优先级，匹配与所述在线系统对应的子系统，将所述写请求对应的数据更新只匹配的子系统；

若所述需求数据为读请求，基于所述逻辑规则，判断所述读请求数据是否包含预设唯一查询条件，若是，按照优先级轮训的方法依次读取各子系统，获取所述读请求对应的查询数据，若否，基于所述读请求数据从主系统中获取所述读请求对应的查询数据。

举例说明二，如，对获取的需求数据进行识别，判断所述需求数据为所述在线系统运行过程中产生的数据处理需求，匹配所述在线系统系统机构对应的逻辑规则数据，若所述需求数据为系统数据清理请求，基于所述逻辑规则，判断所述在线系统数据库中预设时间节点前的数据是否有效，若无效，执行清理执行，基于预设周期对所述在线系统中增量数据进行清理；若所述需求数据为系统数据归档请求，基于所述逻辑规则，基于预设时间周期进行在线系统数据库中源表数据归档处理。

图3为本申请提供的一种用于海量数据治理的数据处理装置的结构示意图，如图3所述，该装置包括：

获取模块31，用于获取在线系统的架构数据，所述架构数据包括系统结构数据；

获取需求数据，其中，所述需求数据为所述在线系统的应用过程中产生的需求数据；

需求预处理模块32，用于对所述需求数据进行识别，基于识别结果匹配所述需求数据对应的系统结构数据；

用于对所述需求数据进行识别，识别所述需求数据对应的需求类型，包括：

若所述需求数据对应的需求类型为第一需求类型，则匹配所述第一需求类型对应的第一系统结构数据；

若所述需求数据对应的需求类型为第二需求类型，则匹配所述第二需求类型对应的第二系统结构数据。

处理模块33，基于所述系统结构数据，对所述需求数据进行处理，获取所述结果数据。

基于所述系统结构数据获取所述系统结构数据对应的逻辑规则，包括：

识别所述第一系统结构数据对应的第一系统结构，获取所述第一系统结构对应的第一逻辑规则；

识别所述第二系统结构数据对应的第二系统结构，获取所述第二系统结构对应的第二逻辑规则；

基于所述逻辑规则对所述需求数据进行处理，获取所述需求数据对应的结果数据，包括：

基于所述第一逻辑规则，对所述第一需求数据进行处理，获取所述第一需求数据对应的第一结果数据；

基于所述第二逻辑规则，对所述第二需求数据进行处理，获取所述第二需求数据对应的第二结果数据。

关于上述实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

综上所述，在本申请中，通过对在线系统的架构层应用物理隔离部署，基于所述在线系统的系统结构，对需求数据进行处理，其中，所述需求数据为在线系统的应用过程中产生的需求数据，即，海量数据治理过程中产生的数据处理需求。识别所述需求数据对应的系统结构，基于系统结构，获得所述系统结构对应的逻辑规则，基于所述逻辑规则，对需求数据进行处理，实现对在线系统中的海量数据的治理，通过对在线系统的架构层应用物理隔离部署，可以解决现有技术中采用分库分表的方法进行海量数据治理存在风险和成本较高以及难以拓展的技术问题，实现了根据数据特性和价值实现差异化治理方案，保持存储资源动态平衡和重复利用，提升资源使用效率的技术效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本申请的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：路杰;
专利申请人：上海数禾信息科技有限公司;

上一篇：基于全局特征的区块链监控视频防篡改方法及系统
下一篇：一种七点式手动电子换挡器