导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>一种大数据平台

一种大数据平台

文献发布时间：2023-06-19 10:32:14

技术领域

本申请涉及一种大数据平台。

背景技术

大数据平台是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。

随着大数据生态的完善，众多开源组件如雨后春笋般层出不穷。开源组件采用的技术栈不同，在功能上各有侧重，不同组件如同一个个孤岛，缺少协作，给使用者带来极大的不便。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种大数据平台，包括：

统一鉴权与访问控制模块，用于为各模块提供统一的帐号管理、身份认证以及用户授权服务；

数据集成模块，采用Kettle和DataX实现数据集成；

统一调度模块，包括若干个控制节点和若干个工作节点，所述控制节点用于实现任务的调度控制，所述工作节点用于根据所述控制节点下发的指令执行具体任务，并将执行结果反馈给所述控制节点；

数据治理模块，用于进行主数据管理、元数据管理、数据质量管理以及数据标准管理；

数据开发平台模块，用于建设统一访问层、对数据库进行管理、进行脚本在线编写、管理并维护开发所生成的脚本；

数据分析模块，用于从数据源中采集数据，根据所搭建的数据分析模型对采集到的数据进行分析，并通过可视化的方式展现各数据分析模型的分析结果；

数据安全模块，用于对访问大数据平台集群以及其中数据的用户和应用进行限制，记录数据来源、使用情况和销毁情况，对数据进行加密和脱敏，对多租户进行隔离，对数据进行侵权保护，以及容灾管理；

数据服务模块，用于建设统一访问层，提供数据表查看预览、查询语句执行的功能，以及依据表名或查询语句定制REST服务、并进行服务发布；

运营监控模块，用于对系统资源的使用情况和服务/调度任务的运行状态进行监控，并且在出现异常时触发报警；和

平台门户管理模块，用于对平台门户进行管理。

可选地，所述统一鉴权模块以开源软件keycloak作为用户权限的实际载体，通过对原生keycloak管理接口进行代理和聚合来形成API能力集；同时保留对原生API的访问。

可选地，所述的数据集成模块包括：

数据源管理子模块，用于维护多个数据源的连接信息，以及验证所述连接的有效性；

数据预览子模块，用于实现对多种数据源内的表结构的查看，以及TOP-N数据的查看；和

任务管理子模块，用于对数据同步任务、数据清洗任务以及数据转换任务的管理。

可选地，所述数据治理模块包括：

主数据管理子模块，用于创建并维护核心数据的完整性、一致性、正确性，并以服务的方式把统一的、标准的主数据提供给其他系统和模块使用；

元数据管理子模块，用于对元数据进行集中管理；

数据质量管理子模块，用于依据质量检查规则对数据进行质量检核，并出具数据质量报告，同时对外提供质量检查服务；和

数据标准管理，用于针对企业数据制定标准，并采用制定的标准对数据进行规范。

可选地，所述数据安全模块包括：

数据管理子模块，用于对数据的安全等级进行限定；

数据保护子模块，用于对数据进行加密和脱敏，对HDFS文件进行加密，以及防止数据丢失；

统一鉴权与访问控制子模块，用于实现服务加密SSL、集群节点加密和安全域；和

基础安全子模块。

可选地，所述运营监控模块包括：

基础监控数据采集子模块；

数据接收/拉取子模块；

调度任务监控采集子模块；

数据存储子模块；

告警处理、告警发送子模块；和

监控Web以及对外服务子模块。

可选地，所述平台门户管理模块包括：

单点登录子模块；

统一信息展示子模块；

子系统管理子模块；和

菜单管理子模块。

可选地，所述统一信息展示子模块采用single-spa技术，对不同模块的前端页面进行集成。

可选地，所述统一调度模块采用spring-boot的自动化配置机制实现代理组件，所述代理组件用于：

自动将目标模块中的任务进行分析生成任务描述文件；和

生成任务调用API，使任务具备远程调用能力、远程获取过程日志能力。

可选地，还包括数据访问中间件，所述数据访问中间件用于实现数据集成模块、数据开发平台模块、数据分析模块和数据服务模块对各类计算引擎的访问，所述数据访问中间件通过REST和JDBC接口屏蔽各类计算引擎的差异。

本申请的一种大数据平台，由于平台门户管理模块对不同模块的前端页面进行集成，因此能够实现各个模块独立开发、独立部署、独立运行，并在门户上提供统一的访问地址、通过管理模块进行动态管理维护；由于统一调度模块将各模块之间的任务编排到一个流程中，因此能够解决不同组件间协同工作的问题。

此外，由于数据访问中间件通过通用的REST和JDBC接口，能够屏蔽引擎差异，具备可扩展的多引擎访问、管理能力，因此，上层应用通过数据访问中间件，可有效地降低开发使用门槛，减小部署难度，提升资源利用率。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种大数据平台的总体架构示意图；

图2是根据本申请一个实施例的一种大数据平台的微服务架构示意图；

图3是根据本申请一个实施例的统一鉴权与访问控制模块的总体架构示意图；

图4是根据本申请一个实施例的数据集成模块的总体架构示意图；

图5是根据本申请一个实施例的统一调度模块的总体架构示意图；

图6是根据本申请一个实施例的数据开发平台模块的总体架构示意图；

图7是根据本申请一个实施例的数据安全模块的总体架构示意图；

图8是根据本申请一个实施例的数据服务模块的总体架构示意图；

图9是根据本申请一个实施例的运营监控模块的总体架构示意图；

图10是根据本申请一个实施例的平台门户管理模块的总体架构示意图。

具体实施方式

图1是根据本申请一个实施例的一种大数据平台的总体架构示意图。所述一种大数据平台一般性地可包括统一鉴权与访问控制模块、数据集成模块、统一调度模块、数据治理模块、数据开发平台模块、数据分析模块、数据安全模块、数据服务模块、运营监控模块和平台门户管理模块。

如图1所示，所述的大数据平台可运行在容器平台、资源管理平台之上；以统一调度模块、统一鉴权与访问控制模块和运营监控模块这三个模块为平台提供基础的能力支撑。通过数据集成模块、数据治理模块、数据开发平台模块、数据分析模块、数据服务模块和数据安全模块这六个模块为用户提供大数据相关服务。平台提供统一的门户，对平台上的服务能力进行整合集成。

如图2所示，大数据平台各个模块均采用微服务架构，包括前端微服务化和后端微服务化，其中前端微服务注册到平台统一门户上，由平台统一门户作为注册中心并进行管理；后端微服务采用成熟的微服务框架spring-cloud作为基础，实现平台的全面微服务化。

其中前端微服务之间相互独立，不同系统模块的前端与后端相互隔离，即前端微服务只允许调用当前模块的后端微服务。后端微服务通过spring-cloud的自动化配置技术实现跨模块后端服务调用。通过这种约束以及自动化配置技术来增强各个系统模块的独立性，达到各系统模块可独立部署、独立运行的效果。

统一鉴权与访问控制模块主要功能是基于菜单、API等非数据的控制，为各模块提供统一的帐号管理、身份认证以及用户授权服务。现有技术中，平台各模块通常单独管理各自的用户数据容易行成信息孤岛，分散的用户管理模式阻碍了平台化演进，所以需要统一的标准化用户管理体系。本实施方式的统一鉴权与访问控制模块能够为平台带来统一的帐号管理、身份认证、用户授权等基础能力，为平台带来诸如跨模块跨系统单点登录、第三方授权登录等基础能力，为构建开放平台和业务生态提供了必要条件，其总体架构如图3所示。所述统一鉴权与访问控制模块包含如下基本功能：

(1)统一身份(用户/组/角色)管理；

(2)单点登录SSO(统一登录)；

(3)服务调用鉴权；

(4)数据读取鉴权。

所述统一鉴权与访问控制模块以开源软件keycloak作为用户权限的实际载体，通过对原生keycloak管理接口进行代理、聚合等方式形成简明高效的API能力集，以适应常用的用户管理需求。同时保留对原生API的访问，使得基于keycloak开发的众多开源组件可用，并且支撑专业人员的用户权限管理需求。

数据集成模块，采用Kettle和DataX实现数据集成。所述的数据集成模块包括：

数据源管理子模块，用于维护多个数据源的连接信息，以及验证所述连接的有效性；

数据预览子模块，用于实现对多种数据源内的表结构的查看，以及TOP-N数据的查看；和

任务管理子模块，用于对数据同步任务、数据清洗任务以及数据转换任务的管理。

大数据的一个重要特点就是多样性，这就意味着数据来源极其广泛，数据类型极为繁杂，这种复杂的数据环境给大数据的处理带来极大的挑战。要想处理大数据，首先必须对所需数据源的数据进行抽取和集成，从中提取出数据的实体和关系，经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时，需要对数据进行清洗，保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系，大数据时代的数据往往是先有数据再有模式，并且模式是在不断的动态演化之中的。数据抽取和集成技术并不是一项全新的技术，在传统数据库领域此问题就已经得到了比较成熟的研究。随着新的数据源的涌现，数据集成方法也在不断的发展之中。从数据集成模型来看，现有的数据抽取与集成方式可以大致分为4种类型：基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎、以及基于搜索引擎的方法。

在数据集成相关的技术中，Kettle以数据清洗转换见长，DataX具备更好的同步性能。数据集成模块以这两种软件为基础，根据集成任务的特点将任务交由不同的底层引擎来完成，达到高效的数据集成能力。

如图4所示，数据源管理负责维护多个数据源的连接信息，验证连接的有效性等；数据预览实现对多种数据源内的表结构查看、TOP-N数据查看等功能；任务管理包括且不限于数据同步任务、数据清洗任务、数据转换任务的管理能力；流程管理负责链接多个任务，通过DAG图设计各个任务的执行先后顺序、前置条件等。

统一调度模块，包括若干个控制节点和若干个工作节点，所述控制节点用于实现任务的调度控制，所述工作节点用于根据所述控制节点下发的指令执行具体任务，并将执行结果反馈给所述控制节点。

大数据的计算、分析和处理，一般由很多独立的进程完成，每个进程完成特定的数据处理逻辑。这里的进程称之为数据加工任务。在实际的处理过程中，数据和数据之间存在着先后的顺序依赖关系。比如，要处理数据A，首先要完成数据B的处理，因为A依赖于B的结果。由于数据之间存在关联和依赖关系，对应的数据加工任务之间也有对应的关联和依赖，为保证数据处理的正确结果，要求这些加工任务按照依赖关系有序、高效的执行。

在这样的背景下，任务调度系统应运而生。顾名思义，任务调度系统主要对任务的执行进行调度和管理。调度系统定义任务的规则和属性，对任务的执行顺序和逻辑进行编排，确保任务的高效执行。

如图5所示，统一调度模块由若干控制节点与工作节点构成，其中控制节点负责任务的调度控制，工作节点等待控制节点下发指令执行具体任务并反馈结果给控制节点。

控制节点实现任务的创建、调度流程编辑、手动执行流程、流程执行历史等可视化操作支持。同时收集工作节点的负载信息，对工作节点数量进行动态调控，以提高资源利用率。

工作节点通过监听任务队列，找到分配给当前节点的任务并执行。在执行任务过程中实时反馈任务进度。

数据治理模块，用于进行主数据管理、元数据管理、数据质量管理以及数据标准管理。

大数据时代得益于大数据技术的突破，大量的结构化、非结构化、异构化的数据能够得到储存、处理、计算和分析，一方面提升了从海量数据中获取知识和洞见的能力；另一方面如何将繁杂的数据结构、庞大的数据集、不断变化的元数据信息变成资产，变成可积累的知识，却是一个很难回答的问题。对于业务驱动的公司，做数据治理并不能直接产生业务价值和效益；技术驱动的公司，数据治理也没有很高的技术含量，但是一个没有经过治理的数据，只会随着业务规模的增大，越来越混乱，直到没有人想去碰。因此如何让这繁杂的数据变成数据资产，让数据团队不做重复地工作，拥有更高的效率，成了每一个大数据平台需要解决的问题。

数据治理模块由主数据管理、元数据管理、数据质量管理、数据标准管理等子模块组成。

主数据管理是整合来自多个企业系统、部门的最核心、最需要共享的数据，创建并维护核心数据的完整性、一致性、正确性，并以服务的方式把统一的、标准的主数据提供给其他系统和模块使用。

元数据是对数据进行描述的数据，一般从业务、技术、管理三个维度来定义元数据，元数据管理是把元数据进行集中管理，为开发人员或其他模块提供元数据服务。

数据质量管理是依据质量检查规则，对数据进行质量检核，出具数据质量报告，同时对外提供质量检查服务。

数据标准管理，是针对企业数据制定标准，对数据进行规范，减少不同系统间的数据转换操作，提升数据的合法性、合规性。

数据标准以基础数据标准为起点，对基础数据标准进行组织管理形成特定领域的数据标准。基础数据标准从以下几个维度来描述、规范数据。

表1 基础数据标准

元数据基于Apache Atlas元数据管理框架实现，以Atlas的为基础，扩展其支持的数据源类型，与数据标准、数据质量检测进行集成。

本实施方式引入Griffin作为数据质量解决方案，实现数据一致性检查、空值统计等功能。Apache Griffin提供了一组定义良好的数据质量模型，涵盖了大多数数据质量问题。它还定义了一组数据质量DSL，以帮助用户定义自己的质量标准。

数据开发平台模块，用于建设统一访问层、对数据库进行管理、进行脚本在线编写、管理并维护开发所生成的脚本，该模块通过脚本对数据进行操作。

大数据开发平台是一款用于大数据开发的IDE产品，满足用户对于加工开发、任务调度、运维监控等需求。丰富的算法组件，拖、拉、拽式的开发模式，全图形化的运维界面，降低数据开发、数据挖掘、系统运维对人员的技术要求，加速数据价值化的节奏。

如图6所示，建设统一访问层，打通了多个计算存储引擎如：Spark、TiSpark、Hive、Python和HBase等，对外提供统一REST接口，屏蔽底层引擎对页面的影响；

数据库管理负责提供数据源的增删改查功能，并提供表结构查看、数据预览功能；可视化脚本编辑提供SQL、Pyspark、HiveQL等脚本的在线编写，具备语法高亮、自动补全，错误纠正等能力。工作空间管理负责管理并维护开发所生成的脚本。

开发平台与统一调度相互集成，可通过开发平台发起调度执行；也可以通过统一调度模块，将开发平台的脚本执行作为任务编排到工作流内，同其他模块的任务协同工作。

数据分析模块，用于从数据源中采集数据，根据所搭建的数据分析模型对采集到的数据进行分析，并通过可视化的方式展现各数据分析模型的分析结果。

伴随着社会发展，企业信息化程度越来越高，各种信息系统每天都会产生大量的数据。越来越多的企业都想利用这部分数据进行分析从而获得重要信息，以此拓宽和巩固自己的经济业务和发展疆域。由此，数据分析平台就显得极其重要

数据分析平台最底层的是各种各样的数据源；然后从这些数据源采集各种符合企业需求的数据，经过验证、清洗并转化为所需格式后，储存到一个合适的持久化储存层中；下一阶段是数据分析模型搭建；最后是可视化和展示各个不同分析算法处理的结果。

分析平台需全面覆盖数据分析过程中的各个环节，包括数据采集、清洗、整合、存储、计算、建模、训练、展现、协作等，让用户可以在一个统一的平台上完成全流程数据分析任务，极大降低了实施、集成、培训的成本，帮助企业轻松构建数据应用。

本实施方式的数据分析模块兼容各种数据源类型，支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源，轻松整合所有相关业务数据，帮助企业消灭数据孤岛，基于探索式分析，支持智能推荐图形、图表协同过滤、全维度数据钻取，帮助用户快速定位并发现问题。

多平台数据可视化展现，可在电视、电脑、手机等多终端同步显示，7x24小时不间断展示业务数据动态，方便随时决策。

数据安全模块，用于对访问大数据平台集群以及其中数据的用户和应用进行限制，记录数据来源、使用情况和销毁情况，对数据进行加密和脱敏，对多租户进行隔离，对数据进行侵权保护，以及容灾管理。

随着企业的不断采用及开源组织持续的优化、增强，基于Hadoop生态系统的大数据平台已逐渐成为大数据平台建设的标准产品。然而Hadoop最初的设计并未考虑其安全性，这些平台专注于发展数据处理能力，忽视了其他能力的发展。但Hadoop生态系统作为一个分布式系统，承载了丰富的应用，集中了海量的数据，如何管理和保护这些数据充满了挑战，当前市场上，大数据平台在数据本身的安全管控方面普遍存在严重缺失和较大的漏洞。

从企业内部来说，大数据平台的安全管控能力缺失，导致平台在数据存储、处理以及使用等各环节出现数据泄露的风险较大，安全风险面广，且缺乏有效的处理机制；另一方面，企业敏感数据的所有权和使用权缺乏明确界定和管理，可能造成用户隐私信息的泄露和企业内部数据的泄露，直接造成企业声誉和经济的双重损失。

面对复杂的大数据安全环境，本实施方式的数据安全模块从四个层面综合考虑以建立全方位的大数据安全体系：边界安全、访问控制和授权、数据保护、审计和监控。

(1)边界安全——限制只有合法用户身份的用户访问大数据平台集群以及其中数据

(2)访问控制和授权——定义什么样的用户和应用可以访问数据

(3)数据保护——数据加密和脱敏、多租户隔离、数据侵权保护、以及容灾管理

(4)透明——报告数据从哪里来、如何被使用和销毁

如图7所示，所述数据安全模块主要包括以下子模块：

(1)数据管理子模块，用于对数据的安全等级进行限定；

(2)数据保护子模块，用于对数据进行加密和脱敏，对HDFS文件进行加密，以及防止数据丢失；

(3)统一鉴权与访问控制子模块，用于实现服务加密SSL、集群节点加密和安全域；和

(4)基础安全子模块。

数据安全模块专注于数据的安全，其内部的鉴权与访问控制是基于数据的，将数据权限与角色进行了绑定。

所述的透明主要通过基础安全子模块中的日志、审计单元实现。理解大数据平台中数据的来源、以及知道数据怎么被使用的、以及何人在何地对其进行销毁，这些对监测大数据系统中是否存在非法数据访问非常关键，需要通过安全审计来实现。安全审计的目的是捕获系统内的完整活动记录，且不可被更改。例如：利用审计日志记录用户操作信息，据此可以快速定位系统是否遭受恶意的操作和攻击，并避免审计日志中记录用户敏感信息：确保用户的每一项破坏性业务操作被记录审计，保证用户业务操作可回溯；为系统提供审计日志的查询、导出功能，可为用户提供安全事件的事后追溯、定位问题原因及划分事故责任的重要手段。总之，本实施例的大数据平台能对数据进行全方位安全管控，做到“事前可管、事中可控、事后可查”。另外是日志审计：日志审计作为数据管理、数据溯源以及攻击检测的重要措施不可或缺。大数据平台应具备日志管理和分析能力，然而Hadoop等开源系统只提供基本的日志和审计记录，存储在各个集群节点上，如果要对日志和审计记录做集中管理和分析，仍然需要依靠第三方工具(如ELK等)，本申请实施例日志经过脱敏处理后，实时发送到kafka；运营监控模块读取日志信息进行记录、存储，并提供日志查看、搜索、统计、图表展示等管理分析能力。

所述的对多租户进行隔离通过数据保护子模块中的数据脱敏单元实现。当存储数据为一种特殊的数字内容产品时，其权益保护难度远大于传统的大数据，一旦发生侵权问题，举证和追责过程都十分困难。本实施例的大数据平台，其底层能利用区块链类似技术实现数据的溯源确权。

所述的容灾管理是通过数据保护子模块中的数据防丢失单元实现的，数据防丢失单元为集群内部数据提供实时的异地数据容灾功能，例如spanner作为NewSQL数据库对外提供跨数据中心的容灾机制。

图7中的安全域指数据安全域，是运用虚拟化技术搭建的一个能够访问、操作数据的安全环境，使组织内部的用户在不需要将原始数据提取或下载到本地的情况下，即可完成必要的查看和数据分析。原始数据不离开数据安全域，能够有效防范内部人员盗取数据的风险，数据安全域可以由一个虚拟集群组成，与数据库服务通过网关连接，组织内部永不安装相应的终端软件，可以通过中转机实现对原始数据的访问和操作。

图7中的数据发现结合了一组内置的敏感度标签和一组内置的信息类型和发现逻辑，将潜在的敏感数据抓取出来，并结合打标功能，为大数据分析提供有效的基础数据。

数据服务模块，用于建设统一访问层，提供数据表查看预览、查询语句执行的功能，以及依据表名或查询语句定制REST服务、并进行服务发布。

数据服务模块基于现有数据，将现有数据以API的形式开放给用户使用。

数据服务模块提供了通过单个表或结果集生成REST服务的能力。是大数据平台生产结果对外提供服务的标准途径。

如图8所示，所述数据服务模块建设了统一访问层，打通了多个计算存储引擎如：Spark、TiSpark、Hive、Python和HBase等，对外提供统一JDBC接口，屏蔽底层引擎对服务层的影响。在服务层，提供数据表查看预览、查询语句执行等数据管理功能。可依据表名或查询语句定制REST服务，并进行服务发布。已经发布的服务通过运营监控模块监控其使用状态。

运营监控模块，用于对系统资源的使用情况和服务/调度任务的运行状态进行监控，并且在出现异常时触发报警。

大数据平台的稳定性是使用者最看重的特性，也是平台提供商放在首位的实现目标。因此，不管是对大数据平台提供商还是大数据平台的使用者来说，开发一套监控系统都是非常必要的。监控系统能够帮助用户实时了解系统资源的使用情况和服务/调度任务的运行状态，并且在出现异常时触发报警，及时地通知相关用户，甚至可以自动恢复。

监控系统往往需要对物理硬件和应用软件的性能和参数进行数据汇集，实现集中管理和统一分析。在一个监控系统里，构成要素大体可以分为两部分，即数据采集部分(客户端)和数据存储分析告警展示部分(服务器端)，这两部分构成了监控系统的基本模型。

运营监控模块主体采用开源监控Prometheus。Prometheus使用Go语言开发，基本原理是通过HTTP协议周期性抓取被监控组件的状态，任意组件只要提供对应的HTTP接口就可以接入监控。

如图9所示，所述运营监控模块主要分为以下几个子模块：

(1)基础监控数据采集子模块

(2)数据接收/拉取子模块

(3)调度任务监控子采集

(4)数据存储子模块

(5)告警处理、告警发送子模块

(6)监控Web以及对外服务子模块

其中，所述的对外服务指运营监控模块产生的数据通过API对外开放，例如：近期的告警记录。

平台门户管理模块，用于对平台门户进行管理。

大数据平台子系统的数量很多，各个子系统的操作、维护、管理复杂。大量子系统间形成孤岛，不仅占用操作和维护时间，并且不能直观的把控到整体的情况。所以需要统一的信息展示、统一的系统操作、统一的登录访问。

所述平台门户管理模块的基本架构如图10所示，所述平台门户管理模块主要包括以下几个子模块：

(1)单点登录子模块，所述单点登录是指在一个模块页面登录后，用户的鉴权信息在其他模块、页面中也是登录状态；

(2)统一信息展示子模块，所述统一信息展示指将模块介绍页面、帮助信息、系统通知等在门户中进行整合，实现统一展示与管理；

(3)子系统管理子模块，对于门户来说，其他模块或第三方前端页面均可以称为子系统。子系统管理包括子系统信息的增删改查、页面的挂载点、以及子系统导出的菜单项等内容的管理。

(4)菜单管理子模块，所述菜单管理包括基本信息的增删改查，这些基本信息包括：图标、菜单地址、菜单层级、隐藏菜单等。菜单来源于门户本身以及接入的其他子系统，在菜单管理中可以对这些菜单进行重新分组、排序。

本实施方式所述的一种大数据平台具有以下优点：

(1)采用single-spa进行前端集成

在平台门户管理模块中，采用single-spa技术，对不同模块的前端页面进行集成。基于single-spa的技术特性(多前端框架支持、微前端独立部署运行、新增应用无需改动现有源码等)实现各个模块独立开发、独立部署、独立运行，并在门户上提供统一的访问地址、通过管理模块进行动态管理维护。

(2)基于RestAPI的远程调度机制

在统一调度模块中，提供远程任务调度功能。采用spring-boot的自动化配置机制实现代理组件。代理组件实现以下功能：1.自动将目标模块中的任务进行分析生成任务描述文件；2.生成任务调用API，使任务具备远程调用能力、远程获取过程日志能力。

统一调度模块通过API调用读取任务提供者的描述文件，在前端界面上为用户提供远程任务列表、任务描述、任务参数配置等。使用户可以在流程编辑时添加远程任务。

统一调度模块在流程执行过程中，通过API调用执行远程任务，并实时获取任务过程日志。

通过远程调度，将各模块之间的任务编排到一个流程中，解决不同组件间协同工作的问题。

(3)采用数据访问中间件屏蔽引擎差异

在数据开发平台、数据分析模块、数据服务模块、数据集成模块等均存在多种类型数据源(计算引擎)的访问。数据访问中间件，是对上层应用提供通用的REST、JDBC接口，屏蔽引擎差异，具备可扩展的多引擎访问、管理能力。上层应用通过数据访问中间件，可有效地降低开发使用门槛，减小部署难度，提升资源利用率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：石海龙;
专利申请人：北京天源迪科信息技术有限公司;

上一篇：一种富含氧空位的CuO纳米片及其制备方法和应用
下一篇：一种促进酵母艾利希途径提高黄酒酪醇、色醇含量的方法