掌桥专利:专业的专利平台
掌桥专利
首页

公共数据归集系统

文献发布时间:2023-06-19 19:28:50


公共数据归集系统

技术领域

本申请涉及公共数据管理技术领域,尤其是涉及一种公共数据归集系统。

背景技术

建立城市大脑赋能数字化政府和经济,其为当前的一个热门话题。

为帮助相关部门和单位实施上述政策 ,需要对地域各级辖区的公共资源数据做归集,以支持省、市、县落实项目,诸如推动政策、政务一网通等。

目前,各辖区、各部门单位大多有着自己的一套系统,系统之间大多孤立,导致数据归集操作相对不便,因此本申请提出一种新的技术方案。

发明内容

为了改善数据归集的便捷性,本申请提供一种公共数据归集系统。

本申请提供一种公共数据归集系统,采用如下的技术方案:

一种公共数据归集系统,包括数据集成工作台、平台看板和资源编目;

其中,所述数据集成工作台包括:

任务开发工作台模块,其用于通过插件的形式实现不同类型的输入、输出以及数据处理的支持;

任务列表模块,其用于响应用户输入的按需配置调度策略,确定任务运行周期;

所述平台看板包括:数据归集模块;所述数据归集模块用于展示数据目录数量、数据归集数量、数据目录归集数量、数据目录归集率和市区县数据汇总,并支持对应数据的导出和查询;

所述资源编目包括:

归集目录模块,其用于展示已提交归集申请的数据编目数据、支持查询及各明细删除;

归集数据同步到省平台模块,其用于展示已推送省平台的编目,管理是否将编目的归集状态、数据量信息推送到省平台;

归集部门同步到省平台,其用于展示已推送省平台的编目,管理是否将编目的数源部门推送到省平台。

可选的,所述任务开发工作台模块包括:

插件查询单元,其用于为输入、处理和输出分别提供插件查询;

配置及查看单元,其用于对输入、处理和输出的对应插件进行配置和查看;

画布展示窗口,其用于展示输入、处理和输出三者对应插件的联系。

可选的,所述任务列表模块,其包括:

策略配置单元,其用于响应用户输入,确定激活状态、执行类型、周期以及执行时间;其中,所述执行时间包括频率性、具体日期或排除日期确定;

查询单元,其用于支持以部门的关键字查询对应的任务;

展示窗口,其用于对任务的关键信息做展示。

可选的,所述数据集成工作台还包括:模板管理模块、告警信息模块、日志信息模块和全局配置模块。

可选的,还包括:数据开发工作台;所述数据开发工作台用于实现包含各个不同任务类型的dag配置,进行不同任务流程的上下游依赖调度。

可选的,还包括可视化实战研判应用,其用于通过BI可视化分析工具,配置分析报表,对外进行展示。

可选的,所述可视化实战研判应用包括:

工作表管理模块,其用于管理数据源,添加工作表,预览工作表数据、编辑工作表、查看工作表任务,以及配置多个工作表间的条件;

模型仓配置模块,其用于创建模型、查看模型信息、配置图表、发布模型,以及分享模型给指定人员;

驾驶舱管理模块,其用于创建新驾驶舱、添加多个模型中的图表、配置全局筛选、配置联动图表和配置链接跳转。

可选的,通过数据集成工作台接入或再次通过工具计算后存储在专属数据仓中的数据,通过接口配置中心封装接口统一对外部应用提供数据服务。

综上所述,本申请包括以下至少一种有益技术效果:本系统可以用作对各部门、单位的资源数据进行集成,并便捷发送至各级单位、部门,有助于展开公共数据归集工作;且,任务开发工作台、数据开发工作台操作简易,可直接由用户通过画布拖拽式操作,实现对不同类型输入、输出、数据处理的组合,数据集成、处理灵活配置,具备极为便捷的可扩展性。

附图说明

图1是本系统的任务开发工作台的页面示意图;

图2是本系统的任务列表的页面示意图;

图3是本系统的平台看板的页面示意图;

图4是本系统的归集目录的页面示意图;

图5是本系统归集数据同步到省平台的页面示意图;

图6是本系归集部门同步到省平台的页面示意图;

图7是本系统的数据开发工作台的DAG页面示意图;

图8是本系统的数据开发工作台的spark页面示意图;

图9是本系统模型仓页面示意图;

图10是驾驶舱的页面示意图。

具体实施方式

以下结合附图1-10对本申请作进一步详细说明。

本申请实施例公开一种公共数据归集系统。

公共数据归集系统,其分属政务网一类,以计算机输入访问地址进行访问;可以理解的是,其配置诸如:账户登录模块,授权指定账号进行访问。本系统包括数据集成工作台、平台看板和资源编目。

其中,基于数据集成工作台可实现海量原始数据(特别是增量数据)的多线程、快速抽取;在本实施例中,数据集成工作台通过插件的形式实现对不同类型输入、输出、数据处理的支持,具备极为便捷的可扩展性。

参照图1,上述数据集成工作台包括:

任务开发工作台模块,其用于通过插件的形式实现不同类型的输入、输出以及数据处理的支持;

任务列表模块,其用于响应用户输入的按需配置调度策略,确定任务运行周期。

在本系统的一个实施例中,任务开发工作台,包括:

插件查询单元,其用于为输入、处理和输出分别提供插件查询;其在任务开发工作台的展示界面中的显示信息位于右侧;头部分别是输入插件、处理插件、输出插件三个选项,每一个选项下对应一个插件检索栏,并展示多个预加载库中的插件名;

配置及查看单元,其用于对输入、处理和输出的对应插件进行配置和查看;其在任务开发工作台的展示界面中的显示信息位于左下部;以输入插件为例,头部是:输入源配置、数据表配置、输入字段查看和属性配置;头部的下方,则是对应项的具体操作窗口和交互信息展示;

画布展示窗口,其用于展示输入、处理和输出三者对应插件的联系,且处理插件展示为字段映射插件;其在任务开发工作台的展示界面中的显示信息位于左上部;需要注意的是,前述查找到的插件,通过画布拖拽式交互的方式移动至该窗口,配置相应数据同步任务;输入、处理、处理三者依次连线,建立、展示相互关系;在此,处理又展示为:字段映射插件。

可以理解的是,上述展示功能、方法均以对应的计算机程序实现;下述同理,不再赘述。

在本系统的一个实施例中,参照图2,任务列表模块,包括:

策略配置单元,其用于响应用户输入,确定激活状态、执行类型、周期以及执行时间;其中,所述执行时间包括频率性、具体日期或排除日期确定;

查询单元,其用于支持以部门的关键字查询对应的任务;

展示窗口,其用于对任务的关键信息(诸如:任务名称、创建人、修改时间、所属分组……)做展示。

如图2所示,各任务以匹配的部门为标准进行划分,并以部门名称为根目录的名称于系统交互界面的左部排列展示。当用户选中某一任务,例如:test_0731,则弹出策略配置对应的页面,页面从上到下依次是:

激活状态项:该处可选择全量、增量、全量+增量等几种数据变化方式为任务激活模式。

执行类型项:批处理或实时。批处理,即,按照批次处理任务;要求批次的周期至少大于5分钟。

周期配置项:具体以日历的形式展示,用选定始末时间日期即可。

执行时间项:左侧分布三个选择,频率性、具体日期、排除日期;右侧,以左侧选择频率性为例:头部项,依次是每日、每周、每月、小时、分钟;头部项选择后则为对应时间,如:每日对应24小时可选;每周为一周七天时间可选;每月为一个月的每一天可选。

任务配置完成后,按需配置调度策略,确定任务运行周期。如配置了全量+增量的周期性数据同步任务,可以将平台上已申请通过并授权的其他部门的批量数据,或本地的其他数据库中的数据,同步到部门专属数据仓中,并自动定期同步增量数据。

在本申请的一个实施例中,数据集成工作台除了上述,还包括模板管理模块、告警信息模块、日志信息模块和全局配置模块。

模板管理模块,即用户可以通过其上传、修改、删除诸如任务模板。实现为:用户以鼠标、键盘输入交互指令+交互信息,模块对应的计算机程序响应执行线下文档抓取发送、线上/库数据修改、删除。以下类同为现有计算机程序手段,不再赘述。

告警信息模块,诸如,用户配置一告警条件,当某一任何满足告警条件,则告警信息模块输出、展示异常任务的信息。

全局配置模块,即用户可以统一配置所有部门的任务的基础要求,统一修改。

日志信息模块,即诸如错误日志、操作日志等,类同计算机系统日志,不再赘述。

在本系统的一个实施例中,数据集成工作台支持接入的数据库类型包括HDFS、ElasticSearch 、Hive、Dameng、Postgresql、Impala、Redis、Kafka、Rabbitmq、Oracle、MySql、Kudu、Activemq、Mariadb、Mongodb、GaussDB、SQLServer、Cassandra、bcp、Greenplum、HANA、HbaseV1、HbaseV2、Txt等。

在本系统的一个实施例中,平台看板包括:数据归集模块。

参照图3,其中,数据归集模块对应的页面,用于展示数据目录数量、数据归集数量、数据目录归集数量、数据目录归集率和市区县数据汇总,并支持对应数据的导出和查询。

在本系统的一个实施例中,资源编目包括:

归集目录模块,其用于展示已提交归集申请的数据编目数据、支持查询及各明细删除;页面展示已提交归集申请的数据编目数据,如图4。展示页面中有序号、信息资源名称、表物理名称、申请人、数据源、工单状态、操作几个头部选项;用户可用工单状态进行条件筛选;持用信息系统名称/表名进行模糊查询;点击操作选项下的”查看”,浏览器新开标签页展示该工单的申请详细页,点击操作选项下的“删除”,可将已申请的归集工单记录进行删除;同时,在头部选项最左侧,每一个信息资源有勾选框;用户可以勾选一条/多条归集工单数据,点击批量删除,可实现批量删除归集工单数据。

归集数据同步到省平台模块,其用于展示已推送省平台的编目,管理是否将编目的归集状态、数据量信息推送到省平台;如图5所示,点击对应页面中的“推送”按钮将编目的归集状态、数据量信息推送到省平台;在右上角搜索框中输入信息资源名称或者数源部门名称搜索;点击搜索框旁边的筛选按钮,弹出下拉框,选择推送状态和数源部门筛选列表

归集部门同步到省平台,其用于展示已推送省平台的编目,管理是否将编目的数源部门推送到省平台。如图6所示,点击对应页面中的 “推送”按钮将编目的归集状态、数据量信息推送到省平台;在右上角搜索框中输入信息资源名称或者数源部门名称搜索;点击搜索框旁边的筛选按钮,弹出下拉框,选择推送状态和数源部门筛选列表。

本系统还包括:数据开发工作台。

其中,数据开发工作台用于实现包含各个不同任务类型的dag配置(有向无环图),进行不同任务流程的上下游依赖调度。

参照图7,数据开发工作台的展示界面中主窗口为画布窗口,右侧一列为任务类型及工具栏,有诸如:开始、结束、停止、分支、合并等;以及各种类型任务插件,以拖曳的方式,可通过拖曳的方式牵拉至画布窗口。

参照图8,以spark任务类型为例,在左侧可添加需要计算的数据源与数据表。

在中间部分,可配置数据处理的条件。系统提供了画布拖拽配置、自定义sql输入以及自定义算子三种配置形式。其中,自定义算子可以在工具中进行保存,以供不同任务调用。

在右侧输出部分,可配置数据处理后的输出。工具提供了自动建表的能力,在页面上配置好表名、字段及其他相关属性信息后,点击确定,可直接在对应数据库中创建物理表。

配置完成后的任务,可提交到作业中心进行统一调度运行。

本系统还包括:可视化实战研判应用,其用于通过BI可视化分析工具,配置分析报表,对外进行展示。

可视化实战研判应用包括:

工作表管理模块,其用于管理数据源,添加工作表,预览工作表数据、编辑工作表、查看工作表任务,以及配置多个工作表间的条件。

如图9所示,模型仓配置模块,其用于创建模型、查看模型信息、配置图表、发布模型,以及分享模型给指定人员。

如图10所示,驾驶舱管理模块,其用于创建新驾驶舱、添加多个模型中的图表、配置全局筛选、配置联动图表和配置链接跳转;驾驶舱设计由三部分组成:左侧的图表预览页面,可将不同模型的图表拖入画布。中间为设计画布,为驾驶舱展示区域。右侧为样式设计区域,可拖入插件,主题样式设计,单张图表的对应设计。

在本系统的一个实施例中,系统通过数据集成工作台接入,或再次通过工具计算后存储在专属数据仓中的数据,可通过接口配置中心封装接口统一对外部应用提供数据服务。

接口配置中心分为基础接口的配置、外部接口的封装、复合接口的配置、API网关的认证转发。

在基础接口配置模块,可选择专属数据仓中的表(一个或多个)配置查询条件。支持直接键入sql,也可以在画布中拖拽配置连接关系。完成输入参数、输出参数、条件、分组等配置后,再配置API网关,即可对外提供调用服务。复合接口的配置,可以将多个接口进行聚合,将入参、出参进行统一映射,实现所有接口数据的统一返回或顺序返回。

综上所述,本系统可以用作对各部门、单位的资源数据进行集成,并便捷发送至各级单位、部门,有助于展开公共数据归集工作;且,任务开发工作台、数据开发工作台操作简易,可直接由用户通过画布拖拽式操作,实现对不同类型输入、输出、数据处理的组合,数据集成、处理灵活配置,具备极为便捷的可扩展性。

以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

相关技术
  • 一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质
  • 一种海量多元数据智能归集系统及归集方法
技术分类

06120115923885