掌桥专利:专业的专利平台
掌桥专利
首页

一种基于软件定义开放工具集的数据共享融合平台及方法

文献发布时间:2023-06-19 11:45:49


一种基于软件定义开放工具集的数据共享融合平台及方法

技术领域

本发明涉及数据处理技术领域,更具体地,涉及一种基于软件定义开放工具集的数据共享融合平台及方法。

背景技术

信息资源的融合和整合,能够形成广泛的数据共享,使得数据资源和基础数据的流动加速,进而推动各部门之间的业务创新,对于满足公众政务需求和跨部门合作都有重要的意义。近年来,信息资源的融合和整合的相关技术一直在不断快速的发展。例如,信息高速公路、访问美国工程等,均推动信息资源融合和整合技术的不断进步。

在本专利技术之前,现有的技术主要是对于数据资源的归集,而且开发利用的水平极低,易出现信息孤岛。信息孤岛多源数据分析共享使用流程复杂,不同的业务系统需要不同的共享数据支撑。为满足不同的业务分析使用的需求,当前共享平台中的数据基本上都是分散存储在各式各样的数据源中,各自存储系统接口不同造成多源数据分析环境复杂,造成共享平台数据使用效率低。同时在上层应用开发中缺少统一的数据视图,造成使用成本高。因此,在面对进行业务系统建设过程中,会出现信息孤岛,进而导致数据多份拷贝,无法支撑业务需要的高成本。

发明内容

鉴于上述问题,本发明提出了一种基于软件定义开放工具集的数据共享融合平台及方法,通过软件定义方式建立数据共享融合工具,并结合数据共享融合平台,对共享融合数据进行监管、融合和场景分析,解决信息孤岛数据低效率、高成本问题。

根据本发明实施例第一方面,提供一种基于软件定义开放工具集的数据共享融合平台。该平台包括数据共享共融平台和数据共享融合工具;

所述数据共享共融平台包括共享开放数据归集接口、数据计算接口、组件服务接口、数据使用接口、数据仓库、运行环境、可扩展容器引擎、元数据管理模块、资源目录管理模块、数据质量管理模块、平台服务管理和运行监控模块;

所述数据共享融合工具包括数据处理工具和数据共享工具;

所述共享开放数据归集接口用于对数据共享融合平台的外部的多源信息的接收;

所述数据计算接口用于将计算获得的数据反馈到数据共享融合平台的外部;

所述组件服务接口用于进行所述数据共享共融平台和所述数据共享融合工具之间的数据交互;

所述数据使用接口将数据处理后的数据在数据共享融合平台的外部进行扩展应用。

在一个或多个实施例中,优选地,所述元数据管理模块,具体包括:

元数据存储子模块,用于管理数据源接口、消息中间件和前端展现中的全部接口元数据,并将所述接口元数据按照技术元数据和业务元数据进行分类存储;

元数据查询子模块,用于对所述元数据存储子模块中的元数据基本信息进行查询与检索,并返回查询内容信息,其中,所述查询内容信息包括数据库表、维表、指标、过程和参与输入输出的对象信息;

元数据检查子模块,用于对元数据信息的完整性和合理性进行稽核检查,其中,稽核检查内容包括中间件sql解析成功率、表级关系完整率、字段关系完整率;

元数据校验子模块,用于根据所述资源目录管理模块使用JSR303进行校验参数的合法性。

在一个或多个实施例中,优选地,所述资源目录管理模块,具体包括:

信息资源目录,用于录入部门目录、基础目录和主体目录,并对所述部门目录、所述基础目录和所述主体目录进行维护和管理,其中,所述主体目录包括人口、法人、电子证照;

政务信息资源包括前段码、消息中间件和后段码,其中,所述前段码用于表示政务信息资源的分类,所述后段码用于表示政务信息资源的顺序,所述消息中间件用于存储消息内容;

目录查询子模块,用于根据所述政务信息资源的目录查询和查看对应的信息资源,其中,查询所述政务信息资源需要获得查询资源授权;

目录权限子模块,用于管理人员为不同用户级别进行授权,其中,授权内容包括查看资源授权、查询资源授权、修改资源授权。

在一个或多个实施例中,优选地,所述数据质量管理模块,具体包括:

数据质量管理子模块,用于进行质量规则管理、质量规则执行、数据质量监控、质量问题管理和质量评价报告生成;

数据评估管理子模块,用于进行数据使用评估、数据关系评估、时效性评估、冗余数据评估和重要性评估;

数据稽查管理子模块,用于进行稽查规则管理、稽核任务调度和稽核结果分析。

在一个或多个实施例中,优选地,所述平台服务管理和运行监控模块,具体包括:

平台服务管理子模块,用于注册服务、发现服务、查看已启动服务、查看服务状态;

集群管理子模块,用于在接口调用和集群监测过程中,在无法正常使用时向技术负责人发起问题排查通知;

采集监控子模块,用于以图形化界面形式提供交换任务的监控信息,所述监控信息包括任务调度和实时流量;

监控告警子模块,用于对异常、告警、故障情况进行状态诊断和展示;

日志管理子模块,用于根据操作结果、操作类型、操作时间、操作用户进行日志内容的查询;

性能监测子模块,用于以5分钟间隔进行性能数据的测量,并根据所述性能数据进行历史数据查询和实时数据查询。

在一个或多个实施例中,优选地,所述数据共享工具,具体包括:

运行管理组件,用于将所述数据共享共融平台的运行情况进行收集和归类,并按照预设的运维监控规范,将运行情况数据发送给管理人员;

存储管理组件包括分布式文件存储和分布式内存数据库;

检索管理组件,用于提供检索入口,进行根据关键词的全文检索、分库统计和记录查看;

数据接口组件包括认证接口、数据归集接口组件、数据计算接口组件、数据使用接口组件、平台服务接口,其中所述认证接口、所述数据归集接口组件、所述数据计算接口组件、所述数据使用接口组件和所述平台服务接口的结构都包括请求URL与请求方法;

开源平台组件库包括批量采集组件、分布式文件系统、批处理引擎、内存型批处理引擎、主键查询检索组件、全文检索组件、采集工具、分布式消息组件、存储查询组件、SQL批处理引擎、资源调度引擎、开源计算框架、流处理引擎。

在一个或多个实施例中,优选地,所述数据处理工具,具体包括:

数据交换组件,用于管理数据交换节点和数据交换规则;

数据校验组件,用于对类型、长度、是否为空、精度、范围、格式进行数据校验;

数据管理组件,用于将所述数据共享共融平台的所有的数据、元数据、数据组织到可视化的界面展示给管理员,并支持管理员在线进行资源、目录、元数据的查询和更新;

数据处理组件,用于从数据共享平台中获取业务数据,抽取方式为根据业务进行全量抽取或增量抽取;

数据分析组件,用于分析每个数据任务,并根据集成的算法进行数据挖掘分析,其中,所述集成的算法包括文本语义分析算法和关联规则运算算法。

根据本发明实施例第二方面,提供一种基于软件定义开放工具集的数据共享融合方法。该方法包括:

数据共享共融平台获取全部的多源数据信息;

将所述多源数据信息进行数据共享与归集,生成共享开放数据,其中,所述共享开放数据包括非加密数据和加密数据;

将所述非加密数据直接接入所述数据共享共融平台,将所述加密数据利用区块链以预设格式存储到目标区块链内;

对所述多源数据信息进行预设格式、预设分类和预设接口的数据处理,存储到数据仓库;

对所述数据共享共融平台进行数据归集、数据融合和权限管理,将所述多源数据信息存储为预设形式的元数据、接口数据和多源共享数据;

通过数据共享融合工具与所述数据共享共融平台为所述多源数据信息创建结构化映射表;

在所述数据共享共融平台内建立虚拟结构数据;

通过执行SQL语句访问所述结构化映射表,调用和查新所述虚拟结构数据。

根据本发明实施例第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中任一项所述的方法。

根据本发明实施例第四方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现本发明实施例第一方面中任一项所述的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果:

1)本发明实施例对外部访问者开放数据访问服务时,处于安全角度考虑,支持创建虚拟结构表来对远端访问请求屏蔽本都物理数据源的真实元数据信息和实例信息。

2)本发明实施例提供统一的元数据及SQL访问接口,在访问多源数据库之前,通过数据共享融合工具与平台提供的SQL语法为多源数据库创建结构化映射表,在通过执行SQL语句访问刚刚创建的结构化映射表提升数据查询效率,降低应用开发难度。

3)本发明实施例通过对外部数据通过数据共享融合平台进行归集融合分析,实现多源数据加工流转在一个平台内闭环,数据流动更高效,基于平台实现交互式数据查询,提高数据使用效率。

4)本发明实施例通过数据共享融合平台实现多源数据在一个平台内融合分析,多种数据处理共享同一份数据,数据避免搬迁,解决数据分散和重复存储问题,提高数据查询速度,通过平台服务管理实现资源统一调度,提升数据资源利用率。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于软件定义开放工具集的数据共享融合平台的结构图。

图2是本发明一个实施例的一种基于软件定义开放工具集的数据共享融合平台的应用示意图。

图3是本发明一个实施例的资源目录管理模块的资源数据查阅流程示意图。

图4是本发明一个实施例中的目录查询子模块的查询流程示意图。

图5是本发明一个实施例中的目录权限子模块的权限设置流程示意图。

图6是本发明一个实施例中的数据评估管理子模块的评估管理流程示意图。

图7是本发明一个实施例中的平台服务管理子模块的服务管理流程示意图。

图8是本发明一个实施例中的日志管理子模块的日志管理流程示意图。

图9是本发明一个实施例中的数据校验组件的执行流程示意图。

图10是本发明一个实施例中的数据校验组件的数据解析流程示意图。

图11是本发明一个实施例中的数据校验组件的数据分类流程示意图。

图12是本发明一个实施例中的数据处理组件的执行流程示意图。

图13是本发明一个实施例中的数据管理组件的执行流程示意图。

图14是本发明一个实施例中的数据分析组件的执行流程示意图。

图15是本发明一个实施例的一种基于软件定义开放工具集的数据共享融合平台的多层级技术架构图。

图16是本发明一个实施例的一种基于软件定义开放工具集的数据共享融合方法的流程图。

图17是本发明一个实施例中一种电子设备的结构图。

具体实施方式

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

信息资源的融合和整合,能够形成广泛的数据共享,使得数据资源和基础数据的流动加速,进而推动各部门之间的业务创新,对于满足公众政务需求和跨部门合作都有重要的意义。近年来,信息资源的融合和整合的相关技术一直在不断快速的发展。例如,信息高速公路、访问美国工程等,均推动信息资源融合和整合技术的不断进步。

在本专利技术之前,现有的技术主要是对于数据资源的归集,而且开发利用的水平极低,易出现信息孤岛。信息孤岛多源数据分析共享使用流程复杂,不同的业务系统需要不同的共享数据支撑。为满足不同的业务分析使用的需求,当前共享平台中的数据基本上都是分散存储在各式各样的数据源中,各自存储系统接口不同造成多源数据分析环境复杂,造成共享平台数据使用效率低。同时在上层应用开发中缺少统一的数据视图,造成使用成本高。因此,在面对进行业务系统建设过程中,会出现信息孤岛,进而导致数据多份拷贝,无法支撑业务需要的高成本。

本发明实施例中,提供了一种基于软件定义开放工具集的数据共享融合平台及方法。该方案通过软件定义方式建立数据共享融合工具,并结合数据共享融合平台,对共享融合数据进行监管、融合和场景分析,解决信息孤岛数据低效率、高成本问题。

根据本发明实施例第一方面,提供一种基于软件定义开放工具集的数据共享融合平台。图1是本发明一个实施例的一种基于软件定义开放工具集的数据共享融合平台的结构图。如图1所示,该平台包括数据共享共融平台101和数据共享融合工具102;

所述数据共享共融平台101包括共享开放数据归集接口103、数据计算接口104、组件服务接口105、数据使用接口106、数据仓库107、运行环境108、可扩展容器引擎109、元数据管理模块110、资源目录管理模块111、数据质量管理模块112、平台服务管理和运行监控模块113;

所述数据共享融合工具包括数据处理工具114和数据共享工具115;

所述共享开放数据归集接口103用于对数据共享融合平台的外部的多源信息的接收;

所述数据计算接口104用于将计算获得的数据反馈到数据共享融合平台的外部;

所述组件服务接口105用于进行所述数据共享共融平台和所述数据共享融合工具之间的数据交互;

所述数据使用接口106将数据处理后的数据在数据共享融合平台的外部进行扩展应用。

本发明实施例中,数据共享共融平台和数据共享融合工具通过Eureka实现相互之间的服务注册和发现。其中,数据共享融合平台以微服务架构实现。Eureka是一个基于代表性状态转移的服务,是服务注册和发现的基础组件。Eureka客户端将自己的服务信息登记到服务器上,并在维护自己信息一致性,方便其他服务发现自己,通过Eureka服务器获取到自己依赖的其他服务信息,完成服务调用。具体的,注册表示服务提供者向Eureka服务器端注册自身的元数据以供服务发现。发现表示Eureka客户端通过Eureka服务器获取注册的其他服务信息,从而找到所需要的服务发起远程调用。

因此,数据共享融合平台若要调用数据共享融合工具中的组件,首先要先启动组件服务,向Eureka服务器端注册自身的元数据以供服务发现,在应用启动时,Eureka客户端向Eureka服务器注册自己的服务信息,同时将Eureka服务器的服务信息缓存到本地。Eureka客户端会和Eureka服务器周期性的进行心跳交互,以更新服务租约和服务信息,通过发送心跳到Eureka服务器以维持和更新注册表中服务实例元数据的有效性。在一定时长内,Eureka服务器没有收到Eureka客户端的心跳信息,将默认下线,会把服务实例信息从注册表中删除。服务关闭时候主动向Eureka服务器注销服务实例元数据,服务提供方实例数据将从Eureka服务器的注册表中删除。

图2是本发明一个实施例的一种基于软件定义开放工具集的数据共享融合平台的应用示意图。如图2所示,所述数据共享融合平台实现元数据管理、资源目录管理、数据质量管理、平台服务管理、平台运行监控以及数据归集接口、数据使用接口、数据计算接口、组件服务接口功能。所述数据归集接口实现数据共享与归集,共享开放数据分两类。1)非加密数据由平台可共享开放数据归结接口直接汇入平台,2)加密数据使用区块链客户端以智能合约为依托存入区块链,依据智能合约中数据开放权限联盟成员之间数据共享。所述数据计算接口主要实现外部数据与数据共享融合平台对接通道,实现数据的高性能计算处理。所述组件服务接口主要实现组件的注册与发现服务是数据共享融合平台与数据共享融合工具之间的通道。所述数据使用接口主要实现数据共享融合平台数据应用,包括交互式应用、搜索应用、实时报表、实时决策分析、企业征信管理、机构金融风险等。

在一个或多个实施例中,优选地,所述元数据管理模块110,具体包括:

元数据存储子模块,用于管理数据源接口、消息中间件和前端展现中的全部接口元数据,并将所述接口元数据按照技术元数据和业务元数据进行分类存储;

元数据查询子模块,用于对所述元数据存储子模块中的元数据基本信息进行查询与检索,并返回查询内容信息,其中,所述查询内容信息包括数据库表、维表、指标、过程和参与输入输出的对象信息;

元数据检查子模块,用于对元数据信息的完整性和合理性进行稽核检查,其中,稽核检查内容包括中间件sql解析成功率、表级关系完整率、字段关系完整率;

具体的,结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。

元数据校验子模块,用于根据所述资源目录管理模块使用JSR303进行校验参数的合法性。

具体的,JSR是Java Specification Requests的缩写,表示Java规范提案。一个标准化技术规范的正式请求形式。

在本发明实施例中,所有数据源的数据会汇集到数据共享融合平台的存储系统之中。所有的数据按照资源配置分类存放。进行查询时可以通过特定条件对资源下的数据进行查阅。首先,需要进行目标管理,实现部门目录、基础目录、主体目录的及各部门政务信息资源目录管理。该目录里面是所有政务信息资源。包括人口、法人、电子证照基础目录管理。政务信息资源代码结构由前段码、消息中间件、后段码组成。前段码由类、项、目、细、目组成,作为政务信息资源的分类码;消息中间件为实际传输内容;后段码为政务信息资源的顺序码。目录查询组要是根据结果排序实现多维度目录查询及查看目录下经授权的信息资源。目录权限管理用于对管理人员为不同用户级别进行授权,满足不同用户对目录浏览、检索的权限要求。

图3是本发明一个实施例的资源目录管理模块的资源数据查阅流程示意图。如图3所示,在一个或多个实施例中,优选地,所述资源目录管理模块111,具体包括:

信息资源目录,用于录入部门目录、基础目录和主体目录,并对所述部门目录、所述基础目录和所述主体目录进行维护和管理,其中,所述主体目录包括人口、法人、电子证照;

政务信息资源包括前段码、消息中间件和后段码,其中,所述前段码用于表示政务信息资源的分类,所述后段码用于表示政务信息资源的顺序,所述消息中间件用于存储消息内容;

目录查询子模块,用于根据所述政务信息资源的目录查询和查看对应的信息资源,其中,查询所述政务信息资源需要获得查询资源授权;

目录权限子模块,用于管理人员为不同用户级别进行授权,其中,授权内容包括查看资源授权、查询资源授权、修改资源授权。

图4是本发明一个实施例中的目录查询子模块的查询流程示意图。如图4所示,通过选择不同数据分类和数据的二级分类,进而检索关键词,通过查询列表实现多维度的目录查询。

图5是本发明一个实施例中的目录权限子模块的权限设置流程示意图。如图5所示,用户通过角色选择进行,匹配不同类型的权限组,进而根据其权限组类型进行数据权限的管理。最终,实现管理人员为不同用户级别进行授权,满足不同用户对目录浏览、检索的权限要求。

在一个或多个实施例中,优选地,所述数据质量管理模块112,具体包括:

数据质量管理子模块,用于进行质量规则管理、质量规则执行、数据质量监控、质量问题管理和质量评价报告生成;

数据评估管理子模块,用于进行数据使用评估、数据关系评估、时效性评估、冗余数据评估和重要性评估;

数据稽查管理子模块,用于进行稽查规则管理、稽核任务调度和稽核结果分析。

在本发明实施例中,实现包括支持质量规则管理、质量规则执行、数据质量监控、质量问题管理和质量评价报告。数据评估管理用于实现包括数据使用评估、数据关系评估、时效性评估、冗余数据评估和重要性评估。数据稽查管理用于实现包括稽查规则管理、稽核任务调度和稽核结果分析。

图6是本发明一个实施例中的数据评估管理子模块的评估管理流程示意图。通过数据合法性判断,进行合法数据归类和非合法数据的标记,进一步,进行数据属性的组合条件选择,形成定制化数据,进而实现包括数据使用评估、数据关系评估、时效性评估、冗余数据评估和重要性评估。

在一个或多个实施例中,优选地,所述平台服务管理和运行监控模块113,具体包括:

平台服务管理子模块,用于注册服务、发现服务、查看已启动服务、查看服务状态;

集群管理子模块,用于在接口调用和集群监测过程中,在无法正常使用时向技术负责人发起问题排查通知;

采集监控子模块,用于以图形化界面形式提供交换任务的监控信息,所述监控信息包括任务调度和实时流量;

监控告警子模块,用于对异常、告警、故障情况进行状态诊断和展示;

日志管理子模块,用于根据操作结果、操作类型、操作时间、操作用户进行日志内容的查询;

性能监测子模块,用于以5分钟间隔进行性能数据的测量,并根据所述性能数据进行历史数据查询和实时数据查询。

在本发明实施例中,平台服务管理用于对各种服务进行管理的功能,包括注册/发现服务、查看系统所有服务、查看当前系统已启动服务、查看指定服务的服务状态。平台运行监用于集群管理、采集监视、监控告警、日志管理和性能监测。

具体的,集群管理针对接口调用及系统集群监测过程中由于某种原因导致接口无法正常使用或集群压力过大,无法正常提供服务,而必须要通知到相关的负责人并进行处理的一系列问题。实现节点管理和集群监控管理。

具体的,采集监控用于以图形化界面形式提供给平台管理员对交换任务进行监控,主要包括任务调度监控及实时流量监控。实现以图形方式展现前置机信息和状态,包括各前置机的运行状态、系统性能及资源占用情况,日志及系统异常情况,各前置交换子系统部署的交换服务运行情况。

图7是本发明一个实施例中的平台服务管理子模块的服务管理流程示意图。如图7所示,通过创建人员、管理人员进行查看和申请资源,审核和执行人员进行创建发表和确认发布,测试者进行服务发布状态和沙箱测试结果判断,最终由观察元给出最终结果,进而支持对各种服务进行管理的功能,包括注册/发现服务、查看系统所有服务;查看当前系统已启动服务;查看指定服务的服务状态。

图8是本发明一个实施例中的日志管理子模块的日志管理流程示意图。如图8所示,通过查询信息并选择对应日志获得更加详细的日志信息,此过程中,设置有固定的根据查询条件,返回正确的查询结果,并提供日志详情的查看;最终,可查看用户操作日志,用户操作日志包括对用户登入、登出、权限变更、IP、操作类型、操作内容、操作时间等内容的记录与展示;具体的,支持系统日志查看,系统日志包括对系统启动、关闭、用户增减、用户登录、权限变更、性能异常、功能异常、硬件异常、网络异常、危险操作等内容的记录与展示。

在一个或多个实施例中,优选地,所述数据共享工具115,具体包括:

运行管理组件,用于将所述数据共享共融平台的运行情况进行收集和归类,并按照预设的运维监控规范,将运行情况数据发送给管理人员;

存储管理组件包括分布式文件存储和分布式内存数据库;

检索管理组件,用于提供检索入口,进行根据关键词的全文检索、分库统计和记录查看;

数据接口组件包括认证接口、数据归集接口组件、数据计算接口组件、数据使用接口组件、平台服务接口,其中所述认证接口、所述数据归集接口组件、所述数据计算接口组件、所述数据使用接口组件和所述平台服务接口的结构都包括请求URL与请求方法;

开源平台组件库包括批量采集组件、分布式文件系统、批处理引擎、内存型批处理引擎、主键查询检索组件、全文检索组件、采集工具、分布式消息组件、存储查询组件、SQL批处理引擎、资源调度引擎、开源计算框架、流处理引擎。

图9是本发明一个实施例中的数据校验组件的执行流程示意图。如图9所示,数据校验内容支持对类型、长度、是否为空、精度、范围、格式等信息进行数据校验。

图10是本发明一个实施例中的数据校验组件的数据解析流程示意图。如图10所示,数据解析提供将分散的、异构数据源中的数据如关系数据、非关系数据、数据文件、FTP消息中间件等抽取到临时中间层后进行入库前的数据类型校验功能以及针对海量数据的高性能数据解析功能。

图11是本发明一个实施例中的数据校验组件的数据分类流程示意图。如图11所示,在发生数据数据采集时,各业务部门采集的数据向数据中心前置库系统传入要校验的数据条目信息,前置库校验该条目信息是否吻合一致,如果一致相符,则返回对比成功,否则返回比对错误,并将各业务部门采集准确的信息返回给调用者。在向业务部门数据同步时,数据校验用于比对导入数据和业务部门数据的一致性,如果一致,则不需要重复导入,如果不一致,则用最新的数据覆盖不一致信息。数据校验比对工具,要将检查比对的结果以便于阅读分析的报告形式展现给用户。

图12是本发明一个实施例中的数据管理组件的执行流程示意图。如图12数据管理模块主要将交换平台下所有数据、元数据、数据所属等信息组织成可视化的界面展示给管理员,管理员可在线完成资源、目录、元数据的查询/更新的管理工作。在进行数据交换时,数据任务会根据数据的资源ID,获取相关资源配置对数据进行检测校验等操作。

图13是本发明一个实施例中的数据处理组件的执行流程示意图。如图13所示,所述数据处理组件支持从数据共享平台中获取业务数据。数据来源为业务系统和文件系统,抽取方式支持根据具体业务进行全量抽取或增量抽取,根据具体业务制定抽取的时间、频率,支持对这些参数进行配置。

图14是本发明一个实施例中的数据分析组件的执行流程示意图。

如图14所示,在一个或多个实施例中,优选地,所述数据处理工具114,具体包括:

数据交换组件,用于管理数据交换节点和数据交换规则;

数据校验组件,用于对类型、长度、是否为空、精度、范围、格式进行数据校验;

数据管理组件,用于将所述数据共享共融平台的所有的数据、元数据、数据组织到可视化的界面展示给管理员,并支持管理员在线进行资源、目录、元数据的查询和更新;

数据处理组件,用于从数据共享平台中获取业务数据,抽取方式为根据业务进行全量抽取或增量抽取;

数据分析组件,用于分析每个数据任务,并根据集成的算法进行数据挖掘分析,其中,所述集成的算法包括文本语义分析算法和关联规则运算算法。

图15是本发明一个实施例的一种基于软件定义开放工具集的数据共享融合平台的多层级技术架构图。如图15所示,所述基于软件定义开放工具集的数据共享融合平台包括了多个技术层级,分别包括数据资源层、数据采集层、数据融合层和数据服务层。在数据资源层进行数据的获取,在数据采集层进行数据交互服务,在数据融合层技术数据的预处理、存储和分析,在数据服务层形成应用功能并协调融合分析。

根据本发明实施例第二方面,提供一种基于软件定义开放工具集的数据共享融合方法。图16是本发明一种基于软件定义开放工具集的数据共享融合方法的流程图。如图16所示,该方法包括:

S1601、数据共享共融平台获取全部的多源数据信息;

S1602、将所述多源数据信息进行数据共享与归集,生成共享开放数据,其中,所述共享开放数据包括非加密数据和加密数据;

S1603、将所述非加密数据直接接入所述数据共享共融平台,将所述加密数据利用区块链以预设格式存储到目标区块链内;

S1604、对所述多源数据信息进行预设格式、预设分类和预设接口的数据处理,存储到数据仓库;

S1605、对所述数据共享共融平台进行数据归集、数据融合和权限管理,将所述多源数据信息存储为预设形式的元数据、接口数据和多源共享数据;

S1606、通过数据共享融合工具与所述数据共享共融平台为所述多源数据信息创建结构化映射表;

S1607、在所述数据共享共融平台内建立虚拟结构数据;

S1608、通过执行SQL语句访问所述结构化映射表,调用和查新所述虚拟结构数据。

在本发明实施例中,数据共享融合平台解决数据共享过程中多源数据接入分析低效率问题,实现一个SQL连接多个数据源统一访问,实现元数据模型一致、权限模型模型一致、访问模型一致、管理模型一致实现多源易购数据源信息的统一管理。基于数据共享的开放平台与工具集,数据接入层由平台运营单位将原有的数据接口,接入数据共享平台中。提供业务系统数据接口重构服务,形成与业务对应的数据接口。数据共享融合工具解决可编程的数据分析处理环境高成本的问题,平台提供一系列数据处理的组件工具和已经完成的大量算法组件,以服务的方式对接数据共享开放平台对应的环境,数据使用方可采用组件化的开发方法,提高数据的处理和分析效率,解决业务数据分析处理环境建设高成本问题。

根据本发明实施例第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中任一项所述的方法。

根据本发明实施例第四方面,提供一种电子设备。图17是本发明一个实施例中一种电子设备的结构图。图17所示的电子设备为通用数据共享融合装置,其包括通用的计算机硬件结构,其至少包括处理器1701和存储器1702。处理器1701和存储器1702通过总线1703连接。存储器1702适于存储处理器1701可执行的指令或程序。处理器1701可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器1701通过执行存储器1702所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线1703将上述多个组件连接在一起,同时将上述组件连接到显示控制器1704和显示装置以及输入/输出(I/O)装置1705。输入/输出(I/O)装置1705可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置1705通过输入/输出(I/O)控制器1706与系统相连。

本发明的实施例提供的技术方案可以包括以下有益效果:

1)本发明实施例对外部访问者开放数据访问服务时,处于安全角度考虑,支持创建虚拟结构表来对远端访问请求屏蔽本都物理数据源的真实元数据信息和实例信息。

2)本发明实施例提供统一的元数据及SQL访问接口,在访问多源数据库之前,通过数据共享融合工具与平台提供的SQL语法为多源数据库创建结构化映射表,在通过执行SQL语句访问刚刚创建的结构化映射表提升数据查询效率,降低应用开发难度。

3)本发明实施例通过对外部数据通过数据共享融合平台进行归集融合分析,实现多源数据加工流转在一个平台内闭环,数据流动更高效,基于平台实现交互式数据查询,提高数据使用效率。

4)本发明实施例通过数据共享融合平台实现多源数据在一个平台内融合分析,多种数据处理共享同一份数据,数据避免搬迁,解决数据分散和重复存储问题,提高数据查询速度,通过平台服务管理实现资源统一调度,提升数据资源利用率。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种基于软件定义开放工具集的数据共享融合平台及方法
  • 一种基于软件定义网络的开放虚拟网络构建系统和方法
技术分类

06120113047638