掌桥专利:专业的专利平台
掌桥专利
首页

一种元数据核对各项平台数据质量的方法及系统

文献发布时间:2023-06-19 09:46:20


一种元数据核对各项平台数据质量的方法及系统

技术领域

本发明涉及数据处理技术领域,具体来说,涉及一种元数据核对各项平台数据质量的方法及系统。

背景技术

为兼容历史脚本处理,将历史脚本数据进行修改,采用直接发送email通知的方式,但是随着业务数据越来越多,且需求越来越复杂,单纯的关系性数据库解决不了的需求,会将关系型数据库的表同步至其他平台中处理,这时候就对各个平台的数据质量均有较高的要求,需要每天定时或者不定时的主动获取到当天或者T-1天的各个表的数据量以及金额量是否一致,及时监控数据在各个平台的状态,快速处理数据问题。

发明内容

为了克服现有技术的不足,本发明的一种元数据核对各项平台数据质量的方法及系统,能够利用presto作为数据查询引擎,提高查询效率。

本发明解决其技术问题所采用的技术方案是:一种元数据核对各项平台数据质量的方法,其改进之处在于,包括:

S1:元数据管理平台页面配置数据源或者编写sql;

S2:多线程同时处理T-1天的数据量或者金额值;

S3:对oracle数据库中的数据进行查询,并做逻辑比对处理后,在html页面上面进行展示;

S4:将比对后的html页面推送至企业微信。

作为上述技术方案的改进,步骤S1中,配置的内容包括数据库的用户、密码、库表以及业务日期。

作为上述技术方案的进一步改进,步骤S2中,采用多个数据平台多线程同时处理T-1天的数据量或者金额值。

作为上述技术方案的进一步改进,所述的数据量包括大写数据量和小写数据量。

作为上述技术方案的进一步改进,多个所述数据平台包括oracle-sql、hive-sql以及mongo-sql;

所述oracle-sql的大写数据量和小写数据量直接存于oracle数据库;

所述hive-sql处理小写数据量;

所述mongo-sql处理大写数据量。

作为上述技术方案的进一步改进,所述hive-sql的小写数据量经过转义分区字段后存于临时存储单元中。

作为上述技术方案的进一步改进,所述hive-sql的小写数据量先经过presto再存入临时存储单元中。

作为上述技术方案的进一步改进,所述mongo-sql的大写数据量经过转义分区字段后存于临时存储单元中。

作为上述技术方案的进一步改进,所述mongo-sql的大写数据量先经过mongodb进行presto的源码修改后再存入临时存储单元中。

作为上述技术方案的进一步改进,存入临时存储单元中的数据量经过计算sql后数据存储于oracle数据库中。

一种元数据核对各项平台数据质量的系统,其改进之处在于,包括oracle数据库、临时存储单元、元数据管理平台以及比较单元,所述oracle数据库、临时存储单元、元数据管理平台以及比较单元之间电性连接;

所述元数据管理平台用于元数据页面配置数据源或者编写sql,所述oracle数据库用于收集oracle-sql、hive-sql、mongo-sql的各项处理过的数据量,所述临时存储单元用于临时存储hive-sql和mongo-sql处理后的数据量,然后计算sql后发送至oracle数据库,所述对比单元用于比较数据库的数据值和各项金额,页面展示后发送给企业微信。

本发明的有益效果是:

1、优化管理各项重要元数据;

2、任务通知可配置,且能同一管理,不用写过多冗余的脚本;

3、发送企业微信通知,减少响应时长;

4、利用presto作为数据查询引擎,提高了即席查询效率并能将sql解析成对应的mongodb查询语句。

附图说明

图1为本发明的结构结构框架。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,专利中涉及到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。

因为所有数据都是从oracle开始写入的,所以其他所有的集群的数据量及金额聚合等都以oracle的为准,因为比对有一定时效性,对比金额差值在1元以下是准确的。数据条数差异任何一条均为异常需要人为干预排查并处理。

本发明使用到的sql是结构化查询语言(Structured Query Language)的简称,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。

参考图1,本发明揭示了一种元数据核对各项平台数据质量的方法,包括:

S1:元数据管理平台页面配置数据源或者编写sql;

S2:多线程同时处理T-1天的数据量或者金额值;

S3:对oracle数据库中的数据进行查询,并做逻辑比对处理后,在html页面上面进行展示;

S4:将比对后的html页面推送至企业微信。

在上述实施例中,步骤S1中,配置的内容包括数据库的用户、密码、库表以及业务日期。步骤S2中,采用多个数据平台多线程同时处理T-1天的数据量或者金额值。元数据管理平台配置各个集群的数据源,包括需要配置的数据库的用户、密码、库表以及业务日期等等,根据需求设置所需要的表的各项元数据信息,程序将oracle元数据表中的数据进行查询,并在程序做逻辑比对和各种需求处理,并在页面上面展示,然后将比对后的html页面发送至企业微信,在页面上有针对某一个任务的统一开启和禁用通知,同时也设置了人为主动点击来启动任务,任务通知可配置,且能同一管理,不用写过多冗余的脚本,方便业务人员随时了解当前数据状况方便查看和调整各项信息及指标,有问题及时处理。

再进一步的,所述的数据量包括大写数据量和小写数据量。多个所述数据平台包括oracle-sql、hive-sql以及mongo-sql;所述oracle-sql的大写数据量和小写数据量直接存于oracle数据库;所述hive-sql处理小写数据量,小写数据量经过转义分区字段后存于临时存储单元中;所述mongo-sql处理大写数据量,经过转义分区字段后存于临时存储单元中。

在上述实施例中,本发明所述hive-sql的小写数据量先经过presto再存入临时存储单元中,所述mongo-sql的大写数据量先经过mongodb进行presto的源码修改后再存入临时存储单元中。因为hive-sql纯使用hive-sql很慢,引入presto、mongodb,presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,presto有清晰的架构,是一个能够独立运行的系统,不依赖于任何其他外部系统,presto自身提供了对集群的监控,可以根据监控信息完成调度,而且有丰富的插件接口,完美对接外部存储系统,或者添加自定义的函数;mongodb是基于分布式文件存储的数据库,因为不支持sql引擎查询,且presto仅支持小写的数据库和表,所以将presto进行源码修改,使其有一个版本只支持大写。

另外,存入临时存储单元中的数据量经过计算sql后数据存储于oracle数据库中,其中,利用sql计算属于一个成熟的技术手段,本发明不再重复赘述。

一种元数据核对各项平台数据质量的系统,包括oracle数据库、临时存储单元、元数据管理平台以及比较单元,所述oracle数据库、临时存储单元、元数据管理平台以及比较单元之间电性连接;

所述元数据管理平台用于元数据页面配置数据源或者编写sql,所述oracle数据库用于收集oracle-sql、hive-sql、mongo-sql的各项处理过的数据量,所述临时存储单元用于临时存储hive-sql和mongo-sql处理后的数据量,然后计算sql后发送至oracle数据库,所述对比单元用于比较数据库的数据值和各项金额,页面展示后发送给企业微信。

本发明的元数据管理平台页面配置数据源或者编写sql,然后多线程(利用oracle-sql、hive-sql、mongo-sql)同时处理T-1天的数据量或者金额值,对oracle数据库中的数据进行查询,并在比较单元做逻辑比对处理后,在html页面上面进行展示,将比对后的html页面推送至企业微信,在页面上有针对某一个任务的统一开启和禁用通知,同时也设置了人为主动点击来启动任务,任务通知可配置,且能同一管理,不用写过多冗余的脚本,方便业务人员随时了解当前数据状况方便查看和调整各项信息及指标,有问题及时处理。

本发明的有益效果是:

1、优化管理各项重要元数据;

2、任务通知可配置,且能统一管理,不用写过多冗余的脚本;

3、发送企业微信通知,减少响应时长;

4、利用presto作为数据查询引擎,提高了即席查询效率并能将sql解析成对应的mongodb查询语句。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围。

相关技术
  • 一种元数据核对各项平台数据质量的方法及系统
  • 一种元数据质量核查方法及系统
技术分类

06120112293003