掌桥专利:专业的专利平台
掌桥专利
首页

一种数据治理规范处理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:07:15


一种数据治理规范处理方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域,尤其涉及一种数据治理规范处理方法、装置、电子设备及存储介质。

背景技术

在现有技术中,多个应用系统的不同类型的数据库数据或者excel/csv文档及其他形式数据可以进行实时定时抽取汇聚到目标专题库,以支撑上层可视化系统、应用系统进行数据展示。

然而,上述方法在数据抽取清洗后,没有图形化数据可视化,另外,数据管理没有进行针对不同的使用者进行用户管理和权限分配。

发明内容

本发明提供了一种数据治理规范处理方法、装置、电子设备及存储介质,用于解决现有技术无法直观地了解数据处理过程中的数据变化趋势的技术问题。

本发明提供了一种数据治理规范处理方法,包括:

接收用户在前端配置的配置数据;

解析所述配置数据得到数据源配置信息、目标源配置信息和抽取清洗逻辑;

基于所述数据源配置信息、目标源配置信息和所述抽取清洗逻辑生成步骤逻辑;

对所述步骤逻辑进行初始化形成作业;

执行所述作业,得到目标源数据;

向所述前端返回所述目标源数据,以使所述前端基于所述目标源数据生成可视化图形。

可选地,所述向所述前端返回所述目标源数据,以使所述前端基于所述目标源数据生成可视化图形的步骤之前,还包括:

监控所述作业的执行过程,得到过程数据;

所述向所述前端返回所述目标源数据,以使所述前端基于所述目标源数据生成可视化图形的步骤,包括:

实时对所述过程数据和所述目标源数据进行编码,生成编码数据,并将所述编码数据返回至所述前端;所述前端用于解析所述编码数据得到所述过程数据和所述目标源数据,并基于所述过程数据和所述目标源数据生成可视化图形。

可选地,所述执行所述作业,得到目标源数据的步骤,包括:

获取调度起始时间;

根据所述调度起始时间执行所述作业,得到目标源数据。

可选地,还包括:

确定所述数据源配置信息对应的数据源的分类层级;

根据所述分类层级保存所述数据源配置信息、所述目标源配置信息、所述目标源数据和所述抽取清洗逻辑。

本发明还提供了一种数据治理规范处理装置,包括:

配置数据配置模块,用于接收用户在前端配置的配置数据;

解析模块,用于解析所述配置数据得到数据源配置信息、目标源配置信息和抽取清洗逻辑;

步骤逻辑生成模块,用于基于所述数据源配置信息、目标源配置信息和所述抽取清洗逻辑生成步骤逻辑;

初始化模块,用于对所述步骤逻辑进行初始化形成作业;

作业执行模块,用于执行所述作业,得到目标源数据;

返回模块,用于向所述前端返回所述目标源数据,以使所述前端基于所述目标源数据生成可视化图形。

可选地,还包括:

过程数据获取模块,用于监控所述作业的执行过程,得到过程数据;

所述返回模块,包括:

返回子模块,用于实时对所述过程数据和所述目标源数据进行编码,生成编码数据,并将所述编码数据返回至所述前端;所述前端用于解析所述编码数据得到所述过程数据和所述目标源数据,并基于所述过程数据和所述目标源数据生成可视化图形。

可选地,所述作业执行模块,包括:

调度起始时间获取子模块,用于获取调度起始时间;

作业执行子模块,用于根据所述调度起始时间执行所述作业,得到目标源数据。

可选地,还包括:

分类层级确定模块,用于确定所述数据源配置信息对应的数据源的分类层级;

保存模块,用于根据所述分类层级保存所述数据源配置信息、所述目标源配置信息、所述目标源数据和所述抽取清洗逻辑。

本发明还提供了一种电子设备,所述设备包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的数据治理规范处理方法。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的数据治理规范处理方法。

从以上技术方案可以看出,本发明具有以下优点:本发明公开了一种数据治理规范处理方法,包括:接收用户在前端配置的配置数据;解析配置数据得到数据源、目标源类型和抽取清洗逻辑;基于数据源、目标源类型和抽取清洗逻辑生成步骤逻辑;对步骤逻辑进行初始化形成作业;执行作业,获取目标源类型对应的目标源数据;向前端返回目标源数据;基于目标源数据生成可视化图形。从而实现了数据处理过程的可视化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种数据治理规范处理方法的步骤流程图;

图2为本发明另一实施例提供的一种数据治理规范处理方法的步骤流程图;

图3为本发明实施例提供的一种数据治理规范处理装置的结构框图。

具体实施方式

本发明实施例提供了一种数据治理规范处理方法、装置、电子设备及存储介质,用于解决现有技术无法直观地了解数据处理过程中的数据变化趋势的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1,图1为本发明实施例提供的一种数据治理规范处理方法的步骤流程图。

本发明提供的一种数据治理规范处理方法,具体可以包括以下步骤:

步骤101,接收用户在前端配置的配置数据;

在本发明实施例中,用户可以在服务器前端通过低代码开发平台进行配置数据的配置。并将配置数据以xml或json文件的形式传递给服务器后端。

低代码开发平台是无需编码或通过少量代码就可以快速生成应用程序的开发平台,使具有不同经验水平的开发人员可以通过图形化的用户界面,使用拖曳组件和模型驱动的逻辑来创建网页和移动应用程序。

步骤102,解析配置数据得到数据源配置信息、目标源配置信息和抽取清洗逻辑;

在本发明实施例中,配置数据可以包括数据源配置信息、目标源配置信息和抽取清洗逻辑。

服务器后端在接收到前端发送的xml或json形式的配置数据后,可以对配置数据进行解析,得到相应的数据源配置信息、目标源配置信息和抽取清理逻辑。

在一个示例中,数据源配置信息和目标源配置信息可以包括数据来源和相应的配置参数,其中,数据来源可以包括数据库和文件。

在实际应用中,数据库可以包括大数据HBase、Hadoop、MapReduce、MongoDB等类型数据库的结构化数据,以表形式输入。文件可以包括csv、S3CSV、excel、json,Cube等格式的文件。

数据库相应的配置参数可以包括:连接信息,如IP、端口、数据库库名、数据库类型、用户名、密码等。

文件相应的配置信息则可以包括上传文件目录、选中工作簿或表头等。

抽取清洗逻辑是对数据源进行处理的逻辑,可以包括但不限于以下操作中的一种或多种:字符串操作、字段选择、增加常量、值映射、行转列、列转行、字段拆分、字段合并、列拆分为多行、去重、设置字段值等。后端可以根据用户的需求标准规范,基于上述操作,将不符合标准规范的数据源数据,清洗处理成标准规范的数据。

需要说明的是,数据源是待处理的数据源头,经过抽取清洗逻辑完整数据处理后,可以输出得到目标源。

需要说明的是,配置数据源配置信息是由于在进行数据抽取时,需要指定数据的来源,明确数据来自于哪台服务器、允许的抽取操作的端口和用户权限、所用的数据库类型或指定某目录下的文件等,以作为数据输入的数据源头。同理,数据输出时,也需要明确指定输出的服务器,数据库或文件目录、文件名称等;另外,还需要根据用户需求标准来配置不同的逻辑判断规则规范。根据不同的数据源和需求在低代码平台进行配置,可以方便快捷地动态搭建数据源输入,清洗处理过程和目标源输出的数据链路,从而满足一次性全量抽取处理数据,或者是增量抽取处理数据的效果。

步骤103,基于数据源配置信息、目标源配置信息和抽取清洗逻辑生成步骤逻辑;

在本发明实施例中,在获取到数据源配置信息、目标源配置信息和抽取清洗逻辑后,可以生成相应的步骤逻辑。

具体地,数据源配置信息确定了数据的输入来源,抽取清洗逻辑规定了对输入数据的处理步骤,目标源配置信息确定了基于抽取清洗逻辑得到的数据的去向,在这个基础上,可以得到数据源的数据从被抽取到清洗到输出的完整步骤逻辑。

步骤104,对步骤逻辑进行初始化形成作业;

在本发明实施例中,在得到步骤逻辑后,可以对其进行初始化形成作业。后端可通过执行该作业实现步骤逻辑。

步骤105,执行作业,得到目标源数据;

在本发明实施例中,在生成作业后,通过执行作业,可以实现对数据源的数据抽取、清洗和输出等操作,从而得到用户实际需求的目标数据。

步骤106,向前端返回目标源数据,以使前端基于目标源数据生成可视化图形。

在得到目标源数据后,可以实时将目标源数据返回给前端,以使前端可以基于目标源数据生成反应数据变化趋势的可视化图形,从而使用户可以直观地获取数据的实时变化情况。

需要说明的是,由于数据源中的数据存在增加、删除或修改的情况,因此,可以持续对数据源的数据进行上述操作,从而得到数据源的数据的实时变化情况。

本发明公开了一种数据治理规范处理方法,包括:接收用户在前端配置的配置数据;解析配置数据得到数据源、目标源类型和抽取清洗逻辑;基于数据源、目标源类型和抽取清洗逻辑生成步骤逻辑;对步骤逻辑进行初始化形成作业;执行作业,获取目标源类型对应的目标源数据;向前端返回目标源数据;基于目标源数据生成可视化图形。从而实现了数据处理过程的可视化。

请参阅图2,图2为本发明另一实施例提供的一种数据治理规范处理方法的步骤流程图。具体可以包括以下步骤:

步骤201,接收用户在前端配置的配置数据;

步骤202,解析配置数据得到数据源配置信息、目标源配置信息和抽取清洗逻辑;

步骤203,基于数据源配置信息、目标源配置信息和抽取清洗逻辑生成步骤逻辑;

步骤204,对步骤逻辑进行初始化形成作业;

步骤201-204与步骤101-104相同,具体可参见步骤101-104的描述,此处不再赘述。

步骤205,获取调度起始时间;

步骤206,根据调度起始时间执行作业,得到目标源数据;

在本发明实施例中,不同的数据源可以形成各自的作业,不同的作业可以根据定时调度作业的接口,生成多个定时任务,根据获取不同作业的调度起始时间,可以完成对不同作业的同时调度或间隔调度。从而更灵活地实现多作业任务的执行。

步骤207,监控作业的执行过程,得到过程数据;

步骤208,实时对过程数据和目标源数据进行编码,生成编码数据,并将编码数据返回至前端;前端用于解析编码数据得到过程数据和目标源数据,并基于过程数据和目标源数据生成可视化图形。

在本发明实施例中,后端在执行作业的过程中,可以监控作业的执行过程,从而得到过程数据;然后针对过程数据和目标源数据进行编码,生成json或xml格式的文件返回给前端。前端通过解析该json或xml格式的文件获得相应的过程数据和目标源数据,以根据过程数据和目标源数据生成可视化图形,向用户展示数据变化情况。

其中,过程数据,是执行步骤的结果反馈,可以是执行异常或执行成功等信息的提示。

在本发明实施例中,在完成对数据源数据的上述操作得到相应的目标元数据后,可以进行以下操作:

根据数据源配置信息确定数据源配置信息对应的数据源的分类层级;根据分类层级保存数据源配置信息、目标源配置信息、目标源数据和抽取清洗逻辑。

在实际应用中,不同的数据源资源按照层级部分的不同,进行分类和分级,从而得到相应的分类层级,在完成上述数据处理操作后,可以将数据源配置信息、目标源配置信息、目标源数据和抽取清洗逻辑作为元数据进行分类分级保存,在进行调度作业时关联到具体到层级部门。

进一步地,在本发明实施例中,还可以为不同的用户设置不同的权限,根据权限分配不同的操作方法,使得用户只能在自己的权限内配置相应的数据源配置信息、目标源配置信息和抽取清洗逻辑。避免数据泄露等情况的发生。

本发明公开了一种数据治理规范处理方法,包括:接收用户在前端配置的配置数据;解析配置数据得到数据源、目标源类型和抽取清洗逻辑;基于数据源、目标源类型和抽取清洗逻辑生成步骤逻辑;对步骤逻辑进行初始化形成作业;执行作业,获取目标源类型对应的目标源数据;向前端返回目标源数据;基于目标源数据生成可视化图形。从而实现了数据处理过程的可视化。

为了便于理解,以下通过具体示例对本发明实施例进行说明:

在监管部门对所有危化品企业进行监控的过程中,需要定时抽取所有危化品企业的风险源数据,监测是否达到安全告警,这时的数据源就是不同的危化品企业的系统数据库或excel文件;目标源数据就是风险数据;抽取清洗的逻辑条件则由监管部门根据相应的危化品行业安全指标决定,如达到安全指标,那么清洗过程就是获取风险源数据后,对安全指标标准进行逻辑规则编辑并进行数据比对计算,当清洗得到达到安全指标的风险数据时,则告警,并将相应的风险数据输出到指定的平台数据库中进行存储。

以上环节,由于需要针对不同的危化品企业的系统数据库进行数据抽取,故针对每个企业可形成一个作业。而且,由于每个危化品企业的数据在实时更新,因此每个作业获取数据也需要实时或定时更新,所以,针对每个企业的作业可以进行时间频率设置,定时去调度该作业,以达到同步所有危化品企业的更新数据的效果。

请参阅图3,图3为本发明实施例提供的一种数据治理规范处理装置的结构框图。

本发明实施例提供了一种数据治理规范处理装置,包括:

配置数据配置模块301,用于接收用户在前端配置的配置数据;

解析模块302,用于解析配置数据得到数据源配置信息、目标源配置信息和抽取清洗逻辑;

步骤逻辑生成模块303,用于基于数据源配置信息、目标源配置信息和抽取清洗逻辑生成步骤逻辑;

初始化模块304,用于对步骤逻辑进行初始化形成作业;

作业执行模块305,用于执行作业,得到目标源数据;

返回模块306,用于向前端返回目标源数据,以使前端基于目标源数据生成可视化图形。

在本发明实施例中,还包括:

过程数据获取模块,用于监控作业的执行过程,得到过程数据;

返回模块306,包括:

返回子模块,用于实时对过程数据和目标源数据进行编码,生成编码数据,并将编码数据返回至前端;前端用于解析编码数据得到过程数据和目标源数据,并基于过程数据和目标源数据生成可视化图形。

在本发明实施例中,作业执行模块305,包括:

调度起始时间获取子模块,用于获取调度起始时间;

作业执行子模块,用于根据调度起始时间执行作业,得到目标源数据。

在本发明实施例中,还包括:

分类层级确定模块,用于确定数据源配置信息对应的数据源的分类层级;

保存模块,用于根据分类层级保存数据源配置信息、目标源配置信息、目标源数据和抽取清洗逻辑。

本发明实施例还提供了一种电子设备,设备包括处理器以及存储器:

存储器用于存储程序代码,并将程序代码传输给处理器;

处理器用于根据程序代码中的指令执行本发明任一实施例的数据治理规范处理方法。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明任一实施例的数据治理规范处理方法。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种数据治理规范处理方法、装置、电子设备及存储介质
  • 一种数据治理方法、装置、电子设备和可读存储介质
技术分类

06120113178079