掌桥专利:专业的专利平台
掌桥专利
首页

一种数据文件处理方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 19:28:50


一种数据文件处理方法、装置、存储介质及电子设备

技术领域

本发明涉及数据处理技术领域,特别涉及一种数据文件处理方法、装置、存储介质及电子设备。

背景技术

银行系统的业务往往需要大量的生产数据,然而,生产数据中通常会涉及到客户和生产的敏感信息;为了避免客户信息泄露,需要对数据中的敏感信息进行脱敏处理。

现有脱敏流程中,需要先对源文件进行加载入库,然后由技术人员进行脱敏脚本的编写,再运行脱敏脚本,以完成对源文件的脱敏;然而,不同的源文件的结构和脱敏要求不同,因此,需要技术人员针对不同的源文件编写不同的脱敏脚本,使得脱敏过程冗余繁杂,且容易出错,数据脱敏效率低下。

发明内容

本发明所要解决的技术问题是提供一种数据文件处理方法,能够提高数据脱敏效率。

本发明还提供了一种数据文件处理装置,用以保证上述方法在实际中的实现及应用。

一种数据文件处理方法,包括:

在接收到银行系统发送的待处理的数据文件的情况下,获取所述数据文件的数据预处理配置;

根据所述数据预处理配置判断所述数据文件是否满足预设的入库条件;

在所述数据文件不满足所述入库条件的情况下,获取所述数据文件的脱敏规则;

根据所述脱敏规则确定所述数据文件中包含的各个敏感字段,以及每个所述敏感字段的脱敏处置方式;

对于所述数据文件中的每个所述敏感字段,利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理;

基于脱敏处理后的各个所述敏感字段生成目标数据文件,并输出所述目标数据文件。

上述的方法,可选的,在所述敏感字段的脱敏处置方式为预设的第一处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

利用空值替换对所述敏感字段,以完成对所述敏感字段的脱敏处理。

上述的方法,可选的,所述在所述敏感字段的脱敏处置方式为预设的第二处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

将所述敏感字段所包含的集合数据中的至少一个字节,替换为预设的目标字节,以完成对所述敏感字段的脱敏处理。

上述的方法,可选的,在所述敏感字段的脱敏处置方式为预设的第三处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

获得随机数;

利用所述随机数替换所述敏感字段所包含的数字,以完成对所述敏感字段的脱敏处理。

上述的方法,可选的,在所述敏感字段的脱敏处置方式为预设的第四处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

对所述敏感字段进行分割,获得多个字段部分;

对每个所述字段部分进行漂白处理;

基于漂白处理后的各个所述字段部分组成新的字段,以完成对所述敏感字段的脱敏处理。

上述的方法,可选的,所述基于脱敏处理后的各个所述敏感字段生成目标数据文件,包括:

获取预设的数据输出配置;

利用所述数据输出配置中的文件标识、码制和分割符信息,基于脱敏处理后的各个所述敏感字段生成目标数据文件。

上述的方法,可选的,还包括:

在所述数据文件满足所述入库条件的情况下,获取所述数据文件的加载配置;

根据所述加载配置中包含的文件标识、数据字典、码制和分隔符信息,对所述数据文件执行入库操作。

一种数据文件处理装置,包括:

第一获取单元,用于在接收到银行系统发送的待处理的数据文件的情况下,获取所述数据文件的数据预处理配置;

判断单元,用于根据所述数据预处理配置判断所述数据文件是否满足预设的入库条件;

第二获取单元,用于在所述数据文件满足所述入库条件的情况下,获取所述数据文件的脱敏规则;

确定单元,用于根据所述脱敏规则确定所述数据文件中包含的各个敏感字段,以及每个所述敏感字段的脱敏处置方式;

脱敏单元,用于对于所述数据文件中的每个所述敏感字段,利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理;

生成单元,用于基于脱敏处理后的各个所述敏感字段生成目标数据文件,并输出所述目标数据文件。

一种存储介质,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的数据文件处理方法。

一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的数据文件处理方法。

基于上述本发明实施提供的一种数据文件处理方法及装置、存储介质及电子设备,该方法包括:在接收到银行系统发送的待处理的数据文件的情况下,获取所述数据文件的数据预处理配置;根据所述数据预处理配置判断所述数据文件是否满足预设的入库条件;在所述数据文件不满足所述入库条件的情况下,获取所述数据文件的脱敏规则;根据所述脱敏规则确定所述数据文件中包含的各个敏感字段,以及每个所述敏感字段的脱敏处置方式;对于所述数据文件中的每个所述敏感字段,利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理;基于脱敏处理后的各个所述敏感字段生成目标数据文件,并输出所述目标数据文件。应用本发明实施例提供的方法,能够数据脱敏效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种数据文件处理方法的方法流程图;

图2为本发明提供的一种对敏感字段进行脱敏处理的过程的流程图;

图3为本发明提供的一种生成目标数据文件的过程的流程图;

图4为本发明提供的一种数据文件处理装置的结构示意图;

图5为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

现有脱敏流程中,需要先对源文件进行加载入库,然后由技术人员进行脱敏脚本的编写,再运行脱敏脚本,以完成对源文件的脱敏;然而,不同的源文件的结构和脱敏要求不同,因此,需要技术人员针对不同的源文件编写不同的脱敏脚本,使得脱敏过程冗余繁杂,且容易出错,数据脱敏效率低下。

本发明实施例提供了一种数据文件处理方法,该方法可以应用于电子设备,电子设备可以运行有银行数据处理平台,所述方法的方法流程图如图1所示,具体包括:

S101:在接收到银行系统发送的待处理的数据文件的情况下,获取所述数据文件的数据预处理配置。

在本实施例中,数据文件可以是与目标业务所需的文件,所述目标业务为银行系统的测试业务、开发业务、培训业务、外包业务和数据挖掘业务等其中至少一种业务,数据文件可以包含至少一个数据表。

可选的,该数据预处理配置可以由用户执行第一配置操作获得,该数据预处理配置中包含该数据文件的数据预处理参数,所述数据预处理参数用于指示所述数据文件的数据预处理方式,所述预处理方式为转码或入库中的一种。

S102:根据所述数据预处理配置判断所述数据文件是否满足预设的入库条件。

在本实施例中,可以获取所述数据预处理配置中的数据预处理参数,在所述数据预处理参数所指示的数据预处理方式为入库的情况下,确定所述数据文件满足入库条件;在数据预处理参数所指示的数据预处理方式不为入库的情况下,确定数据文件不满足入库条件。

S103:在所述数据文件不满足所述入库条件的情况下,获取所述数据文件的脱敏规则。

在本实施例中,脱敏规则可以由用户执行第二配置操作获得,该脱敏规则可以包括敏感字段位置和脱敏处置方式,可选的,脱敏规则还可以包括所属文件标识、替换文本起始位置、替换文本结束位置、替换符、主外键标志、主表标识、主表字段位置等信息项,其中,主外键标志用于表征敏感字段是否为主外键。

S104:根据所述脱敏规则确定所述数据文件中包含的各个敏感字段,以及每个所述敏感字段的脱敏处置方式。

在本实施例中,可以根据脱敏规则中的敏感字段位置确定数据文件中包含的各个敏感字段,然后确定每个敏感字段的脱敏处置方式,每个敏感字段的脱敏处置方式可以为第一处置方式、第二处置方式、第三处置方式以及第四处置方式中的一种。

S105:对于所述数据文件中的每个所述敏感字段,利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理。

在本实施例中,可以利用每个敏感字段的脱敏处置方式对每个敏感字段进行脱敏处理,获得每个敏感字段对应的脱敏数据。

S106:基于脱敏处理后的各个所述敏感字段生成目标数据文件,并输出所述目标数据文件。

在本实施例中,对数据文件中的敏感字段进行脱敏后,可以基于脱敏后的各敏感字段生成目标数据文件,目标数据文件为满足业务系统的需求的文件。

可选的,可以向业务系统输出该目标数据文件。

本发明实施例提供的方法,在接收到银行系统发送的待处理的数据文件的情况下,获取数据文件的数据预处理配置;根据数据预处理配置判断数据文件是否满足预设的入库条件;在数据文件不满足入库条件的情况下,获取数据文件的脱敏规则;根据脱敏规则确定数据文件中包含的各个敏感字段,以及每个敏感字段的脱敏处置方式;对于数据文件中的每个敏感字段,利用敏感字段的脱敏处置方式对敏感字段进行脱敏处理;基于脱敏处理后的各个敏感字段生成目标数据文件,并输出目标数据文件。能够提高数据脱敏效率。

在本发明提供的一实施例中,基于上述的实施过程,具体的,在所述敏感字段的脱敏处置方式为预设的第一处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

利用空值替换对所述敏感字段,以完成对所述敏感字段的脱敏处理。

在本发明提供的一实施例中,基于上述的实施过程,具体的,所述在所述敏感字段的脱敏处置方式为预设的第二处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

将所述敏感字段所包含的集合数据中的至少一个字节,替换为预设的目标字节,以完成对所述敏感字段的脱敏处理。

在本实施例中,通过将敏感字段所包含的集合数据中的至少一个替换为目标字节,能够有效地去除敏感字段中包含的敏感信息。

可选的,可以根据脱敏规则中的替换文本起始位置、替换文本结束位置、替换符等信息确定目标字节。

在本发明提供的一实施例中,基于上述的实施过程,具体的,在所述敏感字段的脱敏处置方式为预设的第三处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

获得随机数;

利用所述随机数替换所述敏感字段所包含的数字,以完成对所述敏感字段的脱敏处理。

在本实施例中,该随机数可以是预先生成的,可以通过随机数替换敏感字段中包括的数字,从而完成脱敏处理,得到脱敏字段。

可选的,可以根据脱敏规则中的替换文本起始位置、替换文本结束位置、替换符等信息获取随机数。

在本发明提供的一实施例中,基于上述的实施过程,具体的,在所述敏感字段的脱敏处置方式为预设的第四处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理的过程,如图2所示,包括:

S201:对所述敏感字段进行分割,获得多个字段部分。

在本实施例中,敏感字段可以包括客户电话号码、身份信息等数字信息,可以将数字信息划分为多个字段部分。

S202:对每个所述字段部分进行漂白处理。

在本实施例中,可以对每个字段部分进行漂白处理,即通过数据变换的方式处理各个字段部分,从而可以去除数据中的敏感信息,漂白处理后的字段部分与漂白处理前的字段部分的数据类型一致。

可选的,可以通过可以根据脱敏规则中的替换文本起始位置、替换文本结束位置、替换符等信息获得漂白处理所需的数据,从而根据该数据对每个字段部分进行漂白处理。

S203:基于漂白处理后的各个所述字段部分组成新的字段,以完成对所述敏感字段的脱敏处理。

在本实施例中,漂白处理后的各个字段部分所组成的新的字段,即为该敏感字段的脱敏字段。

在本发明提供的一实施例中,基于上述的实施过程,具体的,所述基于脱敏处理后的各个所述敏感字段生成目标数据文件,如图3所示,包括:

S301:获取预设的数据输出配置。

在本实施例中,数据输出配置可以包括文件标识、码制和分割符信息。

S302:利用所述数据输出配置中的文件标识、码制和分割符信息,基于脱敏处理后的各个所述敏感字段生成目标数据文件。

在本实施例中,数据文件可以是数据表,该分割符信息可以是列分割符信息。

可选的,不同数据文件的码制、分割符信息可以相同或不同,可以根据数据输出配置中的文件标识、码制和分割符信息实现对不同的数据文件的脱敏数据处理,生成目标数据文件。

在本发明提供的一实施例中,基于上述的实施过程,具体的,还包括:

在所述数据文件满足所述入库条件的情况下,获取所述数据文件的加载配置;

根据所述加载配置中包含的文件标识、数据字典、码制和分隔符信息,对所述数据文件执行入库操作。

在一些实施例中,银行系统可以在开发完成后导入数据进行进行性能测试或模型调优,在此场景下,可以先设置数据预处理配置、脱敏规则和加载配置等配置信息,然后获得待导入的数据文件,通过数据预处理配置对该数据文件进行预处理,由于数据文件可能来自不同上游系统,各自的码制、列分隔符不一定相同,因此在数据文件预处理阶段,通过读取数据预处理的配置,判断是否需要对其进行相应的转码或入库操作。

在判断出该数据文件不执行入库操作的情况下,可以根据脱敏规则中敏感字段的位置以及脱敏处置方式,对目标字段进行脱敏处理。针对单个敏感字段,可配置的脱敏处置方式有清空、随机、替换、组合等方式。可选的,清空方式可以是对敏感字段赋空;随机方式可以是针对敏感字段的数字的部分,用随机数代替原有数字;替换方式可以是针对敏感字段中的一些集合数据,通过对整体或部分字节进行置换;组合方式可以是对身份证号可以通过对各个部分分别漂白,再合成为一个新的身份证号。

在本实施例中,成了敏感字段的脱敏后,系统读取数据输出配置中的列分隔符、文件名等信息,生成满足导入数据系统需要的脱敏文件。使得系统可以根据脱敏文件进行系统性能测试或模型调优等操作。

在本实施例中,脱敏规则可以根据数据特点并结合具体的业务场景进行设计和分析,在灵活可配置的脱敏规则中,可以对脱敏规则进行封装,从而实现规则自定义。针对单表而言,单个字段可配置的脱敏处置方式有清空、随机、替换、组合四种,但在多表的情况下,对于卡号、身份证号这种可能做为主键或外键的字段,还需要在封装时考虑到引用完整性的配置。可选的,封装好的校验规则使脱敏规则得以实现参数化的配置,数据脱敏模块调取脱敏规则模块的相关数据组成规则集合进行脱敏操作。

在本实施例中,通过对数据预处理、数据脱敏、数据输出三个阶段提供灵活配置来实现高效灵活的数据脱敏流程。提供了灵活易配置的校验规则定制方案,用户可通过对脱敏规则表、脱敏规则逻辑组合表的操作实现针对某字段采用的脱敏规则组合的修改,从而降低了系统维护的成本,实现了系统的高可用性及高度的用户友好性。

与图1所述的方法相对应,本发明实施例还提供了一种数据文件处理装置,用于对图1中方法的具体实现,本发明实施例提供的数据文件处理装置可以应用于电子设备中,其结构示意图如图4所示,具体包括:

第一获取单元401,用于在接收到银行系统发送的待处理的数据文件的情况下,获取所述数据文件的数据预处理配置;

判断单元402,用于根据所述数据预处理配置判断所述数据文件是否满足预设的入库条件;

第二获取单元403,用于在所述数据文件满足所述入库条件的情况下,获取所述数据文件的脱敏规则;

确定单元404,用于根据所述脱敏规则确定所述数据文件中包含的各个敏感字段,以及每个所述敏感字段的脱敏处置方式;

脱敏单元405,用于对于所述数据文件中的每个所述敏感字段,利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理;

生成单元406,用于基于脱敏处理后的各个所述敏感字段生成目标数据文件,并输出所述目标数据文件。

在本发明提供的一实施例中,基于上述的方案,具体的,在所述敏感字段的脱敏处置方式为预设的第一处置方式的情况下,所述脱敏单元405,被配置为:

利用空值替换对所述敏感字段,以完成对所述敏感字段的脱敏处理。

在本发明提供的一实施例中,基于上述的方案,具体的,所述在所述敏感字段的脱敏处置方式为预设的第二处置方式的情况下,所述利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理,包括:

将所述敏感字段所包含的集合数据中的至少一个字节,替换为预设的目标字节,以完成对所述敏感字段的脱敏处理。

在本发明提供的一实施例中,基于上述的方案,具体的,在所述敏感字段的脱敏处置方式为预设的第三处置方式的情况下,所述脱敏单元405,被配置为:

获得随机数;

利用所述随机数替换所述敏感字段所包含的数字,以完成对所述敏感字段的脱敏处理。

在本发明提供的一实施例中,基于上述的方案,具体的,在所述敏感字段的脱敏处置方式为预设的第四处置方式的情况下,所述脱敏单元405,被配置为:

对所述敏感字段进行分割,获得多个字段部分;

对每个所述字段部分进行漂白处理;

基于漂白处理后的各个所述字段部分组成新的字段,以完成对所述敏感字段的脱敏处理。

在本发明提供的一实施例中,基于上述的方案,具体的,所述生成单元,被配置为:

获取预设的数据输出配置;

利用所述数据输出配置中的文件标识、码制和分割符信息,基于脱敏处理后的各个所述敏感字段生成目标数据文件。

在本发明提供的一实施例中,基于上述的方案,具体的,数据文件处理装置还包括入库单元;所述入库单元被配置为:

在所述数据文件满足所述入库条件的情况下,获取所述数据文件的加载配置;

根据所述加载配置中包含的文件标识、数据字典、码制和分隔符信息,对所述数据文件执行入库操作。

上述本发明实施例公开的数据文件处理装置中的各个单元和模块具体的原理和执行过程,与上述本发明实施例公开的数据文件处理方法相同,可参见上述本发明实施例提供的数据文件处理方法中相应的部分,这里不再进行赘述。

本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述数据文件处理方法。

本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501,以及一个或者一个以上的指令502,其中一个或者一个以上指令502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作:

在接收到银行系统发送的待处理的数据文件的情况下,获取所述数据文件的数据预处理配置;

根据所述数据预处理配置判断所述数据文件是否满足预设的入库条件;

在所述数据文件不满足所述入库条件的情况下,获取所述数据文件的脱敏规则;

根据所述脱敏规则确定所述数据文件中包含的各个敏感字段,以及每个所述敏感字段的脱敏处置方式;

对于所述数据文件中的每个所述敏感字段,利用所述敏感字段的脱敏处置方式对所述敏感字段进行脱敏处理;

基于脱敏处理后的各个所述敏感字段生成目标数据文件,并输出所述目标数据文件。

需要说明的是,本发明提供的一种数据文件处理方法、装置、存储介质及电子设备可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域、移动互联领域、网络安全领域、芯片领域、虚拟现实领域、增强现实领域、全息技术领域、量子计算领域、量子通信领域、量子测量领域、数字孪生领域或金融领域。上述仅为示例,并不对本发明提供的一种数据文件处理方法、装置、存储介质及电子设备的应用领域进行限定。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种数据文件处理方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120115927493