掌桥专利:专业的专利平台
掌桥专利
首页

一种数据验证方法、电子设备及存储介质

文献发布时间:2023-06-19 18:49:33


一种数据验证方法、电子设备及存储介质

技术领域

本发明涉及计算机数据管理技术领域,特别是涉及一种数据验证方法、电子设备及存储介质。

背景技术

在多方获取数据进行数据统计计算时,基于多方数据的安全及隐私保护问题,需要对多方数据进行联合计算后将执行结果输出到使用方,在输出到使用方之前需要对执行结果进行验证,对执行结果进行验证可以保证各方提供的原始数据的隐私,又能保证使用方获取的数据的正确性。

CN107844515A中公开了一种数据合规检查方法及装置,首先自动筛选满足预定条件的数据文件,读取数据文件中的字段,之后在读取到的所有字段中筛选出需要检查的待检查字段,并在对待检查字段进行预处理之后,将处理后的待检查字段存储到第一列表中,最后根据预定规则对第一列表中的每个待检查字段进行合规检查,得到每个待检查字段是否符合预定规则,得到检查结果;但是上述现有技术也存在着以下技术问题:

第一,现有技术不考虑待验证数据集数据类型的不同,对所有的数据类型采用相同的数据验证方式,会造成数据合规性较高的数据集在验证过程中浪费硬件资源的情况;

第二,现有技术利用预设的文件后缀名作为筛选条件,即筛选出后缀名与预设后缀名相同的文件,对筛选后的文件抽取出待检查字段,并采用同一预设规则对待检查字段中不同类型的字段进行逐一的合规检查,消耗了大量的计算资源。

发明内容

针对上述技术问题,本发明采用的技术方案为:一种数据验证方法,所述方法包括以下步骤:

S100,获取待验证数据集data;其中,data为数据分析模型输出的统计报表类数据或人群包类数据,data包括M个字段;数据分析模型包括算子序列;算子序列为数据分析模型按照执行顺序配置的算子集合。

S200,获取data的映射表t;所述t包括data与数据分析模型的唯一身份标识ID之间的映射关系。

S300,根据映射表t获取数据集data对应的数据分析模型。

S400,获取数据分析模型中包含的算子序列x={x

S500,获取第m-1个算子x

S600,利用正则表达式对data进行逐字段匹配,若M个字段全部匹配成功,则data验证通过;若任意一个字段匹配失败,则data验证不通过。

S700,对data进行脱敏处理后直接输出。

本发明至少具有以下有益效果:

第一,本发明利用算子序列中输出算子之前的算子的标签类型判断该数据集属于统计报表类数据或人群包类数据;并对统计报表类数据采用正则表达式逐一审查,对人群包类数据直接脱敏后输出;相对于现有技术中不区分数据类型而进行的逐一字段的验证来说,本发明将数据分为两类,并对不同的数据类型采用不同的处理方式,提高了匹配效率,减少了硬件计算资源的浪费。

第二,可根据映射表直接获取待验证数据集与数据分析模型之间的映射关系,从而获取待验证数据集在数据分析模型中执行的算子序列;本发明通过映射表获取输出数据集的数据分析模型按顺序执行的算子序列,就可以由算子序列判断data的数据类型,使得对data的数据类型的判断更加准确,提高了数据验证的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据验证的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1示出了本发明实施例提供的一种数据验证方法,方法包括以下步骤:

S100,获取待验证数据集data;其中,data为数据分析模型输出的统计报表类数据或人群包类数据,data包括M个字段;数据分析模型包括算子序列;算子序列为数据分析模型按照执行顺序配置的算子集合。

其中,数据分析模型为在低代码建模平台通过拖拽数据输入算子、各种分析算子和输出算子,连接各算子的关联关系组建的分析模型;用于对多方提供的数据利用各种算子进行综合计算并将执行结果输出;可选的,数据分析模型为归因分析模型或用户画像分析模型。

需要说明的是,数据验证为检测数据分析模型的执行结果data的数据格式是否正确并对data进行隐私保护处理;可选的,数据格式为数据的长度和类型。

其中,统计报表中包括统计数据,统计数据一般是通过对源数据进行统计运算得到的数据。

其中,人群包是按照预设的规则将用户分类打包,一般是根据用户的手机号或者银行卡号等将用户分类,人群包类数据可以进行求交集和并集等逻辑运算。

其中,字段为data中的数据项,具有不同的类型,可选的,字段类型为小数、整数以及字符串类型。

其中,算子序列按照执行的顺序依次包括:输入算子、执行数据间运算的算子、输出算子。可选的,对于统计报表类数据,执行数据间运算的算子为求和算子、求平均算子以及求差值算子。可选的,对于人群包类数据,执行数据间运算的算子为求交集算子和求并集算子。

S200,获取data的映射表t;t包括data与数据分析模型的唯一身份标识ID之间的映射关系。

其中,映射表包括:验证端ID与任务ID之间的映射关系、任务ID与数据分析模型的唯一身份标识ID之间的映射关系;其中,验证端ID为预先配置的用于验证数据分析模型执行任务后生成的待验证数据集data的验证端的地址;每个数据分析模型执行多个任务,每个任务具有唯一的身份标识ID。

具体的,映射表t体现了数据分析模型与数据分析模型的执行结果之间的映射关系,使用映射表t获取待验证数据集对应的数据分析模型,进而获取数据分析模型执行过程中使用的算子的集合;由算子类型判断data的数据类型,并对不同的数据类型采用不同的数据验证方式,也即data的数据类型是依据数据分析模型中的算子确定的,数据类型的判断更加准确,提高了数据验证的准确率。

S300,根据映射表t获取数据集data对应的数据分析模型。

其中,根据映射表t获取数据集data对应的数据分析模型的步骤包括:

S320,根据data所在的验证端ID获取data的任务ID。

S340,根据任务ID获取数据分析模型的唯一身份标识ID。

S360,根据数据分析模型的唯一身份标识ID得到数据分析模型。

其中,由映射表t根据data所在的验证端ID获取data的任务ID,从而获取数据分析模型的唯一身份标识ID,便可得到输出data的数据分析模型;所以映射表建立了数据集data与对应的数据分析模型之间的映射关系,此种根据映射关系获取输出执行结果data的数据分析模型的方式更加准确和便捷。

S400,获取数据分析模型中包含的算子序列x={x

其中,算子序列x中第m个算子x

可选的,统计类算子为求和算子、求平均算子以及求差值算子。

可选的,人群包类算子为求交集算子和求并集算子。

S500,获取第m-1个算子x

S600,利用正则表达式对data进行逐字段匹配;若M个字段全部匹配成功,则data验证通过;若任意一个字段匹配失败,则data验证不通过。

其中,利用正则表达式对data中的某一字段q进行匹配时,执行以下步骤:

S620,获取q的字段类型。可选的,字段类型为整数、小数以及字符串类型。

S640,获取该字段类型预先配置的正则表达式。

其中,正则表达式为使用单个字符串来描述、匹配一系列满足某个句法规则的字符串,通常被用来检索、替换一些符合某个规则的数据;例如:某正则表达式为:/\d{2}-\d{5}/,该正则表达式可以匹配由2位数字、一个连字符以及5位数字组成的字符串。

S660,根据得到的正则表达式对q进行匹配。

具体的,data中每个字段具有对应的正则表达式;一个正则表达式可对多个相同类型的字段进行匹配验证。当字段符合正则表达式时,验证通过,否则验证失败。

进一步,当data验证不通过时,执行以下步骤:

S620,获取匹配失败的所有字段f。

S640,从f中随机抽取任意多个字段进行再次验证,若再次验证过程中所有字段验证成功,则将data输出;否则,对f中所有字段进行人工逐一验证并对匹配失败的字段进行处理后将data输出。

可选的,再次验证为人工在f中抽取任意多个字段并对字段进行数据验证。

具体的,若再次验证过程中随机抽取的所有字段验证成功,可以将data输出;若人工再次验证中存在某一字段数据验证失败,对经正则表达式匹配失败的字段进行再次验证,实现对数据集中有概率出现不合规的字段的双重验证,可以避免由于正则表达式进行匹配验证过程中的错误造成的数据集验证失败,提高数据验证的正确率。

S700,对data进行脱敏处理后直接输出。

其中,脱敏处理为对于涉及用户安全的数据或者一些商业性敏感的数据,在不违反规则的条件下,对真实数据进行脱敏处理,如手机号和银行卡号等个人信息都需要进行数据脱敏,实现对敏感隐私数据的保护。脱敏为数据库安全技术之一,能够较大程度上的保护用户提供的数据,使他人无法通过数据获取数据之间的一对一的映射关系。

可选的,脱敏处理为采用差分隐私或K-匿名算法对数据进行处理。

具体的,利用差分隐私进行数据脱敏处理为对数据进行加噪声和剔除的操作。例如,现有已通过数据验证的数据集data

具体的,利用K-匿名算法进行数据脱敏处理,例如,待验证数据集data={data

综上所述,本实施例对数据分析模型的执行结果输出到使用方之前进行数据验证,数据验证的方法为:首先根据映射表获取待验证数据集data对应的数据分析模型ID,通过获取数据分析模型中的算子序列,得到算子序列中位于输出算子之前的算子的标签类型;根据标签类型判断data的数据类型为统计报表类数据或人群包类数据,对统计报表类数据采用正则表达式进行数据验证;对人群包类数据进行脱敏处理后直接输出;本发明在判断数据类型时利用映射表得到data为哪个数据分析模型的执行结果,再根据数据分析模型中的算子序列确定数据类型,能够保证获取的数据类型的正确性;相对于现有技术中不区分数据类型而进行的逐一字段的验证来说,本发明将数据分为两类,并对不同的数据类型采用不同的处理方式,提高了匹配效率,减少了计算资源的浪费。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

相关技术
  • 一种基于用户特征的室内导航方法、电子设备及存储介质
  • 一种分布式系统部署方法、系统、电子设备及存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 一种用于化妆间盒子的交易方法、系统、电子设备及存储介质
  • 一种植物观赏方法、装置、电子设备和存储介质
  • 一种数据验证方法、装置、存储介质及电子设备
  • 一种数据验证方法、装置、电子设备和存储介质
技术分类

06120115707590