掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及数据处理技术领域,具体涉及一种数据脱敏方法、装置及电子设备。

背景技术

随着大数据技术的发展,大量的数据需要挖掘分析,过于封锁屏蔽数据无疑是对大数据资源的浪费,如何才能在信息便捷传递、共享的基础上,对数据进行合理的处理,使数据隐私保护和数据挖掘分析达成合理的平衡点,是当下需要重点解决的问题。

现有数据脱敏技术通过删除、遮蔽等手段对敏感数据进行变形,实现敏感数据的可靠保护。虽然采用删除、遮蔽等手段可以有效保护数据,但这样处理后的数据也往往失去了其利用价值。因此,可逆脱敏技术应运而生,通过可逆脱敏技术,可以实现在脱敏后数据格式不变,关联关系不变且保护用户敏感信息安全的前提下进行脱敏后数据的分析、预测和安全还原等操作。

编码类数据广泛存在于结构化数据当中,部分非编码类数据,例如日期、时间或字符串等数据类型,经转化重编码后可以转化为编码类数据。有些编码类数据,例如手机号码、身份证号码等,由于可以唯一标识个人用户,属于个人标识数据,在利用时需严格进行保护。

相关技术中,对编码类数据的可逆脱敏方法一般利用国密SM4算法进行可逆脱敏,这种方法虽然可以实现脱敏可逆,但调用SM4的过程较为繁琐、计算量较大,且用于截断的方法不能保证脱敏前、后数据的一一映射特性,即理论上不能排除多个原始编码数据经脱敏后对应同一个脱敏后数据的情况;或者是利用替换与置换的方法实现可逆脱敏,虽然算法在理论上可以保证脱敏前后数据的一一映射,但当数据分组长度较大时,其可逆脱敏的效率较低。故亟待提出一种新的数据脱敏方法,在可以实现可逆脱敏的情况下保证数据的完整性以及可追溯性。

发明内容

因此,本发明提供一种数据脱敏方法、装置及电子设备以实现可逆脱敏的情况下保证数据的完整性以及可追溯性。

根据第一方面,本发明实施例公开了一种数据脱敏方法,包括:根据待脱敏的原始编码数据生成目标数量级的全局保密整数,所述目标数量级的大小根据待脱敏数据的数据长度确定;根据所述全局保密整数得到阿贝尔群;在所述阿贝尔群中选取脱敏任务标识;根据所述脱敏任务标识和所述全局保密整数对原始编码数据进行编码,得到脱敏后的编码数据。

可选地,所述阿贝尔群为小于所述全局保密整数且与所述全局保密整数互素的非负整数的集合。

可选地,所述方法还包括:将所述脱敏任务标识与脱敏操作信息进行关联,其中所述脱敏操作信息包括脱敏操作时间、脱敏操作人员和脱敏编码数据接收方信息中的任意一种或多种。

可选地,根据所述脱敏任务标识和所述全局保密整数对原始编码数据进行编码,得到脱敏后的编码数据,包括:

C=M·ID(mod N)

式中:C为脱敏后的编码数据;M为原始编码数据;ID为脱敏任务标识;N为全局保密整数。

可选地,所述方法还包括:根据下式对所述脱敏后的编码数据进行还原:

M’=C·ID

式中:M’为还原得到的编码数据;C为脱敏后的编码数据;ID

可选地,所述方法还包括:按照下式进行编码数据溯源:

ID’=C/g·(M/g)

式中:ID’为溯源得到的标识;C为脱敏后的编码数据;g为M与N的最大公约数;(M/g)

根据第二方面,本发明实施例还公开了一种数据脱敏装置,包括:第一生成模块,用于根据待脱敏的原始编码数据生成目标数量级的全局保密整数,所述目标数量级的大小根据待脱敏数据的数据长度确定,所述全局保密整数为素数;第二生成模块,用于根据所述全局保密整数得到阿贝尔群;选取模块,用于在所述阿贝尔群中选取脱敏任务标识;编码模块,用于根据所述脱敏任务标识和所述全局保密整数对原始编码数据进行编码,得到脱敏后的编码数据。

可选地,所述阿贝尔群为小于所述全局保密整数且与所述全局保密整数互素的非负整数的集合。

根据第三方面,本发明实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的数据脱敏方法的步骤。

根据第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的数据脱敏方法的步骤。

本发明技术方案,具有如下优点:

本发明提供的数据脱敏方法/装置,根据待脱敏的原始编码数据生成目标数量级的全局保密整数,并根据全局保密整数得到阿贝尔群,在阿贝尔群中选取脱敏任务标识,根据脱敏任务标识和所述全局保密整数对原始编码数据进行编码,得到脱敏后的编码数据。整个脱敏过程未对编码类数据作任何变形,且整个脱敏过程仅通过计算一次大数据计算,即可实现可靠脱敏,提高了脱敏效率;同时在数据脱敏过程中将选取的脱敏任务标识加入了脱敏计算,使得在脱敏后数据提供方可以根据脱敏过程中使用的脱敏任务标识,在发生疑似数据泄露时进行溯源。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中数据脱敏方法的一个具体示例的流程图;

图2为本发明实施例中数据脱敏装置的一个具体示例的原理框图;

图3为本发明实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种数据脱敏方法,该数据脱敏方法可以用于对所有类型的编码类数据进行脱敏操作,本申请实施例中编码类数据以手机号码为例对本申请实施例记载的数据脱敏方法进行说明。该数据脱敏方法可以应用于数据提供方的任一终端或服务器等电子设备中。如图1所示,该方法包括如下步骤:

步骤101,根据待脱敏的原始编码数据生成目标数量级的全局保密整数,所述目标数量级的大小根据待脱敏数据的数据长度确定。

示例性地,以待脱敏的手机号码为“15201305639”为例,假设需要对该手机号码的后七位“1305639”进行脱敏处理,则根据待脱敏的7位数的原始编码数据生成百万数量级的全局保密整数N。该百万数量级的全局保密整数N的取值范围不小于待脱敏的原始编码数据以保证原始编码数据可靠脱敏,本申请实施例中该全局保密整数N可以取值为素数9999991。

步骤102,根据所述全局保密整数得到阿贝尔群。根据生成的全局保密整数N生成阿贝尔群Z

作为本发明一个可选实施方式,所述阿贝尔群为小于所述全局保密整数且与所述全局保密整数互素的非负整数的集合。

步骤103,在所述阿贝尔群中选取脱敏任务标识。

示例性地,在生成的阿贝尔群Z

步骤104,根据所述脱敏任务标识和所述全局保密整数对原始编码数据进行编码,得到脱敏后的编码数据。将脱敏后的编码数据安全发送给数据接收方以供数据接收方使用。

作为本发明一个可选实施方式,根据所述脱敏任务标识和所述全局保密整数对原始编码数据进行编码,得到脱敏后的编码数据,包括:

C=M·ID(mod N) (1)

式中:C为脱敏后的编码数据;M为原始编码数据;ID为脱敏任务标识;N为全局保密整数。

示例性地,对于待脱敏手机号“15201305639”,根据上式(1)对手机号码后七位进行脱敏操作处理:

C=M·ID(mod N)=1305639*1098543(mod 999999)=1874847

按照公式(1)对手机号码后七位进行编码后,原始编码数据“15201305639”对应的脱敏后的编码数据为“15201874847”,将该脱敏后的编码数据发送给数据接收方,整个脱敏过程未对编码类数据作任何变形(即脱敏后的数据的表征形式仍为标准的手机号码的表征形式),且整个脱敏过程仅通过计算一次大数据乘法计算,即可实现可靠脱敏,提高了脱敏效率;同时在数据脱敏过程中将选取的脱敏任务标识加入了脱敏计算,使得在脱敏后数据提供方可以根据脱敏前、后的数据确定脱敏过程中使用的脱敏任务标识,便于在发生疑似数据泄露时,可以快速进行溯源且通过采用阿贝尔群Z

作为本发明一个可选实施方式,所述方法还包括:将所述脱敏任务标识与脱敏操作信息进行关联,其中所述脱敏操作信息包括脱敏操作时间、脱敏操作人员和脱敏编码数据接收方中的任意一种或多种。

示例性地,将数据脱敏任务标识与脱敏操作信息进行关联,使得当溯源得到数据脱敏任务标识,可以根据关联关系得到对应的脱敏操作信息。本申请实施例中该脱敏操作信息包括但不限于脱敏操作时间、脱敏操作人员以及脱敏编码数据接收方信息中的任意一种或多种。例如,脱敏操作信息可以是操作员某某在9月8日将脱敏后的编码数据发给编号为543某数据接收方,将该脱敏操作信息与脱敏任务标识进行关联。

作为本发明一个可选实施方式,所述方法还包括:根据下式对所述脱敏后的编码数据进行还原;

M’=C·ID

式中:M’为还原得到的编码数据;C为脱敏后的编码数据;ID

示例性地,本申请实施例中C为1874847,根据扩展欧几里得算法可以计算得到脱敏任务标识ID=1098543在全局保密整数N下的乘法逆元ID

作为本发明一个可选实施方式,所述方法还包括:

(1)输入待溯源编码类数据C;

(2)计算原始编码类数据M与N的最大公约数g=(M,N),可采用欧几里得算法快速求得。

(3)计算原始编码类数据M/g在模N/g下的乘法逆元(M/g)

(4)数据溯源方(即数据提供方)根据如下公式计算溯源标识ID’,完成溯源操作:

ID’=C/g·(M/g)

式中:ID’为溯源得到的标识;C为脱敏后的编码数据;g为M与N的最大公约数;(M/g)

示例性地,本申请实施例中C为1874847,M与N的最大公约数g=1,根据扩展欧几里得算法快速计算得到原始编码数据M/g=1305639在全局保密整数N/g下的乘法逆元(M/g)

本发明实施例还公开了一种数据脱敏装置,如图2所示,该装置包括:

第一生成模块201,用于根据待脱敏的原始编码数据生成目标数量级的全局保密整数,所述目标数量级的大小根据待脱敏数据的数据长度确定,所述全局保密整数为素数;

第二生成模块202,用于根据所述全局保密整数得到阿贝尔群;

选取模块203,用于在所述阿贝尔群中选取脱敏任务标识;

编码模块204,用于根据所述脱敏任务标识和所述全局保密整数对原始编码数据进行编码,得到脱敏后的编码数据。

作为本发明一个可选实施方式,所述阿贝尔群为小于所述全局保密整数且与所述全局保密整数互素的非负整数的集合。

作为本发明一个可选实施方式,该装置还包括:关联模块,用于将所述脱敏任务标识与脱敏操作信息进行关联,其中所述脱敏操作信息包括脱敏操作时间、脱敏操作人员和脱敏编码数据接收方信息中的任意一种或多种。

作为本发明一个可选实施方式,该编码模块204,还用于根据下式进行编码,得到脱敏后的编码数据:

C=M·ID(mod N)

式中:C为脱敏后的编码数据;M为原始编码数据;ID为脱敏任务标识;N为全局保密整数。

作为本发明一个可选实施方式,该装置还包括:还原模块,用于根据下式对所述脱敏后的编码数据进行还原:

M’=C·ID

式中:M’为还原得到的编码数据;C为脱敏后的编码数据;ID

作为本发明一个可选实施方式,该装置还包括溯源模块,用于根据下式进行编码数据溯源:

ID’=C/g·(M/g)

式中:式中:ID’为溯源得到的标识;C为脱敏后的编码数据;g为M与N的最大公约数;(M/g)

本发明实施例还提供了一种电子设备,如图3所示,该电子设备可以包括处理器401和存储器402,其中处理器401和存储器402可以通过总线或者其他方式连接,图3中以通过总线连接为例。

处理器401可以为中央处理器(Central Processing Unit,CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器402作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的数据脱敏方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的数据脱敏方法。

存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器401所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器402中,当被所述处理器401执行时,执行如图1所示实施例中的数据脱敏方法。

上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

相关技术
  • 数据脱敏方法、数据脱敏装置、电子设备及存储介质
  • 一种数据脱敏方法、装置及电子设备
技术分类

06120112758203