掌桥专利:专业的专利平台
掌桥专利
首页

一种适于联合建模的数据脱敏方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:23


一种适于联合建模的数据脱敏方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术,尤其涉及一种适于联合建模的数据脱敏方法、装置、设备及存储介质。

背景技术

数据脱敏是目前保留数据安全性的重要技术手段,而随着信息时代发展和现有互联网环境下海量数据的积累,对数据进行分析脱敏处理并建立机器学习模型来解决业务需求成为一种常态。而单个企业很难获得建模所需的全部维度数据,企业间交换数据进行联合建模的方式越来越普遍,所以对隐私敏感数据进行脱敏,防止数据泄露和保护数据安全变得异常重要。现有技术在对数据进脱敏后,由于脱敏时会改变数据本体,使数据本体具有的含义部分或者全部丢失,从而导致后续的数据建模十分困难甚至导致建模无法进行。本发明公开联合建模的数据脱敏方法解决了现有技术中数据脱敏后,无法保留数据的原始分布的技术问题。

发明内容

本发明提供一种适于联合建模的数据脱敏方法、装置、设备及存储介质,以实现脱敏数据的联合建模。

第一方面,本发明实施例提供了一种适于联合建模的数据脱敏方法,包括:

获取待处理数据;

对所述待处理数据进行脱敏以生成脱敏数据,所述脱敏数据包括脱敏特征,所述脱敏特征之间的分布属性对应所述待处理数据之间的分布属性;

将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。

第二方面,本发明实施例还提供了一种适于联合建模的数据脱敏装置,包括:

数据获取装置,用于获取待处理数据;

数据脱敏装置,用于对所述待处理数据进行脱敏以生成脱敏数据,所述脱敏数据包括脱敏特征,所述脱敏特征之间的分布属性对应所述待处理数据之间的分布属性;

数据封装装置,用于将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。

第三方面,本发明实施例还提供了一种服务器,包括:一个或多个处理器;

存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例提供的适于联合建模的数据脱敏方法。

第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,包括:所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例提供的适于联合建模的数据脱敏方法。

本发明实施例提供的一种适于联合建模的数据脱敏方法,获取待处理数据;对所述待处理数据进行脱敏以生成脱敏数据,所述脱敏数据包括脱敏特征,所述脱敏特征之间的分布属性对应所述待处理数据之间的分布属性;将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。本发明实施例的技术方案解决了现有技术中数据脱敏后,无法保留数据的原始分布的技术问题。本发明实施例在对数据进行脱敏时,还保留了脱敏数据的原始分布,通过封装使脱敏数据更适用联合建模,提高了数据的使用价值和联合建模的效率。

附图说明

图1为本发明实施例一提供了一种适于联合建模的数据脱敏方法的流程图;

图2为本发明实施例二提供了另一种适于联合建模的数据脱敏方法的流程图;

图3为本发明实施例三提供了一种适于联合建模的数据脱敏装置的结构框图;

图4是本发明实施例四中提供了一种服务器设备示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种适于联合建模的数据脱敏方法的流程图,本实施例可适用于脱敏数据进行联合建模情况,该方法可以由适于联合建模的数据脱敏装置来执行,该装置可以采用软件和/或硬件的方式来实现。一般可集成在计算机设备中。如图1所示,该方法包括:

S110、获取待处理数据。

本发明实施例中,待处理数据可以是进行脱敏的敏感数据。可选的,敏感数据可以是个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景、征信信息等等。本发明实施例从数据源中获取待处理数据,数据源可以为多个不同的数据源,可以来自关系型数据库、非关系型数据库和文件系统,可选的,关系型数据库可以是Orac l e数据库、MySQL数据库;非关系型数据库可以是MongoDB数据库;文件系统可以是NTFS文件系统、分层文件系统;本发明实施例的数据源可以是本领域中任意数据源,本发明实施例不做具体的限定。

S120、对所述待处理数据进行脱敏以生成脱敏数据,所述脱敏数据包括脱敏特征,所述脱敏特征之间的分布属性对应所述待处理数据之间的分布属性。

本发明实施例中,数据脱敏可以是通过敏感规则进行数据变型,脱敏数据可以是进行数据脱敏后的数据。脱敏特征可以是数据脱敏后脱敏数据的数据特征。分布属性可以是数据中值的属性,例如可以是数字和文本等等属性。本发明实施例在对待处理数据中敏感数据进行脱敏时,保留待处理数据之间的分布数据,待处理数据经过脱敏后得到的脱敏数据,其中,脱敏数据的脱敏特征之间的分布属性与待处理数据之间分布属性是相互对应。例如,待处理数据原有的分布属性是文本,而进行脱敏后的脱敏数据,其脱敏特征之间的分布属性也是文本。

S130、将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。

本发明实施例中,联合建模可以是双方或多方进行合作搭建模型,是通过数据提供方提供相应的数据集合,通过联合建模训练获取目标联合模型的方式。脱敏建模数据可以是一种记录的方式存储在数据存储装置中,记录可以包括:I D、f1、f2…fn、vers ion、date;其中ID是记录的主键标识,f1~fn是n个经过脱敏后的脱敏特征,vers ion是脱敏建模数据的版本号,date是脱敏建模数据的产生时间;记录的主键标识可以唯一标识相应的脱敏建模数据,可以通过主键标识直接获取相应的脱敏建模数据,f1~fn脱敏特征之间具备的分布属性与生成记录的待处理数据之间的分布属性相同,版本号记录脱敏建模数据的版本信息。

本发明实施例提供的一种适于联合建模的数据脱敏方法,获取待处理数据;对所述待处理数据进行脱敏以生成脱敏数据,所述脱敏数据包括脱敏特征,所述脱敏特征之间的分布属性对应所述待处理数据之间的分布属性;将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。本发明实施例的技术方案解决了现有技术中数据脱敏后,无法保留数据的原始分布的技术问题。本发明实施例在对数据进行脱敏的同时,保留了脱敏数据的原始分布,通过封装更适用联合建模,提高了数据的使用价值和联合建模的效率。

在另一种实施例中,将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据之后,还包括:根据预设的规则将所述脱敏建模数据封装为在线接口;通过调用多个在线接口的脱敏建模数据进行联合建模。

本发明实施例中,预设的规则可以是本领域中任意一种适用于联合建模的在线接口的封装方式。根据预设的规则将所述脱敏建模数据封装为在线接口,其中,在线接口可以是本领域中任意一种数据交换平台,本发明实施例通过数据交换平台提供所有脱敏建模数据封装的在线接口,数据使用方可以调用多个在线接口获取对应脱敏建模数据建立数据集合,根据获取的数据集合训练神经网络模型获取目标联合模型。

本发明实施例通过将脱敏建模数据封装为在线接口,进而调用在线接口进行联合建模,使得不同企业合作方可以自由的交换数据,获取数据进行联合建模,保障了数据安全同时,也提高了数据交互之间的效率。

实施例二

图2为本发明实施例提供的又一种适于联合建模的数据脱敏方法的流程示意图,在上述各可选实施例基础上进行优化,具体的,该方法包括如下步骤:

S210、获取待处理数据。

S220、判断所述待处理数据之间的分布属性,所述分布属性包括连续分布和非连续分布。

本发明实施例中,分布属性包括连续分布和非连续分布。其中,连续分布的待处理数据的值可以是数字,非连续分布的待处理数据的值可以是文本。获取待处理数据后,识别待处理数据的分布属性,如果待处理数据是数字,则认定当前待处理数据为连续分布型数据;如果待处理数据是文本,则认定当前待处理数据为非连续分布型数据。例如在上述实施例中,年龄和收入由数字构成,年龄和收入是连续分布的数据;性别,教育背景由文本构成,性别和教育背景是非连续分布的数据。

S230、若所述待处理数据为非连续分布型数据,则将所述待处理数据的值进行编码映射以生成脱敏数据;若所述待处理数据为连续分布型数据,则将所述待处理数据的值进行特征值计算以生成脱敏数据。

本发明实施例中,当所述待处理数据为非连续分布型数据,将所述待处理数据的值进行编码映射,将待处理数据按照预设映射集将每一个敏感数据映射为预设映射集中的编码,所有待处理数据映射完成后,完成编码,生成编码后的脱敏数据。所述预设映射集中设置数据映射的规则,本发明实施例根据不同类型的数据选择不同的映射规则,按照不同类型的数据对应的映射规则,对数据进行编码处理。例如,假设当前待处理数据有性别、姓名、教育背景,则选择预设映射集中性别、姓名、教育背景的相应的映射规则,将性别、姓名、教育背景进行编码映射为:f1、f2、f3。

在另一种实施例中,S2301当所述待处理数据为连续分布型数据,则对待处理数据进行正态化检测。

本发明实施例中,正态化检测是当所述待处理数据为连续分布型数据时,检测待处理数据正态分布,判断待处理数据是否满足正态分布。

S2302、若所述连续分布满足正态分布,则将所述待处理数据进行正态标准化特征值计算以生成脱敏数据;

本发明实施例中,如果所述待处理数据满足正态分布,则将所述待处理数据进行正态标准化特征值计算。可选的,标准化是将数据变换为均值为0,标准差为1的分布。

示例性的,正态标准化特征值计算可以通过如下表达式确定:

其中x为所述待处理数据的原始值,μ是连续分布型数据在所有样本中的平均值,σ是所述待处理数据在所有样本中的标准差。

S2303若所述连续分布不满足正态分布,则将所述待处理数据进行归一化特征值计算以生成脱敏数据。

在另一种实施例中,所述待处理数据为连续分布且不满足正态分布,则将所述待处理数据进行归一化特征值计算以生成脱敏数据。可选的,归一化是将数据变化到一个固定区域的特征值计算方式。

具体的,获取所述待处理数据的最大值和最小值;根据所述待处理数据的最大值和最小值进行最大最小值归一化处理。

示例性的,正态标准化特征值计算可以通过如下表达式确定:

其中,其中x为所述待处理数据的原始值,x

S240、将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。

本发明实施例提供的一种适于联合建模的数据脱敏方法。根据待处理数据的分布类型,如果待处理数据为非连续分布型数据,则将所述待处理数据的值进行编码映射以生成脱敏数据;如果所述待处理数据为连续分布型数据,则判断所述连续分布是否满足正态分布,如果所述连续分布满足正态分布,则将所述待处理数据进行正态标准化特征值计算以生成脱敏数据;如果所述连续分布不满足正态分布,则将所述待处理数据进行归一化特征值计算以生成脱敏数据。

本发明实施例的技术方案解决了现有技术中数据脱敏后,无法保留数据的原始分布的技术问题。本发明实施例在对数据进行脱敏的同时,保留了脱敏数据的原始分布,不仅提高了模型的准确性,还提高了数据的使用价值和联合建模的效率。

实施例三

图3为本发明实施例提供的一种适于联合建模的数据脱敏装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过联合建模的数据脱敏方法来进行确定。如图3所示,该装置包括:

数据获取装置310,用于获取待处理数据;

数据脱敏装置320,用于对所述待处理数据进行脱敏以生成脱敏数据,所述脱敏数据包括脱敏特征,所述脱敏特征之间的分布属性对应所述待处理数据之间的分布属性;

数据封装装置330,用于将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。

进一步的,数据脱敏装置320之前,还包括:数据分布属性判断装置,用于判断所述待处理数据之间的分布属性,所述分布属性包括连续分布和非连续分布。

进一步的,数据分布属性判断装置,还用于若待处理数据包括非连续特征,则确认待处理数据为非连续分布型数据;若待处理数据包括连续特征,则确认待处理数据为连续分布型数据;

进一步的,所述数据脱敏装置320,具体包括:

非连续分布型数据处理单元,用于若所述待处理数据为非连续分布型数据,则将所述待处理数据的值进行编码映射以生成脱敏数据;

连续分布型数据处理单元,若所述待处理数据为连续分布型数据,则将所述待处理数据的值进行特征值计算以生成脱敏数据;

进一步的,所述连续分布型数据处理单元,具体用于若所述连续分布满足正态分布,则将所述待处理数据进行正态标准化特征值计算以生成脱敏数据;若所述连续分布不满足正态分布,则将所述待处理数据进行归一化特征值计算以生成脱敏数据。

在一些实施例中,所述连续分布型数据处理单元,还用于获取所述待处理数据的最大值和最小值;根据所述待处理数据的最大值和最小值进行最大最小值归一化处理。

本发明实施例进一步提供的适于联合建模的数据脱敏装置可执行本发明任意实施例所提供的适于联合建模的数据脱敏方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的适于联合建模的数据脱敏方法。

实施例四

本发明实施例提供了一种服务器设备,该计算机设备中可集成本发明实施例提供的适于联合建模的数据脱敏装置。图4为本发明实施例提供的一种服务器设备的结构框图。服务器400可以包括:存储器410,处理器420及存储在存储器401上并可在处理器运行的计算机程序,所述处理器402执行所述计算机程序时实现如本发明实施例所述的适于联合建模的数据脱敏方法。

本发明实施例提供的服务器设备可执行本发明任意实施例所提供的适于联合建模的数据脱敏方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的适于联合建模的数据脱敏方法。

实施例五

本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于适于联合建模的数据脱敏方法,该方法包括:

获取待处理数据;

对所述待处理数据进行脱敏以生成脱敏数据,所述脱敏数据包括脱敏特征,所述脱敏特征之间的分布属性对应所述待处理数据之间的分布属性;

将所述脱敏数据进行数据封装以生成适于联合建模的脱敏建模数据。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的脱敏数据的联合建模,还可以执行本发明任意实施例所提供的适于联合建模的数据脱敏方法中的相关操作。

上述实施例中提供的适于联合建模的数据脱敏装置、设备及存储介质可执行本发明任意实施例所提供的适于联合建模的数据脱敏方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的适于联合建模的数据脱敏方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

技术分类

06120116551083