掌桥专利:专业的专利平台
掌桥专利
首页

一种数据集隐私程度度量方法

文献发布时间:2023-06-19 11:49:09


一种数据集隐私程度度量方法

技术领域

本发明涉及数据集隐私保护技术领域,尤其涉及一种数据集隐私程度度量方法。

背景技术

随着社会的发展,信息数据逐渐普及在网络上,信息数据十分重要,由于猎奇心理或是利益的驱动,许多恶意攻击者仍然时刻觊觎着他人的隐私,物联网的快速发展,一方面促使大量隐私信息存储在网络上,为恶意攻击者提供了丰富的潜在目标;另一方面,由于监管的困难及安全防范的不足,恶意攻击者也更容易通过网络实施各种侵犯隐私的行为,仅仅依靠法律规范来保护隐私还远远不够,必须要从技术上防止恶意用户窃取用户隐私。

现有技术中没有合适的技术手段对数据集隐私的保护程度进行度量,无法确认数据集隐私的安全性。

发明内容

本发明的目的是为了解决现有技术中没有合适的技术手段对数据集隐私的保护程度进行度量,无法确认数据集隐私的安全性的缺点,而提出的一种数据集隐私程度度量方法。

为了实现上述目的,本发明采用了如下技术方案:

一种数据集隐私程度度量方法,包括以下重要步骤:

S1:数据集合;

S2:建立字段隐私程度模型;

S3:字段隐私程度识别;

S4:经过标识的数据集合;

S5:数据隐私处理和评分。

优选的,所述S1收集大量数据,并初步分类,然后进行集合。

优选的,所述S2中数据提供方维护一份字段库,收集了各个数据集中会出现的字段名称,并根据字段的隐私程度定义每个字段名称的动态隐私程度分数;根据每个字段的评分有一个动态的等级分类,建立字段隐私程度模型。

优选的,所述S3中字段隐私程度识别装置,该装置的输入是“数据集合”以及“字段隐私程度模型”,经过装置时,首先根据模型对字段进行评分,最后根据评分对字段进行分级:高、中、低,并输出经过标识的数据集合。

优选的,所述分级的高包含姓名、身份证号码、手机号码;分级的中包含住址和性别,分级的低包含编号。

优选的,所述S4中经过标识的数据再次集合,S5中。

优选的,所述S5中利用数据隐私处理和评分装置进行处理和评分,该装置的输入是“经过标识的数据集合”以及“字段保护策略”,装置根据策略对相应标识的字段做隐私处理,同时计算数据集合的隐私保护程度评分公式如下:

最终输出“经过隐私处理的数据集合”以及“数据集合的隐私保护程度评分。

优选的,所述字段做隐私处理的方式包含:对称加密(AES、SM4)、Hash函数、数字签名、数字证书、访问控制、同态加密。

与现有技术相比,本发明的优点在于:

本发明可以快速有效的对数据隐私进行度量,通过从多方面进行分析,提高隐私度量的效率和效果,可以精准的确认隐私的安全性。

附图说明

图1为本发明提出的一种数据集隐私程度度量方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

参照图1,一种数据集隐私程度度量方法,包括一种数据集隐私程度度量方法,包括以下重要步骤:

S1:数据集合;

S2:建立字段隐私程度模型;

S3:字段隐私程度识别;

S4:经过标识的数据集合;

S5:数据隐私处理和评分。

本实施例中,S1收集大量数据,并初步分类,然后进行集合。

本实施例中,S2中数据提供方维护一份字段库,收集了各个数据集中会出现的字段名称,并根据字段的隐私程度定义每个字段名称的动态隐私程度分数;根据每个字段的评分有一个动态的等级分类,建立字段隐私程度模型。

本实施例中,字段隐私程度模型,根据数据提供方维护一份字段库,收集了各个数据集中会出现的字段名称,并根据字段的隐私程度定义每个字段名称的动态隐私程度分数如下表:

本实施例中,S3中字段隐私程度识别装置,该装置的输入是“数据集合”以及“字段隐私程度模型”,经过装置时,首先根据模型对字段进行评分,最后根据评分对字段进行分级:高、中、低,并输出经过标识的数据集合。

本实施例中,根据每个字段的评分有一个动态的等级分类表如下:

本实施例中,分级的高包含姓名、身份证号码、手机号码;分级的中包含住址和性别,分级的低包含编号。

本实施例中,S4中经过标识的数据再次集合,S5中。

本实施例中,S5中利用数据隐私处理和评分装置进行处理和评分,该装置的输入是“经过标识的数据集合”以及“字段保护策略”,装置根据策略对相应标识的字段做隐私处理,同时计算数据集合的隐私保护程度评分公式如下:

最终输出“经过隐私处理的数据集合”以及“数据集合的隐私保护程度评分。

本实施例中,字段做隐私处理的方式包含:对称加密(AES、SM4)、Hash函数、数字签名、数字证书、访问控制、同态加密;

本实施例中,字段做隐私处理或字段保护策略指的是根据不同等级字段类型进行处理方法设定,并定义一定的安全系数如下表:

实施例二

本实施例中,数据库隐私度量;隐私保护技术需要在保护隐私的同时,兼顾数据的可用性。通常从以下两个方面对数据库隐私保护技术进行度量。

第一、隐私保护度;通常通过发布数据的披露风险来反映隐私保护度。披露风险越小,隐私保护度越高。

第二、数据可用性;数据可用性是对发布数据质量的度量,它可以反映通过隐私保护技术处理后数据的信息丢失情况:数据缺损越高,信息丢失越多,数据利用率越低。具体的度量指标有:信息缺损的程度、重构数据与原始数据的相似度等。

本实施例中,数据隐私度量;数据隐私披露风险是指由于个人的敏感数据或者企业和组织的机密数据被恶意攻击者或非法用户获取后,他们可以借助某些背景知识推理出个人的隐私信息或者企业和组织的机密信息,从而给个人、企业和组织带来严重损失,保护敏感数据常用的方法之一就是采用密码技术对敏感数据进行加密,因此,主要从机密性、完整性和可用性3个方面对数据隐私进行度量。

第一,机密性;数据必须按照数据拥有者的要求保证一定的机密性,不会被非授权的第三方非法获知。敏感的机密信息只有得到拥有者的许可后,其他人才能够获得该信息。信息系统必须能够防止信息的非授权访问和泄露。

第二,完整性;完整性是指信息安全、精确和有效,不因人为因素而改变信息原有的内容、形式和流向,即不能被未授权的第三方修改。它包含数据完整的内含,既要保证数据不被非法篡改和删除,又要包含系统的完整性内含,即保证系统以无害的方式按照预定的功能运行,不受有意的或意外的非法操作破坏。数据的完整性包括正确性、有效性和一致性。

第三,可用性;可用性是指数据资源能够提供既定的功能,无论何时何地,只要需要即可使用,而不会受系统故障和误操作等影响,此类影响会导致使用资源丢失或妨碍资源使用,进而使服务不能得到及时的响应。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种数据集隐私程度度量方法
  • 一种基于多指标融合的数据集可分性度量方法
技术分类

06120113066524