一种有监督矩阵补全的隐私保护方法

文献发布时间：2023-06-19 09:52:39

技术领域

本发明涉及智能隐私保护与网络安全领域，具体的，涉及一种有监督矩阵补全的隐私保护方法。

背景技术

对于大数据和智能信息时代，越来越多的数据被收集的同时收集的数据也存在着噪声、失真和数据缺失的问题，基于这两个问题将缺失的数据进行有监督的压缩隐私矩阵补全不仅可以提高数据的效用性还能提升数据的隐私安全。

在大数据时代，越来越多的网络数据被收集，这就使得大量数据存放在云环境中。由于现在的数据挖掘工具越来越强大，极有可能导致数据隐私被挖掘甚至被泄露的问题。同时，在收集数据的过程中想要收集到完整的数据也是很困难的，需要耗费很大的人力物力。

专利文献CN108537738A一种矩阵补全方法，涉及基于低秩近似的高精度的矩阵补全方法，一种方式是通过采集部分信号来加速数据采集。从这些数据的低秩特性出发来恢复出完整的信号，首先利用逼近函数来近似计算矩阵的秩，然后建立矩阵缺失信号的重建模型，最后通过迭代算法重建信号。重建的矩阵精度高，易于操作，可以从少量数据中恢复出完整信号。但是该矩阵补全的方法仅仅考虑的是矩阵数据的本身没有考虑到待补全数据的标签信息，以及补全数据的隐私问题，该方法也没有考虑到补全后的矩阵是否补全的矩阵的可用性是否下降。

发明内容

有鉴于此，本发明的目的是提供一种基于有监督矩阵补全的隐私保护方法，考虑了数据集补全中的标签信息还考虑了矩阵的隐私，能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。

本发明的目的是通过以下技术方案实现的：

一种有监督矩阵补全的隐私保护方法，隐私保护方法包括：

S1：根据当前恢复的补全矩阵，获得达到具有最大化的有效性同时具备最小隐私泄露的判别信息及其投影矩阵；

S2：基于有监督矩阵补全技术，定义矩阵补全的优化式，将判别信息引入到补全信息，获取矩阵补全和最佳的投影矩阵；

S3：将补全的数据进行有损的压缩投影。

进一步，所述S1具体为：

S11：获取当前恢复的补全矩阵

散度矩阵S

其中：i代表类标签，L代表数据集中总的类别数，其中j代表第i类的第j个样本，N

类间散度矩阵S

其中：i代表类标签，L代表数据集中总的类别数，u

S12：结合类内的散度矩阵S

其中w

S13：基于判别信息，获取判别信息的投影矩阵。

进一步，所述S2具体为：

S21：定义矩阵补全的目标函数，具体为：

其中：

||.||

S22：交替优化，获取拥有最小隐私信息的补全矩阵；

S23：求解补全的矩阵的最佳的效用和隐私的投影。

进一步，所述S23具体为：

S231：设置初始化参数θ

S232：定义恢复矩阵的中间变量Z

其中：

S233：更新

S234：另

S235：进行迭代直至得到最好的恢复结果

进一步，所述S3具体为：

将所述最佳的效用和隐私投影划分成两部分，一个部分为W

在最佳的投影的子空间中选择W

其中

进一步，所述隐私保护方法还包括S4，具体为：

S4：将补全后有损压缩的数据，建立漏斗形的深度神经网络的分类模型，对压缩数据进行效用性和隐私性进行验证。

进一步，所述S4具体分为以下步骤：

S41：根据所述S3得到的去除隐私部分的数据样本

S42：根据所述S3得到的去除隐私部分的数据样本

本发明的有益效果是：

本发明提出了一种基于有监督矩阵补全的隐私保护方法，同时考虑了数据集补全中的标签信息还考虑了矩阵的隐私，因为在标签信息可以表征其数据样本的特征信息，在补全的同时还度量其数据的效用性和隐私性，因此矩阵补全的方法能够进一步的提高恢复后矩阵数据的效用性和隐私性，从而通过有损的压缩的方法将其放入漏斗状的神经网络进行效用类别的预测，还能保证隐私类别不能不被预测出，能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

附图1为本发明流程图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

本发明提出了一种有监督矩阵补全的隐私保护方法，本发明凭借机器学习中的数据集是结构化的，能保证数据矩阵是低秩的优势，本发明通过矩阵补全的算法将缺失信息补全。利用待补全数据的标签信息，引入有监督的、有损的压缩隐私，使得监督的标签信息不仅能够指导缺失矩阵的补全，还能够使得补全的数据是具有最小的隐私泄露，使得我们的缺失数据能够更效用性和隐私性，更加安全放心的将数据上传给云服务器，具体如图1所示，包括如下步骤：

S1：根据当前恢复的补全矩阵

S11：根据判别成分分析的原理，根据其对应的标签信息，获取当前恢复的补全矩阵

散度矩阵S

其中：i代表类标签，L代表数据集中总的类别数，其中j代表第i类的第j个样本,N

类间散度矩阵S

其中：i代表类标签，L代表数据集中总的类别数，u

同时，还可以将中心化的散度矩阵的定义

S12：结合散度矩阵S

根据判别成分分析原理，可以将其划分为信息子空间和噪声子空间。目标为求解出类内距离最小和类间距离最大的目标函数。将判别信息的函数定义成如下的形式：

其中w

为了更加直观的找到最优和最合适的成分分析，将其转化成了一个直观的优化策略，将类间矩阵的最大为信号能量，将类内距离为噪声能量。可以转化成基于每个成分的信噪比的和，如下所示：

其中s

其中c表示投影矩阵W的列数，w

此时，为了矩阵补全的目标函数的最小相结合，将目标函数写成既能达到最大化的有效性又能最小隐私泄露的判别信息目标函数为：

S13：基于判别信息，获取判别信息的投影矩阵。以上的表达式中可以将J(W)的优化求解式，写成

在上面的表达式中优化得到最优的W，是令

我们考虑结合了到存在数据缺失不完整的情况，需要对数据进行矩阵补全的任务操作，我们在求解得到了当前恢复矩阵的最大效用和最小隐私的投影矩阵W后，我们固定其W，对判别信息对

其中：X

S2：基于有监督矩阵补全技术，定义矩阵补全的优化式，将判别信息引入到补全信息，获取矩阵补全和最佳的投影矩阵。

S21：因为基于有监督的矩阵补全的技术，通过引入目标函数的有监督的隐私函数J(W)和标签信息来指导矩阵补全，使得其更好的接近与目标。因为数据集中的标签信息可以表征特征信息，所有通过监督信息和判别隐私，可以更好的指导矩阵补全。将矩阵补全目标函数定义成如下，

其中在这里

S22：交替优化，获取拥有最小隐私信息的补全矩阵。该矩阵补全的上述的优化式，通过交替的优化使得我们既能得到补全的矩阵，又能让该矩阵只有最小的隐私信息。在优化

对于该表达式的优化可以利用经典的迹范数最小的加速近端梯度下降来求解问题，进行优化。这个方法利用的目标函数的平滑特征，我们可以将上述的式子进行改写，方便进行优化。

令和

其中函数

S23：求解补全的矩阵的最佳的效用和隐私的投影。该步骤介绍建立在S22之上，求解补全矩阵和最佳的效用和隐私投影W

S231：设置初始化的参数θ