一种基于标签量信息的联邦学习节点选择方法及系统

文献发布时间：2023-06-19 11:52:33

技术领域

本发明涉及人工智能机器学习领域，尤其涉及一种基于标签量信息的联邦学习节点选择方法及系统。

背景技术

联邦学习是一种新兴的人工智能技术，旨在保护节点数据隐私的同时完成一个机器学习模型的分布式训练。与传统的机器学习分布式训练类似，在拥有保护用户数据隐私的优势的同时，联邦学习能通过增加计算节点的数量来提高模型的训练效率。由于训练过程往往在无线通信环境下完成，相较于传统分布式学习的有线通信而言，联邦学习的通信成本往往偏高。为了节省联邦学习的通信效率，服务器在每个回合仅会选择一部分的节点进行训练，现有的节点选择方法包括基于通信条件估计的方法和基于梯度信息的方法，但这两类方法以优化收敛或通信单方面性能为主且难以兼容。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于标签量信息的联邦学习节点选择方法及系统，本方法能保证一定的联邦学习的通信效率且有效缓解节点数据的非独立同分布特征对模型收敛的负面影响，并在引入了节点标签量的同时，提供一个计算复杂度较低的隐私保护机制，从而提高了新节点选择方法的泛用性。

本发明所采用的第一技术方案是：一种基于标签量信息的联邦学习节点选择方法，包括以下步骤：

根据本地数据生成标签向量并通过加密矩阵对标签向量进行加密，得到加密后标签向量；

根据计算资源估计单轮训练耗时，得到训练耗时估计；

上传加密后标签向量与训练耗时估计并进行数据整合，得到整合后数据；

基于整合后数据，在预设的最大通信耗时限制下，搜索标签组合分布最优的节点序列作为最终的被选客户节点序列。

进一步，所述根据本地数据生成标签向量并通过加密矩阵对标签向量进行加密，得到加密后标签向量这一步骤，其具体包括：

计算节点根据自身本地数据生成标签向量Z

从加密中心获取单位正交矩阵M；

根据单位正交矩阵M对自身的标签向量进行变换，得到加密后标签向量Z

进一步，所述上传加密后标签向量与训练耗时估计并进行数据整合，得到整合后数据这一步骤，其具体包括：

计算节点将加密后标签向量与训练耗时估计上传至计算服务器；

计算服务器根据信道信息估计出各节点的单轮耗时T

将剩余节点的单轮耗时T

进一步，所述基于整合后数据，在预设的最大通信耗时限制下，搜索标签组合分布最优的节点序列作为最终的被选客户节点序列这一步骤，其具体包括：

计算服务器建立价值矩阵M

打乱节点顺序；

计算服务器依次逐个考虑节点，根据单轮耗时和加密后标签向量逐行更新价值矩阵M

服务器根据价值矩阵M

进一步，所述计算服务器依次逐个考虑节点，根据单轮耗时和加密后标签向量逐行更新价值矩阵M

在第i行，第j列的单轮更新中，计算服务器先判断当前节点i的耗时T

判断到i≠0且T

将新价值v后与价值矩阵上一行的结果M

进一步，所述加密中心与计算服务器是各自独立且不允许互通信息的。

进一步，所述价值矩阵M

上式中，Z

本发明所采用的第二技术方案是：一种基于标签量信息的联邦学习节点选择系统，包括：

计算节点，用于获取加密矩阵、根据本地数据生成标签向量、通过加密矩阵对标签向量进行加密、根据计算资源估计单轮训练耗时和上传加密后标签向量与训练耗时估计；

加密中心，用于随机生成加密矩阵；

计算服务器，用于整合数据、基于整合后数据，在预设的最大通信耗时限制下，搜索标签组合分布最优的节点序列作为最终的被选客户节点序列。

本发明方法及系统的有益效果是：本发明相较于原始的等概率随机选取策略而言，能够有效缓解节点数据非独立同分布的统计特征对全局模型收敛的不良影响，使得联邦学习的效率大幅提高；相较于同类型的依赖于节点梯度信息等方法，该方法所借助的标签量信息的获取难度与通信量需求很低；由于节点标签分布可在节点开始本地训练前获取，本方法能根据节点提供的时间估计信息，控制模型训练的单轮最大耗时，从而能保证一定的联邦学习的通信效率。本方法引入了节点标签量的同时，也提供了一个计算复杂度较低的隐私保护机制，提高了新节点选择方法的泛用性。

附图说明

图1是本发明一种基于标签量信息的联邦学习节点选择方法的步骤流程图；

图2是本发明一种基于标签量信息的联邦学习节点选择系统的结构框图；

图3是本发明实施例联邦学习的网络模型图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图3所示，联邦学习适用于“基站节点+节点”的机器通信网络场景，该类型联邦学习场景具有的特点包括：1、节点种类多样，多以移动设备为主，具备一定计算能力；2、节点用于训练模型的数据由用户对设备的使用而本地生成，该数据往往带有较强的用户隐私性，且随用户的使用习惯而服从不同的统计分布规律；3、服务器与节点完成模型的训练需要多轮通信，通信内容以模型参数为主。用户数据无需进行传输，从而能保护用户数据隐私。

参照图1，本发明提供了一种基于标签量信息的联邦学习节点选择方法，在服务器挑选节点进行训练前，客户节点可从第三方的加密中心获取一个对计算服务器加密的一个加密矩阵，然后向计算服务器上传自己的加密后的标签信息与单轮训练耗时估计。之后计算服务器在最大单轮通信耗时限制下，搜索一个被选节点的标签分布与全局标签分布尽可能相似的节点组合作为最终被选择的客户节点序列，具体包括以下步骤：

S1、根据本地数据生成标签向量并通过加密矩阵对标签向量进行加密，得到加密后标签向量；

具体地，假设系统中共有K个节点，其中节点k按标签分类，最多拥有C类的本地数据，且各类数据量为n

S2、根据计算资源估计单轮训练耗时，得到训练耗时估计；

具体地，各节点根据自身计算资源，估计出单轮训练耗时并将其上传至计算服务器。

S3、上传加密后标签向量与训练耗时估计并进行数据整合，得到整合后数据；

S4、基于整合后数据，在预设的最大通信耗时限制下，搜索标签组合分布最优的节点序列作为最终的被选客户节点序列。

具体地，本方法的目的是在控制最大单轮训练时间的前提下，优化被选节点的标签分布，使之更接近于全局标签分布，从而使得汇总后的全局模型收敛方向不发生较大的偏离，以减缓节点数据的非独立同分布特征对模型收敛的不良影响。

另外，在联邦学习的迭代学习过程中，由于通信系统具备时变性，服务器需要在一定周期内重新运行该算法以保障节点的成功选择效率。

进一步作为本方法的优选实施例，所述根据本地数据生成标签向量并通过加密矩阵对标签向量进行加密，得到加密后标签向量这一步骤，其具体包括：

计算节点根据自身本地数据生成标签向量Z

从加密中心获取单位正交矩阵M；

具体地，变换矩阵M是一个由独立于计算服务器的加密中心随机生成的单位正交矩阵。各节点收到的矩阵M是一致的，因此所有标签向量将进行一次不改变相对信息的统一变换，加密中心无需接收节点的标签向量，计算服务器未知标签向量的参考坐标系从而无法得知标签向量内数值的具体含义，因此可以保护标签数据量中隐含的用户隐私信息。

所述加密中心与计算服务器是各自独立且不允许互通信息的，即加密中心不能获取到节点的标签向量，而计算服务器不能获取到变换矩阵M。

根据单位正交矩阵M对自身的标签向量进行变换，得到加密后标签向量Z

具体地，Z

进一步作为本方法的优选实施例，所述上传加密后标签向量与训练耗时估计并进行数据整合，得到整合后数据这一步骤，其具体包括：

计算节点将加密后标签向量与训练耗时估计上传至计算服务器；

计算服务器根据信道信息估计出各节点的单轮耗时T

将剩余节点的单轮耗时T

具体地，将时耗取整以简化后续程序。

进一步作为本方法的优选实施例，所述基于整合后数据，在预设的最大通信耗时限制下，搜索标签组合分布最优的节点序列作为最终的被选客户节点序列这一步骤，其具体包括：

计算服务器建立价值矩阵M

具体地，全局标签分布Z

打乱节点顺序；

计算服务器依次逐个考虑节点，根据单轮耗时和加密后标签向量逐行更新价值矩阵M

服务器根据价值矩阵M

具体地，算法的运行原理是搜索不同的可能节点组合方案，选择最终组合标签向量与全局向量方向最相似的方案作为最终的客户选择方案。搜索的过程是通过对价值矩阵M

进一步作为本方法优选实施例，所述计算服务器依次逐个考虑节点，根据单轮耗时和加密后标签向量逐行更新价值矩阵M

在第i行，第j列的单轮更新中，计算服务器先判断当前节点i的耗时T

判断到i≠0且T

将新价值v后与价值矩阵上一行的结果M

进一步作为本方法优选实施例，所述价值矩阵M

上式中，M

如图2所示，一种基于标签量信息的联邦学习节点选择系统，包括：

加密中心，用于随机生成加密矩阵；

计算服务器，用于整合数据、基于整合后数据，在预设的最大通信耗时限制下，搜索标签组合分布最优的节点序列作为最终的被选客户节点序列。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孙兴华;马嘉华;黄晓霞;詹文;王玺钧;陈翔;
专利申请人：中山大学;

上一篇：一种基于多目标文件托管的项目信息交付方法
下一篇：一种玻璃清扫装置