一种自适应维度选择的梯度压缩方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及深度学习和梯度压缩领域，具体涉及一种自适应维度选择的梯度压缩方法。

背景技术

分布式机器学习的出现使得多台计算设备可以并行处理训练任务，从而加快了大型神经网络的训练速度，同时也提高了模型的准确性和可靠性。然而在大规模深度学习模型的训练中，网络通信往往是一个非常重要的瓶颈。数据在不同机器设备之间的传输需要消耗大量的网络带宽和通信时间，这将延长训练时间和造成系统资源浪费，从而限制了分布式机器学习的可扩展性。因此，在分布式机器学习中我们需要克服通信瓶颈，优化训练过程中的通信开销。梯度压缩作为一种减少通信开销的方式，已经成为了分布式机器学习领域的研究热点。

在深度学习中，模型的训练需要通过优化损失函数来最小化标签预测值与真实值之间的差距。优化算法通常使用随机梯度下降的方式来更新模型参数，因此梯度值的计算和传递在分布式训练过程中非常重要。

针对上述问题，本发明提出了一种自适应维度选择的梯度压缩方法，设计了基于累积加权梯度的活性维度选取方法，实现梯度稀疏化，自适应选取满足条件的梯度维度参与下轮训练。

发明内容

本发明技术解决问题：提供一种自适应维度选择的梯度压缩方法，以采用梯度稀疏化技术来解决在分布式训练时传输梯度造成的通信开销问题。梯度稀疏化是近年来在分布式训练领域中得到广泛应用的一种技术。该技术是为了解决分布式训练中的通信瓶颈问题而被提出的一种有效方法。其主要思想是通过将梯度中不重要的部分(也就是接近于0的部分)进行压缩或者直接去掉，只传输一些比较大的梯度值，从而减少所需要传输的数据量大小，减少通信开销。

本发明技术解决方案：

提出了一种自适应维度选择的梯度压缩方法，设计了基于累积加权梯度的活性维度选取方法，实现梯度稀疏化，自适应选择满足条件的梯度维度参与本轮训练。

具体步骤如下：

(1)基于累积加权梯度的活性维度选取。通过给本轮梯度加权提高其在全局梯度中比重，优先发送本轮中最为重要的梯度维度。

(2)计算累积加权梯度。表示提高本轮梯度在全局梯度中比重的梯度，通过给本轮梯度向量加权的方式来获取。

(3)本发明无需全局排序，而是将梯度向量均匀划分为n个采样区间，找到每个采样区间的全局梯度的绝对值最大值。再根据步骤(2)取得的累积加权梯度值，比较获取满足条件的梯度值。

所述步骤1中，通过基于累积加权梯度的活性维度选取方法选取生成梯度中本轮最为重要的梯度维度，设计了基于累积加权梯度活性维度选取算法，通过给本轮梯度加权提高其在全局梯度中比重，优先发送本轮中最为重要的梯度维度。

本发明中，为了选取活性梯度，需要计算全局梯度G和累积加权梯度H。累积延迟梯度r表示在前t-1轮下积累在本地未被发送的梯度值。其中G的计算如下式，g为本轮梯度向量：

G＝r+g

累积加权梯度H表示提高本轮梯度在全局梯度中比重的梯度，通过给本轮梯度向量g加权的方式来获取，计算方法如下：

H＝wg+r

其中r为累积延迟梯度表示在前t-1轮下积累在本地未被发送的梯度值，g为本轮梯度向量，w是本轮梯度的权值参数。

本方法无需全局排序，而是将梯度向量均匀划分为多个采样区间，找到每个采样区间的全局梯度的绝对值最大值。其区间内的累积加权梯度值大于此区间绝对值最大值的梯度维度就先添加到预更新序列，用来暂存满足条件的梯度维度索引。全部区间完成上述操作后，对预更新序列中的索引按照其对应的累积加权梯度值的绝对值排序，选取前K个梯度维度参与下一轮训练。

通过划分区间的方式，提前过滤掉在本轮训练中影响小的梯度值，并且通过给本轮梯度赋予更高的权重，获取了本轮训练中高活性的梯度值。

本发明提供的一种自适应维度选择的梯度压缩方法，具有以下优势：

(1)本发明提出了基于累积加权梯度的活性维度选取方法，通过放大最新梯度获取每次迭代中最具活性梯度维度，有效实现了高维梯度向量的稀疏化，也最大限度地减少了因历史积累梯度值和梯度陈旧性的爆炸而导致模型发散的可能性。

(2)本发明通过划分区间的方式，提前过滤掉在本轮训练中影响小的梯度值，并且通过给本轮梯度赋予更高的权重，获取了本轮训练中高活性的梯度值，减小了排序的计算消耗。

附图说明

图1是本发明中基于累积加权梯度的活性维度选取方法流程图；

图2是本发明中分布式网络模型。

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。其中附图1描述了自适应维度选择的梯度压缩过程。

本发明具体的实现步骤：

(1)基于累积加权梯度的活性维度选取。通过给本轮梯度加权提高其在全局梯度中比重，优先发送本轮中最为重要的梯度维度。

(2)为了选取活性梯度，需要计算全局梯度G和累积加权梯度H。累积延迟梯度r表示在前t-1轮下积累在本地未被发送的梯度值。其中G的计算如下式，g为本轮梯度向量：

G＝r+g

(3)计算累积加权梯度H表示提高本轮梯度在全局梯度中比重的梯度，通过给本轮梯度向量g加权的方式来获取，其中w是本轮梯度的权值参数。计算方法如下：

H＝wg+r

(4)本发明无需全局排序，而是将梯度向量均匀划分为n个采样区间，找到每个采样区间的全局梯度的绝对值最大值。再根据步骤(2)取得的累积加权梯度值，选取其区间内的累积加权梯度值大于此采样区间的全局梯度的绝对值最大值的梯度维度，自适应选择参与下轮训练的梯度维度数量，参与本轮训练。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

完整全部详细技术资料下载