掌桥专利:专业的专利平台
掌桥专利
首页

一种有效学习N:M稀疏的最佳组合方法

文献发布时间:2023-06-19 18:34:06



技术领域

本发明涉及人工神经网络的压缩与加速,尤其是涉及一种有效学习N:M稀疏的最佳组合方法。

背景技术

近年来,深度卷积神经网络(CNN)在广泛的视觉问题中日益流行,如图像分类、目标检测和语义分割。然而,卓越的性能是以巨大的计算负担和内存占用为代价的,这给在资源有限的设备中部署CNN带来巨大的挑战。随着移动设备的普及,模型压缩受到学术界和工业界的广泛关注。通过减少CNN中的参数数量,网络稀疏性已成为减轻存储和计算负担的最具代表性的技术之一。根据稀疏粒度,传统方法可分为非结构化稀疏方法[Xiaohan Ding,Xiangxin Zhou,Y uchen Guo,Jungong Han,Ji Liu,et al.Global sparse momentum sgdfor pruning very deep neural networks.In Advances in Neural InformationProcessing Systems(NeurIPS),pages 6382–6394,2019]和结构化稀疏方法[MingbaoLin,Rongrong Ji,Yan Wang,Yichen Zhang,Baochang Zhang,Y onghong Tian,and LingShao.Hrank:Filter pruning using high-rank feature map.In IEEE Conference onComputer Vision and Pattern Recognition(CVPR),pages 1529–1538,2020]。非结构化稀疏性移除的是CNN中的任意权重。早期研究表明,在较大的压缩率下,非结构化稀疏性能够达到可忽略的性能退化。但是非结构化稀疏性通常会导致不规则的稀疏矩阵,这会导致索引存储量大,加速速度很低。相反,结构化稀疏性移除滤波器中的所有权重。因此,稀疏权重仍然是硬件友好的格式,导致显著的加速。然而,移除整个滤波器也会严重损害精度性能。因此,未来的进展有望找到一种新的稀疏模式来权衡性能和加速。

最近,N:M细粒度稀疏性在研究界显示出一种很有希望的力量。N:M稀疏性将网络中的权重划分为大小为M的几个块。通过在每个块中最多保留M个权重中的N个,它不仅实现高稀疏率,而且还保留规则的稀疏矩阵结构,以实现NVIDIA安培稀疏张量核支持的有效加速度。Pool等人[Jeff Pool and Chong Y u.Channel permutations for n:Msparsity.Advances in Neural Information Processing Systems(NeurIPS),34,2021.]进一步利用信道置换来最大化N:M稀疏网络的精度。Sun等人[Wei Sun,Aojun Zhou,SanderStuijk,Rob Wijnhoven,Andrew O Nelson,Henk Corporaal,et al.Dominosearch:Findlayer-wise fine-grained n:M sparse schemes from dense neuralnetworks.Advances in Neural Information Processing Systems(NeurIPS),34,2021]提出一种分层细粒度N:M方案,以实现比均匀N:M稀疏度更高的精度。最近,人们也在探索N:M细粒度稀疏性的训练效率。Hubara等人[Itay Hubara,Brian Chmiel,Moshe Island,RonBanner,Joseph Naor,and Daniel Soudry.Accelerated sparse neural training:Aprovable and efficient method to find n:m transposable masks.Advances inNeural Information Processing Systems(NeurIPS),34,2021.]设计转置掩码,以加速N:M稀疏训练的后向阶段。Chmiel等人[Brian Chmiel,Itay Hubara,Ron Banner,and DanielSoudry.Optimal fine-grained n:M sparsity for activations and neuralgradients.arXiv preprint arXiv:2203.10991,2022]进一步将N:M稀疏性扩展到激活,这进一步提高训练效率。开创性的ASP(apex的自动稀疏)在每四个元素块中保留两个最大的量级权重,然后在观察到的数据集上重新训练稀疏网络。然而,耗时的预训练阶段极大地限制在资源受限的场景中部署N:M稀疏性。为了避免训练前的负担,Zhou等人[Aojun Zhou,Yukun Ma,Junnan Zhu,Jianbo Liu,Zhijie Zhang,Kun Y uan,Wenxiu Sun,and HongshengLi.Learning n:M fine-grained structured sparse neural networks fromscratch.In International Conference on Learning Representations(ICLR),2021]建议通过利用直通估计器(STE)来近似移除权重的梯度,从零开始学习N:M稀疏性。虽然提出一种额外的正则化方法来减轻权重误差的累积,但在每次训练迭代中都需要计算密集的梯度来更新移除和保留的权重。因此,沉重的训练负担是不可避免的,正如Chmiel等人所分析的那样,这阻碍N:M稀疏性对梯度和激活的推广。因此,到目前为止,如何实现有效的N:M稀疏性仍是一个未知数。

发明内容

本发明的目的在于提供一种有效学习N:M稀疏的最佳组合方法,针对N:M稀疏学习可以建模为一个组合问题,该问题在于在有限的组合集合中找到满足所有给定条件的组合;对于权重矩阵中的单个块,N:M稀疏的目的是从M个连续权重中选择N个非重复元素作为组合。大量实验证明该方法在降低N:M训练成本方面的有效性,以及它比几种SOTA的优越性。

受N:M稀疏性学习可以自然地表征为在有限集合中搜索最佳组合候选的组合问题的启发,本发明以一种有效的分而治之的方式解决N:M稀疏性问题。

本发明包括以下步骤:

1)对于N:M稀疏模式,将权重向量划分为固定大小N的

2)为每个组合分配一个可学习的分数以克服组合问题;

3)组合分数与其相关权重进行联合优化:在网络前向过程中,根据给定技术准则进行二进制掩码以及网络特征向量计算;在网络反向过程中,根据给定技术准则对组合分数与其相关的权重进行更新优化;

4)通过在正常训练过程中逐渐去除低分组合来定位最佳组合,实现有效优化N:M细粒度稀疏性。

在步骤1)中,所述将权重向量划分为固定大小N的

(1)权重分组:对于具有L层的卷积网络的权重W={W

(2)权重稀疏个数确定:对于权重组W

在步骤2)中,所述为每个组合分配一个可学习的分数的具体步骤包括:

(1)确定组合个数:对于每个N:M模式权重组中的组合集合为

(2)对每个组合设定组合分数:在给定有限的组合集合

在步骤3)中,所述组合分数与其相关权重进行联合优化的具体步骤可为:

(1)计算二进制掩码

(2)在网络前向过程中,计算网络各个层的特征映射表示:将第l卷积层的输入特征映射表示为Z

(3)在网络反向更新过程中,对组合分数与其相关的权重进行更新优化:使用STE与随机梯度下降(SGD)优化器进行训练,

在步骤4)中,所述在正常训练过程中逐渐去除低分组合来定位最佳组合,具体而言,在训练每个周期中将根据给定技术准则删除被认为不重要的候选子集;具体步骤可为:

在训练每个周期中删除被认为不重要的候选子集,第t个训练周期的剩余集合为:

其中:

本发明具有以下突出优点:

(1)本发明的方法具有端到端的实现、高效的培训、优化的可处理性的特点。N:M细粒度稀疏性是一种重要的技术,允许在下一代硬件和平台上进行快速推理和训练。与传统方法不同,传统方法以两步方式进行网络稀疏性,包括掩码学习和权重调整,本发明能够在联合框架中优化权重矩阵,从而在正常训练阶段获得优化的N:M稀疏性。本发明摆脱密集梯度计算,可以与将N:M稀疏性扩展到梯度和激活的技术无缝合作,以进一步提高训练效率。

(2)本发明的方法在稀疏化现代网络方面显示出最先进性能。在大型ImageNet数据集上进行的大量实验证明本方法的效果。例如,在ImageNet上训练2:4稀疏性时,ResNet-50网络的top-1准确率达到77.2%,与现有的N:M稀疏方法相比方法处于领先地位。

(3)本发明的方法超过一些无法实现加速的最先进的非结构化稀疏方法。例如,在95%左右的极高稀疏率下,本方法仍然以1:16的稀疏模式达到71.8%的top-1准确率,相较于最近的竞争对手STR[Aditya Kusupati,Vivek Ramanujan,Raghav Somani,MitchellWortsman,Prateek Jain,Sham Kakade,and Ali Farhadi.Soft threshold weightreparameterization for learnable sparsity.In International Conference onMachine Learning(ICML),pages5544–5555,2020]超过1.2%。

附图说明

图1为本发明候选者学习的训练过程;

图2为本发明在不同N:M模式下在ResNet-50网络上稀疏化的比较结果;

图3为本发明和SR-STE方法在1:4模式下的性能比较。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明的动机是N:M稀疏学习可以建模为一个组合问题,该问题在于在有限的组合集合中找到满足所有给定条件的组合。考虑权重矩阵中的单个块,N:M稀疏的目的是从M个连续权重中选择N个非重复元素作为组合。实验证明该方法在降低N:M训练成本方面的有效性,以及它比几种SOTA的优越性。具体的候选者训练过程如图1所示。

对于具有L层的卷积网络用W={W

以前的N:M方法遵循传统的非结构化稀疏性[Song Han,Jeff Pool,John Tran,and William Dally.Learning both weights and connections for efficient neuralnetwork.In Advances in Neural Information Processing Systems(NeurIPS),pages1135–1143,2015],通过查看权重大小以全局方式移除权重。然而,它们都需要巨大的训练成本,无论是从预训练阶段[Nvidia.Nvidia a100 tensor core gpuarchitecture.https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepape r.pdf,2020]还是密集梯度计算[Aojun Zhou,Yukun Ma,Junnan Zhu,Jianbo Liu,Zhijie Zhang,Kun Y uan,Wenxiu Sun,and HongshengLi.Learning n:M fine-grained structured sparse neural networks fromscratch.In International Conference on Learning Representations(ICLR),2021.],以从深层网络中的大量参数中选择最重要的权重。因此,到目前为止,如何以更有效的方式实现N:M稀疏性仍然是一个悬而未决的问题。

通过充分利用N:M稀疏性的内在特殊性,可以很好地缩减解空间以追求有效的N:M稀疏性。具体地说,给定一个权重组

组合集合

根据以上分析,认识到N:M稀疏性可以自然地描述为一个组合问题,其目的是在给定有限的组合集合

等式(6)通过全局稀疏权重向量

基于以上分析,建议学习每个权重向量

考虑Zhu等人[Michael Zhu and Suyog Gupta.To prune,or not to prune:exploring the efficacy of pruning for model compression.In InternationalConference on Learning Representations Workshop(ICLRW),2017]提出的逐步修剪计划,以删除被认为不重要的候选子集,第t个训练期的剩余集合为:

其中:

很容易知道,当t=t

B

若输入为真,

二进制掩码的使用起源于许多传统的非结构化稀疏方法。本发明第一次在N:M稀疏中引入。此外,与这些直接优化二元掩码的研究非常不同,本发明的掩码是根据相应权重落入的候选子集获得的。最后,由于

因此,权重梯度的STE近似值成为引入得分矩阵梯度的近似值,避免权重上的误差累积。此外,STE近似使得分矩阵能够测量不同候选子集之间的相对重要性。

使用随机梯度下降(SGD)优化器进行训练,

可以看出,候选分数

本发明与不同方法在各网络架构上训练N:M稀疏的性能比较见表1

表1

从表1可以看出,所提出的LBC技术在所有N:M模式和网络中处于领先地位,而且训练负担更小。在ResNet-18模型中,LBC技术在2:4模式下的Top-1分类准确率技术相较于SR-STE提升了0.3%(SR-STE为71.2%,LBC为71.5%)。对于模型ResNet-50,LBC技术再次证明了它在所有稀疏模式上相较于ASP和SR-STE的优势。具体来说,ASP使用200个包含预训练和微调阶段的轮次来训练2:4稀疏ResNet-50的Top-1准确率为76.8%,而LBC技术在使用120个轮次的情况下得到了明显更高的77.2%准确率。

本发明在ResNet-50网络上N:M稀疏化与非结构稀疏方法的性能比较见表2。

表2

从表2可以看出,通过在ImageNet上以1:16稀疏模式训练ResNet-50模型,本发明LBC技术达到了71.8%的网络Top-1准确率效果,分别比STR和GMP技术提高了1.4%和1.2%的技术效果。尽管非结构化稀疏生成的压缩模型仍然是不规则的格式,这给实际应用部署带来了很大挑战,但是在相似的稀疏率效果下,我们的LBC技术凭借NVIDIA Ampere Core提供方法实现了实用的压缩和加速,同时仍然带来了更高的精度性能,这验证了探索N:M稀疏性的有效性和优势。

本发明和SR-STE方法在同等训练下的性能比较结果见表3。

从表3可以看出,与SR-STE技术相比,本LBC技术方法在网络Top-1精度性能技术表现上占领一定优势。同时,更多的训练FLOPs能够持续提高本发明LBC技术的性能,这是因为重要性分数可以更充分地与权重联合训练。值得注意的是,通过选择不同的t

图2给出本发明在不同N:M模式下在ResNet-50网络上稀疏化的比较结果。从图2可以看出在使用的N:M稀疏模式为1:4的情况下,与SR-STE技术相比,本发明提出的LBC技术在包括Top-1精确率技术表现、FLOPs参数量技术表现等各个方面仍然具有优势,更证明了本发明所提出的在N:M稀疏性中学习最佳组合的技术优越性。

图3给出本发明和SR-STE方法在1:4模式下的性能比较。从图3可以看出进一步表明,与SR-STE技术相比,本发明LBC技术在训练成本表现和最终稀疏化网络在Top-1准确率性能技术表现之间的权衡方面处于领先地位。

技术分类

06120115616519