基于重参数化的预训练神经网络的无参数自动自适应方法

文献发布时间：2023-06-19 16:09:34

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于重参数化的预训练神经网络的无参数自动自适应方法。

背景技术

视觉预训练的最新进展证明了将预训练模型迁移到目标任务的重要性和优势，不同的迁移学习方法适用于不同的网络和目标任务，对某个层应该进行微调还是冻结、微调的程度需要根据实际情况进行繁琐的重复试验和人工调整。本发明提出了一种无需额外搜索成本的用于卷积神经网络的无参数自动模型自适应方法。

迁移学习：深度学习高度依赖于数据驱动，为了让模型学习某个特定任务，除了需要采集大量任务相关的数据，更困难的是需要昂贵的标注成本，模型的性能依赖于训练数据的标注量。为了降低数据采集、标注的成本和提高训练效率，迁移学习先在大规模数据集上对模型进行预训练，再在目标任务数据集上继续优化预训练好的模型的网络权重，将源域的源任务上的相关知识迁移到目标域的目标任务上，源域可以是单个或多个，并且一般能复用于不同的目标任务。1986年，Hinton在训练神经网络中引入迁移学习。自2012年ImageNet等大规模数据集被用于大量计算机视觉任务以来，迁移学习技术引起广大研究者的兴趣，在ImageNet上预训练模型是各种任务实现先进性能的关键。

通过模型自适应进行迁移学习：模型自适应方法修改预训练模型，以在目标任务上获得更高的性能。流行的模型自适应方法有：(1)线性探测方法，直接在冻结特征上学习特定任务的头部，完全不改变预训练网络权重，虽然训练时速度快且显存占用少，完全保留了预训练得到的表征能力，但预训练的表征不一定对目标任务有正面的帮助，可能会导致较差的性能；(2)微调方法，是最常用的迁移学习方法，在许多计算机视觉任务和自然语言处理任务上实现了先进性能，包括图像识别、目标检测、语义分割、文本分类和问答，微调可以将预训练的表征调整到适合目标任务的分布，从而更好地发挥预训练知识的作用，但容易损害预训练得到的对目标任务有效的表征能力，比如在目标任务数据集样本量较少但模型参数量较大时容易导致过拟合；(3)适配器调优方法，在预训练的网络上添加一些轻量级模块以适应模型，而不改变其原始参数，代价是在训练和推理阶段都会增加模型大小。

自动化迁移学习：有一些关于自动化迁移学习的初步尝试，如训练时为每个样本激活不同部分的网络、为每个输入样本在每层乃至每个滤波器选择冻结权重或微调权重之间动态路由、使用神经结构搜索或剪枝调节网络、自动调整逐层学习率等。这些方法要么引入策略网络，要么增加模型大小，要么引入重复的训练循环，增加了训练成本或推理成本，使整个过程变得复杂。

重参数化：重参数化是一种将一个网络结构的参数经过特定转换作为另一个不同的网络结构的参数，使得两个网络结构的函数等价的方法。最近，训练阶段引入多个可合并分支、推理阶段运用重参数化合并分支使网络结构不变的方法被广泛用于增强卷积神经网络的性能。重参数化也用于神经结构搜索，如使用重参数化将多个候选操作合并成一个操作以提高搜索效率、对多个卷积核作加权和产生一个新核以实施条件参数化卷积等。

现有技术中公开了一种面向边缘计算的重参数神经网络架构搜索方法的专利，该专利通过设计线性算子与多支路块结构；然后，通过堆叠多支路块结构构建超级网络；然后，通过基于梯度的一阶段搜索算法训练超级网络；然后，删除超级网络中多余的支路构建最佳子网络；然后，多分支的最佳子网络转化成单支路网络；最后，使用单支路网络完成任务推理；该专利用于搜索可进行重参数的神经网络结构，在保证推理精度的同时，确保了推理的实时性以及模型运算的高效率。然而，该专利对于如何实现预训练模型的自动自适应，而无需额外的搜索成本的技术方案却鲜有涉及。

发明内容

本发明提供一种基于重参数化的预训练神经网络的无参数自动自适应方法，该方法实现了预训练模型的自动自适应，而无需额外的搜索成本。

为了达到上述技术效果，本发明的技术方案如下：

一种基于重参数化的预训练神经网络的无参数自动自适应方法，包括以下步骤：

S1：将网络的每个卷积-批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支；

S2：在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调；

S3：在推理阶段利用重参数化将两个分支等价地转换为单个权重层。

进一步地，所述步骤S1中，将网络的每个卷积-批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支，是将图像识别神经网络的每个卷积-批规范化层扩展为两个卷积-批规范化分支的加权和，两个分支都用相同的预训练网络参数初始化，其中一个分支冻结，另一个分支不冻结。

进一步地，所述步骤S2中，在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调，是将步骤S1中的网络在目标任务上进行端到端训练，无需引入额外的训练迭代或搜索阶段，就能模拟每个滤波器都具有自适应学习率的模型微调。

进一步地，所述步骤S3中，在推理阶段利用重参数化将两个分支等价地转换为单个权重层，而无需引入额外的模型参数和计算成本，是将步骤S2中训练完成的网络的每两个卷积-批规范化分支利用重参数化合并为单个权重层，使得推理阶段不增加模型参数和计算成本，即实现无参数的模型自适应。

进一步地，所述步骤S1中，用ψ表示一个配备了一个随机初始化的特定任务头部的预训练模型，给定一个目标为

在计算机视觉领域，卷积网络的迁移学习策略在目标任务上使用与预训练模型相同的网络结构，其中网络参数ω继承自预训练的ω

在这个框架中，微调策略相当于为所有参数设置一个全局η，而线性探测策略相当于为所有预训练的参数设置η＝0；

冻结滤波器和微调滤波器之间的软平衡代表它们之间的中间状态，即以较小的学习率进行滤波器调优，而每个参数的最佳学习率受数据分布、模型结构因素的影响，旨在自动化学习目标任务的合理迁移策略ζ，自动化模型自适应的目标表示为：

为了使滤波器在冻结的预训练的权重和完全微调的权重之间实现软平衡，将网络的每个卷积-批规范化层扩展为两个分支，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支，这两个分支都用相同的预训练网络参数初始化；两个分支的每个滤波器显式引入了缩放因子δ,

其中ω

进一步地，所述步骤S2中，重参数化自适应为每个训练迭代模拟不同学习率下的微调的过程是：

给定一个预训练的线性网络层ψ(ω

如果这两个策略的网络函数在第t个训练迭代相同，即

这两个策略的网络函数在第t个训练迭代相同，有

首先，计算自适应中

设

对于微调的情况：

回想到

进一步地，通过设置缩放因子

进一步地，所述步骤S2中，为预训练模型的每一层实施重参数化自适应，并使系数δ和ζ可学习；在上述分析中δ和ζ是固定不可学习的，为了使其可学习，需要分别用单独的训练迭代交替优化缩放因子δ、ζ和网络参数ω，即用一个训练迭代固定δ和ζ来优化ω，使等式(6)和等式(8)成立，接着用一个训练迭代固定ω来优化δ和ζ，以模拟学习率的优化，随后重复执行这两种训练迭代；

为了节省训练成本并简化流程，在每个训练迭代中联合优化自适应参数

其中，预训练的ω

进一步地，两个分支的BN层的权重γ含于ω

进一步地，所述步骤S3中，使用两个分支的软加权进行自适应通常会引入两倍的模型大小和计算量，导致较高的推理成本；使用重参数化策略来避免这种困境，一个自适应网络层

其中★表示卷积操作，w

因此，合并成单个卷积层：

这样，在推理阶段，具有两个分支的重参数化自适应

与现有技术相比，本发明技术方案的有益效果是：

本发明方法基于重参数化方法，使滤波器在冻结的预训练的权重和完全微调的权重之间实现软平衡，并且可以等价地转换为单个权重层，而无需在推理阶段引入额外的模型参数；分析表明，该方法可以模拟神经网络层中每个滤波器以不同的学习率微调。因此，该方法实现了预训练模型的自动自适应，而无需额外的搜索成本。

附图说明

图1为本发明方法流程图；

图2为重参数化自适应示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于重参数化的预训练神经网络的无参数自动自适应方法，包括以下步骤：

S1：将网络的每个卷积-批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支；

S2：在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调；

S3：在推理阶段利用重参数化将两个分支等价地转换为单个权重层。

步骤S1中，将网络的每个卷积-批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支，是将图像识别神经网络的每个卷积-批规范化层扩展为两个卷积-批规范化分支的加权和，两个分支都用相同的预训练网络参数初始化，其中一个分支冻结，另一个分支不冻结。

步骤S2中，在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调，是将步骤S1中的网络在目标任务上进行端到端训练，无需引入额外的训练迭代或搜索阶段，就能模拟每个滤波器都具有自适应学习率的模型微调。

步骤S3中，在推理阶段利用重参数化将两个分支等价地转换为单个权重层，而无需引入额外的模型参数和计算成本，是将步骤S2中训练完成的网络的每两个卷积-批规范化分支利用重参数化合并为单个权重层，使得推理阶段不增加模型参数和计算成本，即实现无参数的模型自适应。

实施例2

如图1所示，一种基于重参数化的预训练神经网络的无参数自动自适应方法，包括以下步骤：

S1：将网络的每个卷积-批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支；

S2：在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调；

S3：在推理阶段利用重参数化将两个分支等价地转换为单个权重层。

如图2所示，步骤S1中，用ψ表示一个配备了一个随机初始化的特定任务头部的预训练模型，给定一个目标为

在计算机视觉领域，卷积网络的迁移学习策略在目标任务上使用与预训练模型相同的网络结构，其中网络参数ω继承自预训练的ω

在这个框架中，微调策略相当于为所有参数设置一个全局η，而线性探测策略相当于为所有预训练的参数设置η＝0；

其中ω

步骤S2中，重参数化自适应为每个训练迭代模拟不同学习率下的微调的过程是：

给定一个预训练的线性网络层ψ(ω

如果这两个策略的网络函数在第t个训练迭代相同，即

这两个策略的网络函数在第t个训练迭代相同，有

首先，计算自适应中

设

对于微调的情况：

回想到

通过设置缩放因子

步骤S2中，为预训练模型的每一层实施重参数化自适应，并使系数δ和ζ可学习；在上述分析中δ和ζ是固定不可学习的，为了使其可学习，需要分别用单独的训练迭代交替优化缩放因子δ、ζ和网络参数ω，即用一个训练迭代固定δ和ζ来优化ω，使等式(6)和等式(8)成立，接着用一个训练迭代固定ω来优化δ和ζ，以模拟学习率的优化，随后重复执行这两种训练迭代；

为了节省训练成本并简化流程，在每个训练迭代中联合优化自适应参数

其中，预训练的ω

两个分支的BN层的权重γ含于ω

步骤S3中，使用两个分支的软加权进行自适应通常会引入两倍的模型大小和计算量，导致较高的推理成本；使用重参数化策略来避免这种困境，一个自适应网络层

其中★表示卷积操作，w′和b′是合并后的Conv层的权重和偏差；如果两个或多个具有相同配置的Conv层的输出相加，将它们合并为一个Conv；设w

因此，合并成单个卷积层：

这样，在推理阶段，具有两个分支的重参数化自适应

实施例3

如图1-2所示，一种基于重参数化的预训练神经网络的无参数自动自适应方法，包括以下步骤：

S1：将网络的每个卷积-批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支；

S2：在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调；

S3：在推理阶段利用重参数化将两个分支等价地转换为单个权重层。

具体地，步骤S1中，用ψ表示一个配备了一个随机初始化的特定任务头部的预训练模型，给定一个目标为

在计算机视觉领域，卷积网络的迁移学习策略在目标任务上使用与预训练模型相同的网络结构，其中网络参数ω继承自预训练的ω

在这个框架中，微调策略相当于为所有参数设置一个全局η，而线性探测策略相当于为所有预训练的参数设置η＝0；

其中ω

步骤S2中，重参数化自适应为每个训练迭代模拟不同学习率下的微调的过程是：

给定一个预训练的线性网络层ψ(ω

如果这两个策略的网络函数在第t个训练迭代相同，即

这两个策略的网络函数在第t个训练迭代相同，有

首先，计算自适应中

设

对于微调的情况：

回想到

通过设置缩放因子

为了节省训练成本并简化流程，在每个训练迭代中联合优化自适应参数

其中，预训练的ω

两个分支的BN层的权重γ含于ω

其中★表示卷积操作，w

因此，合并成单个卷积层：

这样，在推理阶段，具有两个分支的重参数化自适应

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：梁小丹;张吉褀;
专利申请人：中山大学;

上一篇：一种水平连铸炉及快速启炉方法
下一篇：基于阶梯渐变节距狭缝光栅的双视3D显示装置