掌桥专利:专业的专利平台
掌桥专利
首页

深度学习模型的调整方法和装置以及处理器

文献发布时间:2024-04-18 19:52:40


深度学习模型的调整方法和装置以及处理器

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种深度学习模型的调整方法和装置、计算机可读存储介质以及处理器。

背景技术

深度学习算法在计算机视觉领域应用越来越广,在目标检测、分割和识别等任务的精度上都远超传统机器学习算法,达到或甚至超过了人类的水平。

深度学习模型的学习过程是其模型参数的优化过程,通过收集到的任务数据及标注,驱动模型参数进行迭代优化。由于深度学习模型中存在大量的非线性激活函数,所以其参数的优化是非凸优化,训练过程只能寻找一个局部最小值;而学习率决定了优化的步幅,参数的初始化决定了参数空间的尺度和起始位置,两者相互影响,并对最终训练精度产生至关重要的作用。现在一般的训练方法通过不断调整学习率或初始化参数,以得到在某一具体任务下最佳的学习率以及初始化参数,这种方法比较耗时。

因此,现有技术中的深度学习模型的调整方法比较耗时。

在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

发明内容

本申请的主要目的在于提供一种深度学习模型的调整方法和装置、计算机可读存储介质以及处理器,以解决现有技术中深度学习模型的调整方法比较耗时的问题。

根据本发明实施例的一个方面,提供了一种深度学习模型的调整方法,包括:构建具有第一初始参数的第一初始模型,所述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略,其中,所述第一学习率为所述初始尺度因子的学习率,所述第二学习率为所述初始卷积参数的学习率,所述学习率调整策略为所述第二学习率的调整策略;采用样本数据对所述第一初始模型进行训练,得到目标尺度因子,所述目标尺度因子为训练后的所述初始尺度因子;至少在所述目标尺度因子与所述初始尺度因子的差值大于预定差值的情况下,根据所述目标尺度因子和目标参数,更新所述目标参数,得到更新目标参数,所述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据所述更新目标参数和所述学习率调整策略,构建目标模型。

可选地,所述目标参数包括所述第二学习率,至少在所述目标尺度因子与所述初始尺度因子的差值大于预定差值的情况下,根据所述目标尺度因子和所述目标参数,更新所述目标参数,得到更新目标参数,包括:计算所述第二学习率与所述目标尺度因子的比值,得到所述更新目标参数。

可选地,所述目标参数包括所述初始卷积参数,且所述初始卷积参数为初始卷积方差,至少在所述目标尺度因子与所述初始尺度因子的差值大于预定差值的情况下,根据所述目标尺度因子和所述目标参数,更新所述目标参数,得到更新目标参数,包括:计算所述初始卷积方差与所述目标尺度因子的平方的乘积,得到所述更新目标参数。

可选地,根据所述更新目标参数,构建目标模型,包括:构建具有第二初始参数的第二初始模型,所述第二初始参数至少包括所述更新目标参数和所述学习率调整策略,在所述目标参数为所述第二学习率的情况下,所述第二初始参数还包括所述初始卷积参数,在所述目标参数为所述初始卷积参数的情况下,所述第二初始参数还包括所述第二学习率;采用所述样本数据对所述第二初始模型进行训练,构建所述目标模型。

可选地,采用所述样本数据对所述第二初始模型进行训练,构建所述目标模型,包括:采用所述样本数据对所述第二初始模型进行训练,得到目标卷积参数,所述目标卷积参数为训练后的所述初始卷积参数;根据所述目标卷积参数,构建所述目标模型。

可选地,所述方法还包括:在所述目标尺度因子与所述初始尺度因子的差值小于等于预定差值的情况下,根据所述目标尺度因子、第一卷积参数和所述学习率调整策略,构建第一目标模型,所述第一卷积参数为对所述第一初始模型训练后的所述初始卷积参数。

可选地,所述初始卷积参数为以下之一:采用Kaiming初始化的卷积参数、采用Xavier初始化的卷积参数。

可选地,所述学习率调整策略为以下至少之一:阶梯下降、余弦退火。

根据本发明实施例的另一方面,还提供了一种深度学习模型的调整装置,包括:第一构建单元,用于构建具有第一初始参数的第一初始模型,所述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略,其中,所述第一学习率为所述初始尺度因子的学习率,所述第二学习率为所述初始卷积参数的学习率,所述学习率调整策略为所述第二学习率的调整策略;确定单元,用于采用样本数据对所述第一初始模型进行训练,得到目标尺度因子,所述目标尺度因子为训练后的所述初始尺度因子;调整单元,用于至少在所述目标尺度因子与所述初始尺度因子的差值大于预定差值的情况下,根据所述目标尺度因子和目标参数,更新所述目标参数,得到更新目标参数,所述目标参数为第二学习率或者初始卷积参数,并根据所述更新目标参数,构建目标模型。

根据本发明实施例的再一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行任一种所述的方法。

根据本发明实施例的又一方面,还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一种所述的方法。

在本发明实施例中,所述深度学习模型的调整方法中,构建具有第一初始参数的第一初始模型,所述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略;采用样本数据对所述第一初始模型进行训练,得到目标尺度因子;至少在所述目标尺度因子与所述初始尺度因子的差值大于预定差值的情况下,根据所述目标尺度因子和目标参数,更新所述目标参数,得到更新目标参数,所述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据所述更新目标参数和所述学习率调整策略,构建目标模型。只需采用样本数据对第一初始模型进行训练,就可以得到目标尺度因子,从而可以得到目标参数,也就是第二学习率和初始卷积参数中的至少一个,不需要使用初始化方差通过网格搜索等方法不断调整学习率或者初始化参数,大大节约了深度学习模型的调整时间。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1示出了根据本申请的实施例的深度学习模型的调整方法流程示意图;

图2和图3示出了根据本申请的实施例的深度学习模型的调整方法中初始尺度因子和初始卷积参数的关系示意图;

图4示出了根据本申请的实施例的深度学习模型的调整装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。

正如背景技术中所说的,现有技术中的深度学习模型的调整方法比较耗时,为了解决上述问题,本申请的一种典型的实施方式中,提供了一种深度学习模型的调整方法和装置、计算机可读存储介质以及处理器。

根据本申请的实施例,提供了一种深度学习模型的调整方法。

图1是根据本申请实施例的深度学习模型的调整方法的流程图。如图1所示,该方法包括以下步骤:

步骤S101,构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略,其中,上述第一学习率为上述初始尺度因子的学习率,上述第二学习率为上述初始卷积参数的学习率,上述学习率调整策略为上述第二学习率的调整策略;

步骤S102,采用样本数据对上述第一初始模型进行训练,得到目标尺度因子,上述目标尺度因子为训练后的上述初始尺度因子;

步骤S103,至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新上述目标参数,得到更新目标参数,上述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据上述更新目标参数和上述学习率调整策略,构建目标模型。

上述深度学习模型的调整方法中,首先,构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略;然后,采用样本数据对上述第一初始模型进行训练,初始尺度因子经过训练得到目标尺度因子;最后,至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新并得到更新目标参数,上述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据上述更新目标参数和上述学习率调整策略,构建目标模型。本申请的上述深度学习模型的调整方法只需采用样本数据对第一初始模型进行训练,就可以得到目标尺度因子,从而可以得到目标参数,也就是第二学习率和初始卷积参数中的至少一个,不需要使用初始化方差通过网格搜索等方法不断调整学习率或者初始化参数,大大节约了深度学习模型的调整时间,并且提升了精度。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的一种具体实施例中,第一初始模型可以描述为公式Y

通过采用样本数据对第一初始模型进行训练,可以得到目标尺度因子,本申请的一种具体实施例中,为保证训练的稳定性,对第一学习率不宜过高,所以将其与第二学习率分开设置,为简便,可以设置第一学习率为固定学习率lr

本申请的一种实施例中,上述目标参数包括上述第二学习率,至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和上述目标参数,更新上述目标参数,得到更新目标参数,包括:计算上述第二学习率与上述目标尺度因子的比值,得到上述更新目标参数。具体地,至少在上述目标尺度因子s

本申请的再一种实施例中,上述目标参数包括上述初始卷积参数,且上述初始卷积参数为初始卷积方差,至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和上述目标参数,更新上述目标参数,得到更新目标参数,包括:计算上述初始卷积方差与上述目标尺度因子的平方的乘积,得到上述更新目标参数。此时,目标尺度因子与初始尺度因子差值大于预定差值,也就说明了当前的第一初始模型的空间尺度与第二学习率不匹配,需要进行调优学习,计算初始卷积方差与上述目标尺度因子的平方的乘积,得到更新目标参数更为准确。

本申请的一种具体实施例中,初始卷积参数为初始卷积方差,采用但不限于Kaiming初始化方式,初始尺度因子s为1。至少在上述目标尺度因子s

本申请的另一种实施例中,根据上述更新目标参数,构建目标模型,包括构建具有第二初始参数的第二初始模型,上述第二初始参数至少包括上述更新目标参数和上述学习率调整策略,在上述目标参数为上述第二学习率的情况下,上述第二初始参数还包括上述初始卷积参数,在上述目标参数为上述初始卷积参数的情况下,上述第二初始参数还包括上述第二学习率;采用上述样本数据对上述第二初始模型进行训练,构建上述目标模型。采用样本数据对第二模型进行训练,不需要对尺度因子进行学习,直接采用原始卷积模块训练,节省学习时间。

本申请的又一种实施例中,采用上述样本数据对上述第二初始模型进行训练,构建上述目标模型,包括:采用上述样本数据对上述第二初始模型进行训练,得到目标卷积参数,上述目标卷积参数为训练后的上述初始卷积参数;根据上述目标卷积参数,构建上述目标模型。对目标卷积参数进行迭代更新,构建具有更高精度的目标模型。

本申请的再一种实施例中,上述方法还包括:在上述目标尺度因子与上述初始尺度因子的差值小于等于预定差值的情况下,根据上述目标尺度因子、第一卷积参数和上述学习率调整策略,构建第一目标模型,上述第一卷积参数为对上述第一初始模型训练后的上述初始卷积参数。目标尺度因子与初始尺度因子的差值小于等于预定差值,第二学习率与第一初始模型的空间尺度较为匹配,即可直接根据目标尺度因子、第一卷积参数和学习率调整策略,构建第一目标模型,减少深度学习模型调整的耗时。

本申请的另一种实施例中,上述初始卷积参数为以下之一:采用Kaiming初始化的卷积参数、采用Xavier初始化的卷积参数。当然,本申请的出卷积参数并不限于上述的两种,还可以为其他的,本领域技术人员可以根据实际情况选择合适的初始卷积参数。

本申请的又一种实施例中,上述学习率调整策略为以下至少之一:阶梯下降、余弦退火。这两种学习率调整策略使得模型的调整效果更好。当然,本申请的学习率调整策略并不限于上述的学习率调整策略,还可以为其他的学习率调整策略,本领域技术人员可以根据实际情况选择合适的学习率调整策略。

本申请实施例还提供了一种深度学习模型的调整装置,需要说明的是,本申请实施例的深度学习模型的调整装置可以用于执行本申请实施例所提供的用于深度学习模型的调整方法。以下对本申请实施例提供的深度学习模型的调整装置进行介绍。

图4是根据本申请实施例的深度学习模型的调整装置的示意图。如图4所示,该装置包括第一构建单元10、确定单元20以及调整单元30,其中,上述第一构建单元10用于构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略,其中,上述第一学习率为上述初始尺度因子的学习率,上述第二学习率为上述初始卷积参数的学习率,上述学习率调整策略为上述第二学习率的调整策略;上述确定单元20用于采用样本数据对上述第一初始模型进行训练,得到目标尺度因子,上述目标尺度因子为训练后的上述初始尺度因子;上述调整单元30用于至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新上述目标参数,得到更新目标参数,上述目标参数为第二学习率或者初始卷积参数,并根据上述更新目标参数,构建目标模型。

上述深度学习模型的调整装置,通过第一构建单元构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略;确定单元通过采用样本数据对上述第一初始模型进行训练,得到训练后的上述初始尺度因子,即目标尺度因子;调整单元至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新并得到更新目标参数,上述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据上述更新目标参数和上述学习率调整策略,构建目标模型。本申请的上述深度学习模型的调整装置只需采用样本数据对第一初始模型进行训练,就可以得到目标尺度因子,从而可以得到目标参数,也就是第二学习率和初始卷积参数中的至少一个,不需要使用初始化方差通过网格搜索等装置不断调整学习率或者初始化参数,大大节约了深度学习模型的调整时间,并且提升了精度。

本申请的一种具体实施例中,第一初始模型可以描述为公式Y

通过采用样本数据对第一初始模型进行训练,可以得到目标尺度因子,本申请的一种具体实施例中,为保证训练的稳定性,对第一学习率不宜过高,所以将其与第二学习率分开设置,为简便,可以设置第一学习率为固定学习率lr

本申请的一种实施例中,所述目标参数包括所述第二学习率,上述调整单元30包括第一计算模块,上述第一计算模块用于至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,计算上述第二学习率与上述目标尺度因子的比值,得到上述更新目标参数。具体地,至少在上述目标尺度因子s

本申请的再一种实施例中,所述目标参数包括所述初始卷积参数,且所述初始卷积参数为初始卷积方差,上述调整单元30还包括第二计算模块,上述第二计算模块用于至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,计算上述初始卷积方差与上述目标尺度因子的平方的乘积,得到上述更新目标参数。此时,目标尺度因子与初始尺度因子差值大于预定差值,也就说明了当前的第一初始模型的空间尺度与第二学习率不匹配,需要进行调优学习,计算初始卷积方差与上述目标尺度因子的平方的乘积,得到更新目标参数更为准确。

本申请的一种具体实施例中,初始卷积参数为初始卷积方差,采用但不限于Kaiming初始化方式,初始尺度因子s为1。至少在上述目标尺度因子s

本申请的另一种实施例中,上述调整单元30还包括第一构建模块和第二构建模块,上述构建模块用于构建具有第二初始参数的第二初始模型,上述第二初始参数至少包括上述更新目标参数和上述学习率调整策略,在上述目标参数为上述第二学习率的情况下,上述第二初始参数还包括上述初始卷积参数,在上述目标参数为上述初始卷积参数的情况下,上述第二初始参数还包括上述第二学习率;上述第二构建模块采用上述样本数据对上述第二初始模型进行训练,构建上述目标模型。采用样本数据对第二模型进行训练,不需要对尺度因子进行学习,直接采用原始卷积模块训练,节省学习时间。

本申请的又一种实施例中,上述第二构建模块还用于:采用上述样本数据对上述第二初始模型进行训练,得到目标卷积参数,上述目标卷积参数为训练后的上述初始卷积参数;根据上述目标卷积参数,构建上述目标模型。对目标卷积参数进行迭代更新,构建具有更高精度的目标模型。

本申请的再一种实施例中,上述深度学习模型的调整装置还包括第二构建单元,上述第二构建单元用于在上述目标尺度因子与上述初始尺度因子的差值小于等于预定差值的情况下,根据上述目标尺度因子、第一卷积参数和上述学习率调整策略,构建第一目标模型,上述第一卷积参数为对上述第一初始模型训练后的上述初始卷积参数。目标尺度因子与初始尺度因子的差值小于等于预定差值,第二学习率与第一初始模型的空间尺度较为匹配,即可直接根据目标尺度因子、第一卷积参数和学习率调整策略,构建第一目标模型,减少深度学习模型调整的耗时。

本申请的另一种实施例中,上述初始卷积参数为以下之一:采用Kaiming初始化的卷积参数、采用Xavier初始化的卷积参数。当然,本申请的出卷积参数并不限于上述的两种,还可以为其他的,本领域技术人员可以根据实际情况选择合适的初始卷积参数。

本申请的又一种实施例中,上述学习率调整策略为以下至少之一:阶梯下降、余弦退火。这两种学习率调整策略使得模型的调整效果更好。当然,本申请的学习率调整策略并不限于上述的学习率调整策略,还可以为其他的学习率调整策略,本领域技术人员可以根据实际情况选择合适的学习率调整策略。

上述深度学习模型的调整装置包括处理器和存储器,上述第一构建单元10、确定单元20、调整单元30、第二构建单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中的深度学习模型的调整方法比较耗时的问题。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,上述程序执行任一种上述深度学习模型的调整方法。

本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述深度学习模型的调整方法。

本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:

步骤S101,构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略,其中,上述第一学习率为上述初始尺度因子的学习率,上述第二学习率为上述初始卷积参数的学习率,上述学习率调整策略为上述第二学习率的调整策略;

步骤S102,采用样本数据对上述第一初始模型进行训练,得到目标尺度因子,上述目标尺度因子为训练后的上述初始尺度因子;

步骤S103,至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新上述目标参数,得到更新目标参数,上述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据上述更新目标参数和上述学习率调整策略,构建目标模型。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:

步骤S101,构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略,其中,上述第一学习率为上述初始尺度因子的学习率,上述第二学习率为上述初始卷积参数的学习率,上述学习率调整策略为上述第二学习率的调整策略;

步骤S102,采用样本数据对上述第一初始模型进行训练,得到目标尺度因子,上述目标尺度因子为训练后的上述初始尺度因子;

步骤S103,至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新上述目标参数,得到更新目标参数,上述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据上述更新目标参数和上述学习率调整策略,构建目标模型。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例与对比例对本申请的技术方案进行详细说明。

实施例1

该实施例使用样本数据为CIFAR100数据集,如表1所示,用0.01的学习率直接训练,得到基准模型,称为baseline模型,其top1和top5的精度分别为70.38%,90.54%。

用本申请的深度学习模型的调整方法,首先构建第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略;然后,用采用样本数据对上述第一初始模型进行训练,得到目标尺度因子,结果为0.1,与初始尺度因子相比发生了较大改变,需要进行调优训练;将第二参数更新为lr/0.1,也就是放大10倍,再用样本数据和相同的模型初始化及学习率调整策略对第二初始模型训练,得到目标模型,如表1所示,其top1和top5的精度分别为78.32%、94.01%,较baseline模型分别提升了7.94和3.47个百分点。

表1在CIFAR100数据集上的训练效果

实施例2

该实施例使用样本数据为CIFAR100数据集,如表1所示,用0.01的学习率直接训练,得到基准模型,称为baseline模型,其top1和top5的精度分别为70.38%,90.54%。

用本申请的深度学习模型的调整方法,首先构建第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略;然后,用采用样本数据对上述第一初始模型进行训练,得到目标尺度因子,结果为0.1,与初始尺度因子相比发生了较大改变,需要进行调优训练;将参数初始卷积参数方差缩放0.12倍,再用样本数据和相同的学习率进行训练,得到目标模型,其top1和top5的精度分别为70.38%、75.29%,较baseline模型分别提升了4.91和2.24个百分点。

表2在CIFAR100数据集上的训练效果

从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:

1)、本申请的上述深度学习模型的调整方法,首先,构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略;然后,采用样本数据对上述第一初始模型进行训练,得到训练后的上述初始尺度因子,即目标尺度因子;最后,至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新并得到更新目标参数,上述目标参数包括第二学习率和初始卷积参数中的至少一个,并至少根据上述更新目标参数和上述学习率调整策略,构建目标模型。本申请的上述深度学习模型的调整方法只需采用样本数据对第一初始模型进行训练,就可以得到目标尺度因子,从而可以得到目标参数,也就是第二学习率和初始卷积参数中的至少一个,不需要使用初始化方差通过网格搜索等方法不断调整学习率或者初始化参数,大大节约了深度学习模型的调整时间。

2)本申请的上述深度学习模型的调整方法装置,包括第一构建单元、确定单元以及调整单元,其中,上述第一构建单元用于构建具有第一初始参数的第一初始模型,上述第一初始参数包括初始尺度因子、第一学习率、初始卷积参数、第二学习率和学习率调整策略,其中,上述第一学习率为上述初始尺度因子的学习率,上述第二学习率为上述初始卷积参数的学习率,上述学习率调整策略为上述第二学习率的调整策略;上述确定单元用于采用样本数据对上述第一初始模型进行训练,得到目标尺度因子,上述目标尺度因子为训练后的上述初始尺度因子;上述调整单元用于至少在上述目标尺度因子与上述初始尺度因子的差值大于预定差值的情况下,根据上述目标尺度因子和目标参数,更新上述目标参数,得到更新目标参数,上述目标参数为第二学习率或者初始卷积参数,并根据上述更新目标参数,构建目标模型。本申请的上述深度学习模型的调整方法只需采用样本数据对第一初始模型进行训练,就可以得到目标尺度因子,从而可以得到目标参数,也就是第二学习率和初始卷积参数中的至少一个,不需要使用初始化方差通过网格搜索等方法不断调整学习率或者初始化参数,大大节约了深度学习模型的调整时间。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 游戏角色的面部模型的处理方法、装置、处理器及终端
  • 基于深度学习模型的案件类型识别方法、装置、设备及介质
  • 一种基于深度学习模型的数据处理方法及装置
  • 深度学习模型发布方法及装置
  • 一种消除深度学习模型中未知错误的方法与装置
  • 面向ARM处理器的深度学习模型部署方法及设备
  • 游戏角色脸部模型的调整方法、装置、处理器及终端
技术分类

06120116335785