掌桥专利:专业的专利平台
掌桥专利
首页

基于移动端的场景文字检测模型轻量化方法、电子设备及存储介质

文献发布时间:2023-06-19 10:57:17


基于移动端的场景文字检测模型轻量化方法、电子设备及存储介质

技术领域

本发明属于模式识别与人工智能技术领域,具体涉及基于移动端的场景文字检测模型轻量化方法、电子设备及存储介质。

背景技术

自然场景中的文字为人类理解外部世界提供了重要的信息资源,近年来人工智能技术不断发展,如何使机器学会阅读文字以及理解文字成为了学术界和工业界关心的热点课题。自然场景文字的数字化流程,通常包含了文本检测与识别两个步骤,其中文本检测作为场景文字数字化系统的第一步,对整个系统的性能具有重要的影响。

当下,随着大数据的发展以及GPU等硬件技术的提升,基于深度学习的场景文字检测算法层出不穷,相比于传统的图像处理方法在性能上有一定程度的提升。但是,基于深度学习的方法通常需要占用大量的计算资源和存储空间,这一定程度上限制了基于深度学习的场景文字检测方法在各种移动端以及边缘设备上的应用。虽然一些场景文字检测方法如EAST、PAN、DB等针对上述问题提出了速度与精度相妥协的解决方法,但是这些方法都是针对GPU服务器端的改进,所提出的方法并不能直接应用于移动端。而移动端设备作为人们最常使用的电子设备之一,在文字翻译、文字记录等多种现实应用场合中均对场景文字检测方法有重大的需求。因此,对模型进行轻量化处理以及加速压缩,是实现场景文字检测技术在移动端落地和应用的一个关键步骤。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足,提出基于移动端的场景文字检测模型轻量化方法、电子设备及存储介质,通过对文字检测模型的主干网络、特征融合模块和预测模块进行轻量化设计,解决现有方法计算量与存储量过大问题,使得场景文字模型能够部署到移动端设备上。

为了达到上述目的,本发明采用以下技术方案:

基于移动端的场景文字检测模型轻量化方法,包括以下步骤:

选取基准模型,采用场景文字检测模型DB作为基准模型,所述DB检测模型包括主干网络、特征融合模块、预测模块以及差分模块;所述主干网络用于对输入图像进行特征提取处理;所述特征融合模块用于将主干网络不同层次的特征进行融合处理;所述预测模块用于将特征融合模块的输出特征图进行逐像素点的概率化预测,判断像素点是否属于文字区域;

模型轻量化,分别对DB模型的主干网络、特征融合模块以及预测模块进行轻量化,分别得到轻量化主干网络、轻量化特征融合模块以及轻量化预测模块;

倒残差模块通道剪枝,通过通道剪枝减小DB模型的计算量以及参数量,利用剪枝通道掩码层取交集方法使倒残差模块短连接两端通道数相匹配,提高通道剪枝的加速压缩比例;

量化层回退,通过8比特定点量化减小剪枝后模型的计算量以及参数量,采用基于贪心策略的回退方法提升模型精度;经过量化层回退后得到最终的轻量化模型。

进一步的,所述DB模型的主干网络轻量化具体为:

采用MobileNetV2模型作为主干网络,将MobileNetV2模型中所有3×3的Depth-wise卷积层替换为5×5的Depth-wise卷积层以增大感受野;

通过填充0的方法将3×3的Depth-wise卷积层权重扩充为5×5的Depth-wise卷积层权重。

进一步的,所述DB模型的特征融合模块轻量化具体为:

采用轻量化主干网络输入图像尺寸1/4、1/8、1/16以及1/32的特征图作为轻量化特征融合模块的输入,所有特征图分别通过1x1的卷积层将特征图通道降维至同样的维度;

将所述尺寸为输入图像1/8、1/16以及1/32的特征图分别经过一个卷积层以及上采样层,并输出4个尺寸为输入图像1/4的特征图并将该4个特征图相加的结果作为轻量化特征融合模块的输出。

进一步的,所述DB模型的预测模块轻量化具体为:

所述轻量化预测模块由5×5的Depth-wise卷积层、1×1的卷积层、4×4的深度反卷积层、1×1的卷积层、4×4的Depth-wise卷积层、1×1的卷积层以及Sigmoid层组成。

进一步的,所述倒残差模块通道剪枝具体为:

所述倒残差模块由1×1的卷积层,ReLU6、5×5的Depth-wise卷积层以及1×1卷积层组成;

将倒残差模块输入特征图的剪枝通道的索引与倒残差模块中最后一层1×1卷积层剪枝通道的索引取交集,作为短连接部分最后的剪枝策略。

进一步的,所述量化层回退具体为:

对DB模型进行8比特定点量化之后,采用“贪心策略”确定量化之后轻量化DB模型各层对模型整体精度的影响,具体为:

将量化模型中的一层回退到浮点运算上,测试模型的精度,根据精度判断各个量化层对模型的影响程度,然后将影响最大的一层回退到浮点数的运算上,再重新执行“贪心策略”确定余下量化层中影响最大的一层并将其回退到浮点数运算上;循环执行量化层回退操作,直至模型性能与加速压缩达到预期的平衡。

本发明还提供一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如本发明提供的基于移动端的场景文字检测模型轻量化方法。

本发明还提供一种计算机可读存储介质,存储有计算机程序,当所述计算机程序被处理器执行时,实现如本发明提供的基于移动端的场景文字检测模型轻量化方法。

本发明与现有技术相比,具有如下优点和有益效果:

1、本发明通过对文字检测模型的主干网络、特征融合模块和预测模块进行轻量化设计,解决现有方法计算量与存储量过大问题,使得场景文字模型能够部署到移动端设备上,并且本发明方法实现过程简单,通用性强,能够适用于现有的神经网络框架在移动端设备进行部署。

2、本发明利用剪枝通道掩码层取交集方法,解决主流卷积网络的残差模块中通道剪枝无法应用于残差模块短连接两端的问题,提升模型的剪枝比例和压缩效果。

3、本发明采取了量化回退方法,在无需重新训练模型的情况下提升了量化后的模型精度。

附图说明

图1是发明方法的流程图;

图2是场景文字检测模型DB的框架图;

图3是本发明的倒残差模块示意图;

图4是本发明的特征融合模块示意图;

图5是本发明的预测模块示意图;

图6是本发明的通道剪枝短连接方法示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例

如图1所示,本发明,基于移动端的场景文字检测模型轻量化方法,包括以下步骤:

S1、选取基准模块,具体为:

使用场景文字检测模型DB作为基准模型,如图2所示,所述DB模块包括主干网络、特征融合模块、预测模块以及差分模块;所述主干网络用于对输入图像进行特征提取处理;所述特征融合模块用于将主干网络不同层次的特征进行融合处理;所述预测模块用于将特征融合模块的输出特征图进行逐像素点的概率化预测,判断像素点是否属于文字区域;所述差分模块仅在训练时作为辅助模块,在前向推理时并不会使用到,因此,只对主干网络、特征融合模块,预测模块做轻量化处理;

S2、模型轻量化,分别对DB模型的主干网络、特征融合模块和预测模块进行轻量化设计,具体为:

S21、DB模型主干网络轻量化,具体为:

使用MobileNetV2模型作为网络的主干网,将模型中所有3×3的Depth-wise卷积层(即深度可分离卷积层)替换为5×5的Depth-wise卷积层用于增大感受野;

如图3所示,通过填充0的方法将3×3的Depth-wise卷积层权重扩充为5×5的Depth-wise卷积层权重。

S22、特征融合模块轻量化,具体为:

如图4所示,采用轻量化主干网络输入图像尺寸1/4、1/8、1/16以及1/32的特征图作为轻量化特征融合模块的输入,所有特征图分别通过1×1的卷积层将特征图通道降维至同样的维度;将所述尺寸为输入图像1/8、1/16以及1/32的特征图分别经过一个卷积层以及上采样层,并输出4个尺寸为输入图像1/4的特征图并将该4个特征图相加的结果作为轻量化特征融合模块的输出。

S23、预测模块轻量化,具体为:

如图5所示,所述轻量化预测模块由5×5的Depth-wise卷积层、1×1的卷积层、4×4的深度反卷积层、1×1的卷积层、4×4的Depth-wise卷积层、1×1的卷积层以及Sigmoid层组成。

S3、倒残差模块通道剪枝方法,通过通道剪枝进一步减少步骤S1中轻量化模型的计算量以及参数量,利用剪枝通道掩码层取交集方法使倒残差模块短连接两端通道数相匹配,进一步提高通道剪枝的加速压缩比例,具体为:

所述倒残差模块由1×1的卷积层,ReLU6、5×5的Depth-wise卷积层以及1×1卷积层组成;

如图6所示,将倒残差模块输入特征图剪枝通道的索引与倒残差模块中最后一层1×1卷积层剪枝通道的索引取交集,作为短连接部分最后的剪枝策略,解决剪枝过程中短连接两端特征图通道数不一致问题。

S4、量化层回退,具体为:

对DB模型进行8比特定点量化之后,采用“贪心策略”确定量化之后轻量化DB模型各层对模型整体精度的影响,具体为:

将量化模型中的一层回退到浮点运算上,测试模型的精度,根据精度判断各个量化层对模型的影响程度,然后将影响最大的一层回退到浮点数的运算上,再重新执行“贪心策略”确定余下量化层中影响最大的一层并将其回退到浮点数运算上;循环执行量化层回退操作,直至模型性能与加速压缩达到预期的平衡,实现模型性能与加速压缩之间的平衡;经过量化层回退之后的模型为最终轻量化模型。

所述量化回退伪代码具体如下:

输入:浮点数模型M,测试数据集D,模型精度阈值T

输出:量化模型Q

1.集合C={所有卷积层},集合S={}

2.对模型M中属于C的卷积层进行量化得到模型Q

3.测试M的精度S

4.ifS

5.while C≠空集do

6.forc

7.将c

8.将集合S中的模型精度按高到低排序,确定需要回退的卷积层,并将其从C中剔除

9.比较回退后模型精度与S

在另一个实施例中,还提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,实现本发明提供的基于移动端的场景文字检测模型轻量化方法。

在另一个实施例中,还提供了一种计算机可读存储介质,存储有计算机程序,当所述计算机程序被处理器执行时,实现本发明提供的基于移动端的场景文字检测模型轻量化方法。

本发明轻量化方法具有实现简单,通用性强的优点,结合现有的神经网络推理框架,可将模型用于移动端或者边缘设备的部署。

还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 基于移动端的场景文字检测模型轻量化方法、电子设备及存储介质
  • 一种基于轮廓树结构适用移动端生成立体文字模型的方法
技术分类

06120112739740