掌桥专利:专业的专利平台
掌桥专利
首页

灌装领域标签文字检测方法、装置、设备及可读存储介质

文献发布时间:2024-04-18 20:00:50


灌装领域标签文字检测方法、装置、设备及可读存储介质

技术领域

本发明涉及灌装技术领域,特别是涉及一种灌装领域标签文字检测方法、装置、设备及可读存储介质。

背景技术

随着数字化技术的广泛应用,人们的生活方式和工业生产方式已经发生了改变,特别是在工业生产中,数字化技术的应用大大提高了生产的效率和质量,减少了人力成本和机器故障率。工业标签是灌装领域广泛应用的一种数据标识手段,包含很多重要信息,如序列号、批次、重量、生产日期/保质期以及生产标准等,通过提取工业标签上的关键信息,可以方便地对灌装容器近行分拣、灌装、运输和储存。

灌装领域的工业标签上的文字密集、背景复杂,并且灌装领域获取的工业标签图像的视觉对比度一般比较低、照明不均匀、背景杂乱,还可能发生形变,这些都导致灌装领域工业标签的文字检测具有一定的挑战性。现有大多数基于深度学习的文字检测算法在灌装场景中的应用存在以下问题:1、由于文字密集,过小文字会出现漏检,影响后续文字识别的效果;2、由于背景复杂,产生大量与检测内容无关的候选框,增加计算时间;均无法准确定位文本区域。

发明内容

本发明的目的是提出一种灌装领域标签文字检测方法、装置、设备及可读存储介质,解决灌装领域标签文字检测困难的问题。

为实现上述目的,本发明提供如下技术方案:

一方面,本申请提供一种灌装领域标签文字检测方法,包括以下步骤:

S10,构建文字检测网络模型,所述文字检测网络模型包括特征提取网络、特征融合网络、特征重塑增强网络和DB检测头;所述特征提取网络在ResNet网络基础上融合注意力机制,包括两个3×3卷积,以及串行的通道注意力机制和空间注意力机制;所述特征融合网络在特征金字塔阶段引入双卷积特征尺度模块;

S20,获取检测目标标签图像;

S30,使用所述特征提取网络对检测目标标签图像进行特征提取,通过串行的通道注意力机制和空间注意力机制得到通道和空间维度上的注意力权重,提高各个特征在通道和空间上的联系;

S40,使用所述特征融合网络通过逐步上采样对上一步骤提取的特征进行整合,并通过双卷积特征尺度模块对不同层级的特征提取局部和全局信息,得到多级特征;

S50,使用所述特征重塑增强网络对上一步骤融合后的特征进行处理,使用卷积运算将特征分为高级语义特征和低级语义特征,使用高级语义特征和低级语义特征区分文字和文字边界,强化文字信息,弱化背景;

S60,使用所述DB检测头生成最终的文字检测图。

进一步地,在所述步骤S30中,通道注意力机制首先对特征进行全局最大池化和全局平均池化并行处理,接着经过一个全连接层,将特征图进行降维,再使用RELU函数进行激活,再经过一个全连接层,将特征图进行升维,然后加和,再通过Sigmoid函数对加和后的特征图进行处理,得到归一化注意力权重,最后通过乘法逐通道加权到原始输入的特征图上,得到特征图F

进一步地,在所述步骤S40中,所述特征融合网络采用双卷积特征尺度模块对上一步骤中提取的特征图分别使用两组1×1卷积将特征数减半,接着在第一组的1×1卷积后加入一组3×3卷积;第组的1×1卷积后加入两组3×3卷积,提取不同感受野的特征;再按通道进行拼接,得到特征图

进一步地,所述特征重塑增强网络对输入的特征图依次使用步长为2的1×1卷积和步长为2的3×3卷积进行降维处理,再进行上采样,得到低级语义特征图;然后将经过步长为2的1×1卷积和步长为2的3×3卷积生成的特征与经过一次步长为2的1×1卷积生成的特征进行拼接,生成特征图F

进一步地,在所述步骤S10中还包括:

制作工业标签文字数据集,所述工业标签文字数据集的文本包括中文、英文、罗马字和艺术字,使用多边形裁剪算法Vatti生成概率图的训练标签和阈值图的训练标签,在标签制作过程中,概率图和阈值图的训练标签分别是将文本的多边形标签经过一定偏移量D缩小和扩大产生,偏移量D的计算公式为:

使用所述工业标签文字数据集训练所述文字检测网络模型;

定义损失函数

进一步地,在使用所述工业标签文字数据集训练所述文字检测网络模型时,首先使用SynthText数据集对所述文字检测网络模型进行两个epoch的训练,得到预训练模型,然后在所述工业标签文字数据集上进行一千个epoch的训练。

另一方面,本申请还提供一种灌装领域标签文字检测装置,包括:

模型构建模块,用于构建文字检测网络模型,所述文字检测网络模型包括特征提取网络、特征融合网络、特征重塑增强网络和DB检测头;所述特征提取网络在ResNet网络基础上融合注意力机制,包括两个3×3卷积,以及串行的通道注意力机制和空间注意力机制;所述特征融合网络在特征金字塔阶段引入双卷积特征尺度模块;

图像获取模块,用于获取检测目标标签图像;

特征提取模块,用于通过所述特征提取网络对检测目标标签图像进行特征提取,通过串行的通道注意力机制和空间注意力机制得到通道和空间维度上的注意力权重,提高各个特征在通道和空间上的联系;

特征融合模块,用于通过所述特征融合网络对所述特征提取模块提取的特征进行整合,并通过双卷积特征尺度模块对不同层级的特征提取局部和全局信息,得到多级特征;

特征重塑增强模块,用于通过卷积运算将所述特征融合模块融合后的特征分为高级语义特征和低级语义特征,使用所述高级语义特征和低级语义特征区分文本边界,提高对文本边界区域的灵敏度;

目标检测模块,用于通过所述DB检测头生成最终的文字检测图。

进一步地,所述的灌装领域标签文字检测装置,还包括模型训练模块,用于制作工业标签文字数据集,定义损失函数,并利用所述工业标签文字数据集训练所述文字检测网络模型,训练过程中,首先使用SynthText数据集对所述文字检测网络模型进行两个epoch的训练,得到预训练模型,然后在所述工业标签文字数据集上进行一千个epoch的训练;所述工业标签文字数据集的文本包括中文、英文、罗马字和艺术字,使用多边形裁剪算法Vatti生成概率图的训练标签和阈值图的训练标签,在标签制作过程中,概率图和阈值图的训练标签分别是将文本的多边形标签经过一定偏移量D缩小和扩大产生,偏移量D的计算公式为:

另一方面,本申请还提供一种灌装领域标签文字检测设备,包括处理器和存储器,所述处理器执行存储器中存储的计算机程序时实现上述的灌装领域标签文字检测方法。

另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的灌装领域标签文字检测方法。

与现有技术相比本发明的有益效果是:

本发明提供的灌装领域标签文字检测方法,基于DBNet网络模型构建一种低对比度工业标签文字检测网络模型,首先将卷积注意力机制应用于特征提取网络,获取更多重要的文本特征图;其次在特征融合金字塔结构中引入特征尺度分支,丰富上下文信息,使网络自适应地学习不同通道特征的重要性;最后在概率图生成阶段,提出特征重塑增强模块,进一步区分文字和文字边界,提高对文本边界区域的灵敏度,增强文字检测的准确率。在自制工业标签数据集上的准确率为94.7%,召回率为90.0%,F值为92.3%,在ICDAR2015和MSRA-TD500两个标准数据集上,相较于DBNet网络模型,F值分别提升1.8%和1.5%。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一个实施例中灌装领域标签文字检测方法的流程图。

图2为一个实施例中文字检测网络模型的结构图。

图3为一个实施例中残差块的结构图。

图4为一个实施例中通道注意力机制的结构图。

图5为一个实施例中空间注意力机制的结构图。

图6为一个实施例中双卷积特征尺度模块的结构图。

图7为一个实施例中特征重塑增强网络的结构图。

图8为一个实施例中标签生成过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

实施例一

参阅图1至图8,本实施例提供一种灌装领域标签文字检测方法,包括以下步骤:

S10,构建文字检测网络模型。

所述文字检测网络模型结构如图2所示,包括特征提取网络、特征融合网络、特征重塑增强网络和DB检测头;所述特征提取网络在ResNet网络基础上融合注意力机制,包括两个3×3卷积,以及串行的通道注意力机制和空间注意力机制;所述特征融合网络在特征金字塔阶段引入双卷积特征尺度模块。

S20,获取检测目标标签图像。

S30,使用所述特征提取网络对检测目标标签图像进行特征提取,通过串行的通道注意力机制和空间注意力机制得到通道和空间维度上的注意力权重,提高各个特征在通道和空间上的联系。

ResNet网络通过设计残差块结构避免梯度消失问题,能够训练网络结构更深的模型,本发明为了提高网络对小目标的特征提取能力,在残差块中增加通道注意力机制和空间注意力机制,改进前后的残差块结构如图3所示,图3(a)为传统残差块的结构,由两个3×3卷积和一个跳跃连接组成;图3(b)为本文改进的残差块结构,在传统的残差块后增加串行的通道注意力机制模块和空间注意力机制模块,得到通道和空间维度上的注意力权重,提高各个特征在通道和空间上的联系,有利于提取小目标的有效特征。

通道注意力机制结构如图4所示,首先对特征进行全局最大池化和全局平均池化并行处理,接着经过一个全连接层FC1,将特征图进行降维,再使用RELU函数进行激活,再经过一个全连接层FC2,将特征图进行升维,然后加和,再通过Sigmoid函数对加和后的特征图进行处理,得到归一化注意力权重Mc,最后通过乘法逐通道加权到原始输入特征图上,得到特征图F

空间注意力机制结构如图5所示,将得到的特征图F

S40,使用所述特征融合网络通过逐步上采样对上一步骤提取的特征进行整合,并通过双卷积特征尺度模块对不同层级的特征提取局部和全局信息,得到多级特征。

特征金字塔可以对各种尺度的特征进行融合,但底层特征图语义信息不足,高层特征图分辨率不高,这会导致特征可分辨性和鲁棒性的损失。本发明将双卷积特征尺度模块应用到所述特征提取网络生成的各尺度特征图上,获取不同通道间的关联,增强特征的感受野和尺度鲁棒性,加强有用信息的重要性,提高网络的检测精度和鲁棒性。

双卷积特征尺度模块结构如图6所示,双卷积特征尺度模块对上一步骤中提取的特征图分别使用两组1×1卷积将特征数减半,接着在第一组的1×1卷积后加入一组3×3卷积;第组的1×1卷积后加入两组3×3卷积,提取不同感受野的特征;再按通道进行拼接,得到特征图

F

其中,

S50,使用所述特征重塑增强网络对上一步骤融合后的特征进行处理,使用卷积运算将特征分为高级语义特征和低级语义特征,使用高级语义特征和低级语义特征区分文字和文字边界,强化文字信息,弱化背景。

文本边界区域的像素可以区分不同的文本实例,而文本区域内的像素主要负责文本/非文本的分类,为了区分文本和文本边界,本发明使用卷积运算将特征分为高级语义特征和低级语义特征,使用高级语义特征和低级语义特征区分文字和文字边界。

特征重塑增强网络结构如图7所示,对输入的特征图依次使用步长为2的1×1卷积和步长为2的3×3卷积进行降维处理,再进行上采样,得到低级语义特征图。由于低级语义特征包含丰富的文本区域内的信息,而高级语义特征包含文本边界区域的信息,故将低级语义特征图做为高级语义特征的补充。对于高级语义特征,首先将经过步长为2的1×1卷积和步长为2的3×3卷积生成的特征与经过一次步长为2的1×1卷积生成的特征进行拼接,生成特征图F

S60,使用所述DB检测头生成最终的文字检测图。

基于分割的文字检测网络中的二值化预测图是通过固定阈值获得的,二值化的作用是将像素分为文字区域和背景区域,阈值对检测结果的影响较大,本发明使用自适应阈值公式计算近似的二值化预测值

其中,

概率图和阈值图是生成二值图的关键,需要进行有监督的训练,所以使用多边形裁剪算法Vatti生成概率图的训练标签和阈值图的训练标签。在标签制作过程中,概率图和阈值图的训练标签分别是将文本的多边形标签经过一定偏移量D缩小和扩大产生,标签生成过程如图8所示,偏移量D的计算公式为:

其中,K是标注文本框的周长,A是标注文本框的面积,e是预设的缩放因子。

损失函数

其中

概率图损失

其中,

为扩展多边形内侧预测值与标签值之间的距离之和,计算如公式为:

其中

本实施例中,在所述步骤S10中还包括制作工业标签文字数据集,所述工业标签文字数据集的文本包括中文、英文、罗马字和艺术字。

使用所述工业标签文字数据集训练所述文字检测网络模型,在使用所述工业标签文字数据集训练所述文字检测网络模型时,首先使用SynthText数据集对所述文字检测网络模型进行两个epoch的训练,得到预训练模型,然后在所述工业标签文字数据集上进行一千个epoch的训练。

实施例二

本实施例提供一种灌装领域标签文字检测装置,包括:

模型构建模块,用于构建文字检测网络模型,所述文字检测网络模型包括特征提取网络、特征融合网络、特征重塑增强网络和DB检测头;所述特征提取网络在ResNet网络基础上融合注意力机制,包括两个3×3卷积,以及串行的通道注意力机制和空间注意力机制;所述特征融合网络在特征金字塔阶段引入双卷积特征尺度模块。

所述模型构建模块还包括标签制作模块和模型训练模块。

所述标签制作模块用于制作工业标签文字数据集、定义损失函数,所述工业标签文字数据集的文本包括中文、英文、罗马字和艺术字,本实施例中所述工业标签文字数据集包括ILTD数据集、ICDAR2015数据集、MSRA-TD500数据集和SynthText数据集,ILTD数据集是使用工业级摄像头拍摄的图像制作而成的工业标签文字数据集,共收集并标注1453张图像,训练集和测试的比例约为是4:1,标注形式和ICDAR2015数据集标注形式相同;ICDAR2015数据集是谷歌在自然场景下随机角度拍摄制作的公开竞赛数据集,共有1500张图像,训练集和测试的比例是2:1;MSAR-TD500数据集是一个用于测试和评估多方向、多语言文字检测算法的自然图像数据集,共有500张图像,测试集和训练集的比例是3:2;SynthText数据集是一个由单词和自然场景图片合成的图像组成合成类数据集,包含80万张图像,约800万个合成单词,用于所述文字检测模型的预训练。

概率图和阈值图是生成二值图的关键,需要进行有监督的训练,所以使用多边形裁剪算法Vatti生成概率图的训练标签和阈值图的训练标签。在标签制作过程中,概率图和阈值图的训练标签分别是将文本的多边形标签经过一定偏移量D缩小和扩大产生,标签生成过程如图8所示,偏移量D的计算公式为:

其中,K是标注文本框的周长,A是标注文本框的面积,e是预设的缩放因子。

损失函数

其中

概率图损失

其中,

为扩展多边形内侧预测值与标签值之间的距离之和,计算如公式为:

其中

所述模型训练模块在使用所述工业标签文字数据集训练所述文字检测网络模型时,首先使用SynthText数据集对所述文字检测网络模型进行两个epoch的训练,得到预训练模型,然后在所述工业标签文字数据集中的其他数据集上进行一千个epoch的训练,对模型进行微调;本实施例中,模型训练初始学习率为0.001,采用Adam优化器,权重衰减为0.001,Batchsize设置为16,并采用epoch为3的warm-up方法预热学习率。此外,在训练过程中,图像的大小统一调整为640

图像获取模块,用于获取检测目标标签图像。

特征提取模块,用于通过所述特征提取网络对检测目标标签图像进行特征提取,通过串行的通道注意力机制和空间注意力机制得到通道和空间维度上的注意力权重,提高各个特征在通道和空间上的联系。

特征融合模块,用于通过所述特征融合网络对所述特征提取模块提取的特征进行整合,并通过双卷积特征尺度模块对不同层级的特征提取局部和全局信息,得到多级特征。

特征重塑增强模块,用于通过卷积运算将所述特征融合模块融合后的特征分为高级语义特征和低级语义特征,使用所述高级语义特征和低级语义特征区分文本边界,提高对文本边界区域的灵敏度。

目标检测模块,用于通过所述DB检测头生成最终的文字检测图。

本领域的技术人员可以清楚地了解到,上述的灌装领域标签文字检测装置的具体工作过程,可以参考实施例一中的对应过程,为了描述的方便和简洁,在此不再赘述。

实施例三

本实施例提供一种灌装领域标签文字检测设备,包括处理器和存储器,所述处理器执行存储器中存储的计算机程序时实现如实施例一所述的灌装领域标签文字检测方法。

实施例四

本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述的灌装领域标签文字检测方法。

以上对本发明所提供的灌装领域标签文字检测方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

相关技术
  • 极紫外光微影设备、标靶材料供应系统与方法
  • 微影方法、微影制程与微影系统
  • 微影系统的清洁方法与微影系统的清洁系统
技术分类

06120116545398