掌桥专利:专业的专利平台
掌桥专利
首页

基于深度学习的场景文本检测方法、系统及装置

文献发布时间:2024-01-17 01:27:33


基于深度学习的场景文本检测方法、系统及装置

技术领域

本发明涉及基于深度学习的场景文本检测领域,尤其是涉及一种基于深度学习的场景文本检测方法、系统及装置。

背景技术

传统的光学字符检测(Optical Character Recognition)在世纪初已经投入到工业应用中,如快递单据、纸张字符、工件打刻码等物件的检测已经成为光学字符检测的常见工业应用场景。然而传统的光学字符检测仅适用于场景较为单一的检测任务中,无法适应较为极端的光照、对比度等环境以及多方向、多尺度的文本块检测。对于此类场景需要额外花费大量人力物力去标定文本区域和手动录入信息,重复性强且工作效率低下。

发明内容

本发明的目的在于提供一种基于深度学习的场景文本检测方法,旨在解决场景文本检测。

本发明提供一种基于深度学习的场景文本检测方法,包括:

S1、获取文本检测训练数据集;

S2、对训练数据集图片进行数据增强;

S3、对数据增强后的训练数据集图像进行随机中心裁剪得到随机中心剪裁训练数据集图像;

S4、建立场景文本检测模型;

S5、将随机中心剪裁训练数据集图像输入场景文本检测模型进行训练,得到训练后的场景文本检测模型;

S6、将测试集输入训练后的场景文本检测模型进场景文本检测;

S7、对文本检测结果进行评价。

本发明实施例还提供一种基于深度学习的场景文本检测系统,包括:

获取模块:用于获取文本检测训练数据集;

数据增强模块:用于对训练数据集图片进行数据增强;

剪裁模块:用于对数据增强后的训练数据集图像进行随机中心裁剪得到随机中心剪裁训练数据集图像;

建立模块:用于建立场景文本检测模型;

训练模块:用于将随机中心剪裁训练数据集图像输入场景文本检测模型进行训练,得到训练后的场景文本检测模型;

检测模块:用于将测试集输入训练后的场景文本检测模型进场景文本检测;

评价模块:用于对文本检测结果进行评价。

本发明实施例还提供一种基于深度学习的场景文本检测装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述方法的步骤。

采用本发明实施例,可以实现场景文本检测且效率高。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于深度学习的场景文本检测方法流程图;

图2是本发明实施例的基于深度学习的场景文本检测方法的卷积神经网络示意图;

图3是本发明实施例的基于深度学习的场景文本检测方法的AGM和FGM网络示意图;

图4是本发明实施例的基于深度学习的场景文本检测方法的Head网络示意图;

图5是本发明实施例的基于深度学习的场景文本检测系统的示意图;

图6是本发明实施例的基于深度学习的场景文本检测装置的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

方法实施例

根据本发明实施例,提供了一种基于深度学习的场景文本检测方法,图1是本发明实施例的基于深度学习的场景文本检测方法的流程图,如图1所示,具体包括:

S1、获取文本检测训练数据集;

S2、对训练数据集图片进行数据增强;

S2具体包括:对训练集图像进行随机旋转和随机镜像反转。

S3、对数据增强后的训练数据集图像进行随机中心裁剪得到随机中心剪裁训练数据集图像;

S3具体包括:以训练集图像中随机一个像素作为中心点,裁剪尺寸为640x640的图像。

S4、建立场景文本检测模型;

S4具体包括:建立场景文本检测模型,包含backbone-neck-head三部分;

Backbone,以resnet18作为特征提取网络,用于提取测试集的特征后将特征输入Neck,输出特征包括C1、C2、C3、C4和C5;

Neck,以NGNET为特征融合网络,用于融合测试集的特征,NGNET包含一个轴向引导模块AGM和两个常规引导模块FGM两个结构,

对C4分别沿行方向与列方向进行最大池化,然后通过一对非对称卷积输出轮廓信息,轮廓信息与经过降维和上采样后的C5特征进行逐点乘的得到结果,将结果以注意力机制形式加权到C4中得到第一特征图;

将C2输入卷积核进行特征提取得到C2特征,C2特征进行逐点乘后与C2进行叠加,叠加后通过两层卷积核进行特征提取和降维得到第二特征图;

将C3输入卷积核进行特征提取得到C3特征,C3特征进行逐点乘后与C3进行叠加,叠加后通过两层卷积核进行特征提取和降维得到第三特征图;

将第一特征图、第二特征图和第三特征图尺寸调整至80x80并进行拼接,拼接后得到融合的特征,将融合的特征输入到Head;

Head,将融合的特征分别输入概率图和轮廓图的预测分支入口,输入概率图预测分支入口后经过降维得到第一降维特征,利用第一反卷积网络将第一降维特征上采样得到概率图分支特征,输入轮廓图预测分支入口后经过降维得到第二降维特征,利用第二反卷积网络将第二降维特征上采样得到轮廓图分支特征,对轮廓图分支特征进行非采样离散小波变换得到轮廓图分支特征中的高频特征分量和低频特征分量,将低频特征分量与概率图分支特征进行逐点点乘得到点乘特征,将点乘特征与高频特征分量进行叠加得到两个分支的融合特征,将两个分支的融合特征和概率图分支特征进行拼接后输入第三反卷积网络进行降维和上采样,降维和上采样后输入第一sigmod进行归一化,将归一化的融合特征进行后处理后得到概率图,将轮廓图分支特征输入第四反卷积网络进行降维和上采样,降维和上采样后输入第二sigmod进行归一化,将归一化的轮廓图特征进行后处理后得到轮廓图,完成检测。

S5、将随机中心剪裁训练数据集图像输入场景文本检测模型进行训练,得到训练后的场景文本检测模型;

S6、将测试集输入训练后的场景文本检测模型进场景文本检测;

S7、对文本检测结果进行评价。

具体实施方法如下:

首先对ICDAR15场景文本数据集进行数据增强,对其进行随机旋转、反转等处理增加数据集的随机性,以提高训练模型的泛化能力和鲁棒性,之后将预处理后的数据送入模型中进行训练,待训练结束后搭载模型实现对场景中的文本实例检测。

为实现上述目的,本发明包括如下步骤:

步骤S1:获得ICDAR15文本检测数据集;

步骤S2:对数据集图片进行数据增强,以提升网络的泛化能力;

步骤S3:对图像进行随机中心裁剪;

步骤S4:使用Pytorch深度学习框架,建立一个基于邻层引导的特征融合网络与基于概率-轮廓图像融合的预测模块,本发明提出的卷积神经网络结构借鉴DBNET,采用特征提取网络(backbone)-特征融合网络(neck)-预测头(head)的基于分割的场景文本检测架构。针对网络中用于特征融合的特征金字塔FPN,本发明采用NGNET(Neighbor Guidednetwork)进行替换,使得相邻层级的特征能够得到更好的底层信息和语义信息补充,生成表征能力更佳的特征,NGNET包含轴向引导模块AGM(Axial Guided module)和常规引导模块FGM(Formal Guided module)两种,以适应不同层级的特征。而后在融合特征所连接的概率图预测分支与轮廓图预测分支中,建立非采样离散小波变换融合预测头UFH(Undecimated-discrete-wavelet-transform Fusion Head),利用非采样离散小波变换提取轮廓图预测分支的轮廓信息,融合到概率图预测分支中,以产生更为精确的,能够更好地避免文本实例的错误粘连和分离的检测结果。

步骤S5:对模型进行测试并根据评价指标对场景文本检测结果进行综合评估。

对步骤进行具体说明:

步骤S1:获得带有图片与标注的场景文本数据集;

步骤S2:对数据集图片进行数据增强,保证模型的泛化性能,获得更好的检测效果。

步骤S2.1:对训练集图像进行随机反转,反转范围为[-10°,10°]

步骤S2.2:进行随机镜像反转。

步骤S3:完成图像增强操作之后,对训练集图像进行随机中心裁剪,以图片中随机一个像素作为中心点,裁剪尺寸为640x640的图像,作为原始输入数据用于训练文本检测模型。

图2是本发明实施例的基于深度学习的场景文本检测方法的卷积神经网络示意图;

步骤S4:使用Pytorch深度学习框架搭建本网络,本发明所提出的卷积神经网络如图2所示是借鉴DBNET网络,采用NGNET代替FPN的架构作为模型框架,专门用于场景文本检测的卷积神经网络,包含backbone-neck-head三部分。

Backbone部分,本发明设计的网络以resnet18作为基本的特征提取网络,resnet18具有模型轻便的特点,适合场景文本检测任务中高效性和实时性的特点。resnet18中每一层输出的特征称为C1-C5。在之后将进入neck部分中进行进一步的特征提取和特征融合。

Neck部分,本发明设计的网络以NGNET为特征融合网络。出于对不同层次的语义、位置,尺度等信息的差异考虑,NGNET包含轴向引导模块AGM和常规引导模块FGM两个结构,两个模块的结构如图3所示,分别作用于(C5,C4)和(C4,C3)、(C3,C2)以应对不同层次特征的处理。并且出于对高层级的丰富语义信息与颜色对比度等低层级信息的权衡,我们删除了C5层的横向链接,仅保留3层输出特征用于融合。AGM和FGM均设置相对低层级和相对高层级两个输入特征,相对高层级特征均需经过大小为1x1,步长为1的卷积核进行降维,并利用最邻近插值法将图像尺度上采样至与相对低层级图片相同的大小。

图3是本发明实施例的基于深度学习的场景文本检测方法的AGM和FGM网络示意图;

而相对低层次路径方面AGM与FGM有所不同,由于C4、C5此类高层级特征更具有全局性,拥有更大的感受野,更接近于人眼所观察的事物而非C2、C3此类低层级的颜色、纹理、边界等信息,因而利用AGM模块,对相对低层次特征(C4)分别沿行方向与列方向进行最大池化,并通过一对非对称卷积,进一步提取C4沿不同方向的轮廓信息,使得检测网络对于文本方向和极端长宽比的实例更具有鲁棒性,并与来自于相对高层次通道、经过降维与上采样后的C5特征进行逐点乘操作,为相对高层级特征提供位置信息和轮廓信息。并将逐点乘的结果以注意力机制形式(sigmoid处理后叠加)加权到原始低层级特征C4中,AGM的工作原理可以表述为以下公式:

P4=Conv

C5′=Upsample(Conv

C4

C4

C4

其中C为低层次特征的通道数,H为低层次特征的高度,W为低层次特征的宽度,⊙表示逐点乘,C4

FGM由于所指引的C2、C3特征包含丰富的位置信息,但语义信息有所欠缺,因而不采用注意力机制的利用sigmoid图点乘加权的方式,而改为仅通过大小为3x3的卷积核进行特征提取后,采用逐点乘后在与C2或C3原图叠加的方式,以利用相对高层次特征激活相对低层次特征的语义信息,并通过两层大小为3x3的卷积核进一步进行特征提取与降维,FGM的工作原理可以表述为以下公式(以C4与C3为例):

P3=Conv

C4′=Upsample(Conv

C3′=Conv

经过AGM和FGM处理后的三组特征图将尺寸调整至三组特征图的1/4并进行拼接,将在此特征融合网络得到的特征进入到预测头部分(head)中预测出对应的概率图与轮廓图。

图4是本发明实施例的基于深度学习的场景文本检测方法的Head网络示意图;

Head部分,为使概率图预测分支与轮廓图预测分支生成更准确的预测结果,减少检测结果粘连、分离等此类错误现象出现,本发明设计的网络以UFH作为预测头,以代替常规的仅由反卷积与卷积模块构成的预测模块,UFH主要思想为利用轮廓图分支中分离出的高频分量与低频分量来引导概率图分支,激活概率图分支中与轮廓图分支中一致的像素,从而抑制文本粘连与分离现象。

首先将通过特征融合网络处理后的特征图像分别作为概率图与轮廓图预测分支的输入,并分别经过大小为1x1与3x3的卷积核降维,并利用反卷积模块分别将两个预测分支中的图像上采样至原图尺寸的1/2。

而后,对轮廓图分支特征进行非采样离散小波变换,分离其高频与低频特征,分别代表轮廓图特征中的边缘分量和基本特征,相比起卷积能够更好地保留特征图像的整体特征与图像轮廓,将低频分量LL与概率图分支特征进行逐点乘,以抑制概率图分量中与轮廓图分支不相符的边缘像素权重。

与此同时,本发明以像素的权重作为检测阈值,来判断当前像素是否属于文本实例的一部分,概率图分支与低频分量LL点乘过后的特征,需要与三个高频分量图LH,HL,HH叠加,以弥补概率图分支与低频分量点乘结果中的边缘细节损失,进一步增强轮廓图分支对概率图分支的引导的同时,避免出现图像因边缘像素的权重不足而无法被检测完全的情况,此处的融合过程可以表述为下式所示:

ll,lh,hl,hh=udwt(contour)

fusion=0.3*(ll*probability+lh+hl+hh)+0.7*probability

其中probability为概率图分支,contour为轮廓图分支,fusion为两个分支的融合特征,ll,lh,hl,hh为轮廓图分支的特征经过非采样离散小波变换所产生的四个特征分量,其中ll对应轮廓图的低频分量,表征为图像中的基本特征,而lh,hl,hh对应高频分量,表征为分别沿高度、宽度、对角线方向所提取的轮廓信息,将lh,hl,hh与点乘结果相加后能够得到较为完整的图像轮廓。

融合特征将会以加权方式叠加到概率图分支中,随后两个分支将重复进行一次降维与反卷积,作为二值化图像的数据来源,经过后处理生成最终预测图像,完成检测任务,可以表述为如下式所示:

probability'=ConvTranspose(fusion*probability)

contour'=ConvTranspose(contour)

k为预设的超参数,本发明中设置为50,Binarize为可微二值化图像。

本发明的深度学习框架的损失函数如下所示:

L=L

其中L

步骤S5:场景文本检测模型训练完成后,根据评价指标对文本检测结果进行评价。评价指标包括精确度(Precision)、召回率(Recall)和加权调和均值(F-Measure)。公式和关系如下:

TP为标签为正类,检测结果为正类的像素点,FP为标签为负类,检测结果为正类的像素点,精确度表示在检测为正类的结果中,精确度为多少。

TP是预测检测图像预测正确的目标对象的像素点,FN为标签为正类,检测结果为负类的像素点,召回率表示有多少正类被准确地检测出来。

F-Measure为根据精确度和召回率所作出的综合评分。一般情况下可以作为主要的模型性能对比指标。

本发明以DBNET为基准,将其中的特征金字塔FPN替换为本发明所提出的邻层引导网络NGNET,并削减一层横向链接以尽可能地避免小尺寸文本丢失的情况发生,并减少不同层级融合过程中由于尺寸和语义信息差所产生的混叠现象。特征融合模块包含轴向引导模块AGM与常规引导模块FGM,以针对不同层级所表示的语义信息进行相应的处理。

本发明以DBNET为基准,将预测头模块中的概率图预测分支与轮廓图预测分支相融合,通过非采样离散小波变换提取轮廓图中的边缘信息,将其加权到概率图预测分支中,引导概率图预测分支生成更为准确的文本实例,抑制文本粘连与分离的现象。

系统实施例

根据本发明实施例,提供了一种基于深度学习的场景文本检测系统,图3是本发明实施例的基于深度学习的场景文本检测系统的示意图,如图3所示,具体包括:

获取模块:用于获取文本检测训练数据集;

数据增强模块:用于对训练数据集图片进行数据增强;

所述数据增强模块具体用于:对训练集图像进行随机旋转和随机镜像反转。

剪裁模块:用于对数据增强后的训练数据集图像进行随机中心裁剪得到随机中心剪裁训练数据集图像;

剪裁模块具体用于:以训练集图像中随机一个像素作为中心点,裁剪尺寸为640x640的图像。

建立模块:用于建立场景文本检测模型;

建立模块具体用于:建立场景文本检测模型,包含backbone-neck-head三部分;

Backbone,以resnet18作为特征提取网络,用于提取测试集的特征后将特征输入Neck,输出特征包括C1、C2、C3、C4和C5;

Neck,以NGNET为特征融合网络,用于融合测试集的特征,NGNET包含一个轴向引导模块AGM和两个常规引导模块FGM两个结构,

对C4分别沿行方向与列方向进行最大池化,然后通过一对非对称卷积输出轮廓信息,轮廓信息与经过降维和上采样后的C5特征进行逐点乘的得到结果,将结果以注意力机制形式加权到C4中得到第一特征图;

将C2输入卷积核进行特征提取得到C2特征,C2特征进行逐点乘后与C2进行叠加,叠加后通过两层卷积核进行特征提取和降维得到第二特征图;

将C3输入卷积核进行特征提取得到C3特征,C3特征进行逐点乘后与C3进行叠加,叠加后通过两层卷积核进行特征提取和降维得到第三特征图;

将第一特征图、第二特征图和第三特征图尺寸调整至80x80并进行拼接,拼接后得到融合的特征,将融合的特征输入到Head;

Head,将融合的特征分别输入概率图和轮廓图的预测分支入口,输入概率图预测分支入口后经过降维得到第一降维特征,利用第一反卷积网络将第一降维特征上采样得到概率图分支特征,输入轮廓图预测分支入口后经过降维得到第二降维特征,利用第二反卷积网络将第二降维特征上采样得到轮廓图分支特征,对轮廓图分支特征进行非采样离散小波变换得到轮廓图分支特征中的高频特征分量和低频特征分量,将低频特征分量与概率图分支特征进行逐点点乘得到点乘特征,将点乘特征与高频特征分量进行叠加得到两个分支的融合特征,将两个分支的融合特征和概率图分支特征进行拼接后输入第三反卷积网络进行降维和上采样,降维和上采样后输入第一sigmod进行归一化,将归一化的融合特征进行后处理后得到概率图,将轮廓图分支特征输入第四反卷积网络进行降维和上采样,降维和上采样后输入第二sigmod进行归一化,将归一化的轮廓图特征进行后处理后得到轮廓图,完成检测。

训练模块:用于将随机中心剪裁训练数据集图像输入场景文本检测模型进行训练,得到训练后的场景文本检测模型;

检测模块:用于将测试集输入训练后的场景文本检测模型进场景文本检测;

评价模块:用于对文本检测结果进行评价。

本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。

装置实施例一

本发明实施例提供一种基于深度学习的场景文本检测装置,如图6所示,包括:存储器60、处理器62及存储在存储器60上并可在处理器62上运行的计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。

装置实施例二

本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传输的实现程序,程序被处理器62执行时实现上述方法实施例中的步骤。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换本发明各实施例技术方案,并不使相应技术方案的本质脱离本方案的范围。

相关技术
  • 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统
  • 基于深度学习的视频场景文本检测方法、系统、设备及介质
技术分类

06120116220859