掌桥专利:专业的专利平台
掌桥专利
首页

基于对比学习特征增强的场景文字检测方法及装置

文献发布时间:2024-04-18 19:59:31


基于对比学习特征增强的场景文字检测方法及装置

技术领域

本发明涉及文字检测技术领域,具体涉及一种基于对比学习特征增强的场景文字检测方法与装置。

背景技术

基于深度学习的场景文字检测模型在实际检测中,由于场景文字的多变性以及文字固有的极端长宽比和大小,会出现例如背景误检、文字漏检等多种情况,尤其是对于复杂样本如同一行文字不同颜色,不同字体的情况,以及字母与数字混合的情况来说更难以检测。目前场景文字检测的方法通常通过增加模型的复杂度或者加深网络层数来构建更加复杂的文字检测其来缓解以上的这些情况,但是这些方法均会导致实际应用中场景文字检测的检测效率降低。

发明内容

针对场景文字检测任务中的现有问题,本发明公开了一种基于对比学习特征增强的场景文字检测方法及装置,在尽可能保证推理速度的同时提升检测效果,提高检测精度。本发明主要通过使用跨图像有监督区域级对比学习的方法来强化文字检测模型的底层图像特征抽取能力。为了使得骨干网络抽取出的特征更加适应文字目标实体的特性,本发明还设计了一个特征精炼层来进一步微调骨干网络抽取出的特征。通过这些操作,实现场景文字检测模型在保证模型整体检测速度的同时,实现对于背景误检、复杂文字目标的正确检测的相关纠正。

为实现上述目标,本发明的技术方案包括以下内容。

一种基于对比学习特征增强的场景文字检测方法,包括:

构建训练图片集和场景文字检测模型;其中,所述训练图片集包括若干张训练图片和对应的标签图,场景文字检测模型包括特征提取模块、特征融合模块和检测头模块;

基于场景文字检测模型对训练图片进行文字检测,并结合对应的标签图,获得文字检测损失L

抽取所述特征融合模块输出的视觉特征图F,并基于文字特性进行微调后,结合对应的标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失L

根据所述文字检测损失L

基于训练后的场景文字检测模型获取待检测图片的预测概率图Y后,对所述预测概率图Y进行后处理,得到待检测图片中的文字位置。

进一步地,抽取所述特征融合模块输出的视觉特征图F,并基于文字特性进行微调,包括:

抽取所述特征融合模块输出的视觉特征图F;

将视觉特征图F输入到映射头中进行特征维度的压缩;

将压缩之后的特征输入到特征精炼模块中,得到基于文字特性进行微调后的精炼特征F

进一步地,所述结合对应的标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,包括:

通过标签图的指引,抽取特征精炼图F

通过全局平均池化的方式对各像素位置上的文字特征、背景特征或文本邻接区域特征加以聚合,得到聚合特征。

进一步地,所述方法还包括:将抽取文字特征、背景特征和文本邻接区域特征以及聚合特征输入到记忆库中进行更新。

进一步地,所述对比学习损失

进一步地,所述后处理包括:对文字区域进行过滤和捕获以及形状重塑。

一种基于对比学习特征增强的场景文字检测装置,包括:

构建模块,用于构建训练图片集和场景文字检测模型;其中,所述训练图片集包括若干张训练图片和对应的标签图,场景文字检测模型包括特征提取模块、特征融合模块和检测头模块;

文字检测损失计算模块,用于基于场景文字检测模型对训练图片进行文字检测,并结合对应的标签图,获得文字检测损失L

对比学习损失计算模块,用于抽取所述特征融合模块输出的视觉特征图F,并基于文字特性进行微调后,结合对应的标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失L

反向传播模块,用于根据所述文字检测损失L

预测模块,用于基于训练后的场景文字检测模型获取待检测图片的预测概率图Y后,对所述预测概率图Y进行后处理,得到待检测图片中的文字位置。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于对比学习特征增强的场景文字检测方法。

一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令在被执行时实现上述任一项所述的基于对比学习特征增强的场景文字检测方法。

与现有的方法相比,本发明提出了一个跨图像有监督对比学习来辅助场景文字检测任务的方法,该方法旨在训练过程中参与计算优化模型,从特征增强的角度来实现模型的底层优化。在推理过程中,对比模块不参与场景文字检测的前向计算,因而并不会对推理的效率产生影响。实验证明,该方法有效地解决了面对复杂文字目标检测中存在的一系列复杂情况及问题,并在不增加额外计算时间的基础上显著提升了模型的性能。

附图说明

图1网络结构。

图2特征精炼模块。

图3文字邻接区域。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的基于对比学习特征增强的场景文字检测方法,是一种基于跨图像有监督对比学习来辅助场景文字检测任务的方法,场景文字检测模型用的是PAN,整个方法的流程框架如图1所示。在训练模型的过程中,启用模型中的特征精炼模块和对比分支,使用跨图像对比学习的方式来强化特征融合部分抽取出的骨干网络特征并基于对比学习范式优化模型参数。而在推理过程中,由于骨干网络的参数已经经过对比学习的优化,因而无需启用对比分支。整个模型分为以下几个模块:特征融合模块、检测头模块、特征精炼模块以及对比分支模块。

特征融合模块主要将骨干网络中抽取出的多层图像特征进行融合,并得到融合之后的特征F,从特征融合模块抽取出的特征将被用于场景文字检测与对比学习的计算过程。

检测头模块主要负责场景文字检测,本发明主要针对基于分割的场景文字检测任务,因为基于分割的方法对于任意形状的场景文本效果更好。检测头将特征融合模块抽取出的特征F经过几个网络层映射成预测概率图,预测概率图用来指示图像中每一个像素位置是否为文字。然后将预测概率图进行后处理,从而获取到文字所在的位置或区域。

特征精炼模块主要将映射头处理之后的特征针对文字的特性进行精炼和微调,本发明设计了一种Text MSCA模块如图2,充分利用带状卷积的特性来适应具有极端长宽比的文字特征。通过级联多个Text MSCA模块,对比分支将获取到更适合文字特征的特征精炼图F*来进行对比计算。

特征精炼模块主要负责将映射头处理之后的特征针对文字的特性进行精炼和微调,本发明通过改进MSCA模块来设计本文的TextMSCA模块,如图2。Text MSCA模块主要包括多个带状卷积操作,首先图像经过一个5×5的卷积对特征进行初步映射,然后将初步映射之后的特征分别输入到卷积核尺度为1×5,1×9,1×15以及1×23卷积层,再接着输入到卷积核尺度为5×1,9×1,15×1,23×1的卷积层中,然后将这些特征缩放到统一尺度之后合并,再经过一个卷积核为1×1的卷积层之后与原始输入特征进行融合,最终获得精炼特征。充分利用带状卷积的特性来适应具有极端长宽比的文字特征。通过级联多个Text MSCA模块,对比分支将获取到更适合文字特征的特征精炼图F*来进行对比计算。

对比分支模块主要负责对比学习的特征抽取和计算。通过标签图的指引,能够获取到特征精炼图F*上不同特征的像素位置,然后通过全局平均池化的方式对三类特征加以聚合。其中文字和背景的特征据能够通过标签直接获得,为了提高模型对于邻接文本的准确判断,本发明设计了一种新的负样本(相对正样本文字而言),即文字邻接区域如图3。通过该区域在对比学习计算中的加入能有效缓解文字粘连的情况。最后,对以上特征进行对比学习的拉近和推远,并在计算之后输入记忆库中进行更新存储。

本发明的整个流程分为以下几步:1,输入图片经过特征提取和特征融合两个模块获取视觉特征图F。一个实施例中,本发明的特征提取和特征融合可以使用ResNet网络抽取出多个大小维度的图像特征,然后对多个大小维度的图像特征进行融合。

2,视觉特征图F输入到检测头中,获取预测概率图Y,该预测概率图指示文字像素位置,与标签图进行计算,获得文字检测损失LText。

3,视觉特征图F输入到映射头中进行特征维度的压缩,方便后续的计算。

4,压缩之后的特征输入到特征精炼模块中,针对文字的特性进行微调,带状卷积能够更好地捕获相应位置的文字特征,该步骤获取到精炼特征F*。

5,将精炼特征F*输入到对比分支中按照标签图的指引进行三类特征的抽取和聚合。

6,将抽取和聚合的三类文字相关特征按照对比学习损失的设计方式计算,获取损

其中,r表示的是当前计算的锚特征,r

7,将抽取和聚合的三类文字相关特征输入到记忆库中进行更新。

8,将L

9,在推理过程中,图片输入之后经过特征提取和特征融合以及检测头三个模块之后获取预测概率图Y,然后经过后处理的操作对所获得的文字区域进行过滤和捕获以及形状重塑,并于最终获取到图像中的文字位置。

此外,为对本发明进行验证,申请人在三个任意形状文本的数据集上进行了训练和测试。三个数据集分别为CTW1500、TotalText以及MSRA-TD500。这三个数据集针对的都是任意形状的文本,文本之间存在相对较近的间距,测试本发明的方法最为合适。接下来,表1,表2和表3的结果都展示了本发明中方法的有效性。

为了反映对比学习对场景文本检测的有效性,本发明采用了PAN的训练模式,只使用ResNet18作为主干网络,并根据需要是否使用SynthText进行预训练来分别实验。如表1所示,没有预训练时,对于PAN方法,对比学习带来了1.1%的改进。在表2和表3中的结果显示,对于TotalText数据集,最大改进达到了1.6%,对于MSRA-TD500数据集,最大改进达到了5.4%。当使用SynthText对模型进行预训练时,在这些数据集上进行了微调,进一步提升了性能。表1、表2和表3的结果表明,使用跨图像区域级别的对比学习有助于PAN方法取得令人印象深刻的改进,甚至追赶了使用ResNet50作为主干网络的大多数方法。FPS会因为像素聚合前连接区域的增加而略微降低,但时间消耗可以忽略不计。

表1 CTW1500数据集上的结果,*表示增加Text MSCA模块

表2 TD500数据集上的结果,*表示增加Text MSCA模块

表3TotalText数据集上的结果,*表示增加Text MSCA模块

表4增加文本邻接区域与否在多个数据集上的对比

对于文本邻接区域的负样本是否有必要加入,本发明也做了如下的消融实验见表4。针对文本的特性设计了一种对比采样策略,将文本相邻区域作为负样本添加到记忆库中。我在三个具有复杂文本形状的数据集上比较了使用该策略和不使用该策略的结果。表4显示,添加文本相邻区域可以提高对比学习的有效性,特别是在MSRA-TD500数据集上提升了2.2%。这种设计有助于模型关注模糊区域,并有效地区分文本边界,从而产生更稳健的特征并减轻连接相邻文本的问题。

综上所述,由于目前的场景文字检测方法存在以下缺陷:

1、均旨在通过提高模型的复杂度或者增加网络层数来构建更加复杂的场景文字检测模型,这会导致在实际应用中推理速度的大大下降。

2、场景文字中同一行文字不同颜色,不同字体的情况,以及字母与数字混合的情况难以检测。

3、目前场景文字检测方法甚少通过从训练时使用模块辅助的角度来强化骨干网络抽取出的图像特征。

而本发明针对场景文字检测任务,应用有监督对比学习范式,利用记忆库实现训练过程中的跨图像,并最终提升文字检测性能。并且,由于只在训练过程中使用到对比学习的方式,该模块未参与推理过程,因此不会影响场景文字检测模型PAN的高推理速度。

提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

相关技术
  • 一种耐黄变UV树脂及其制备方法
  • 一种箱包织物用耐黄变剂的制备方法
  • 一种无黄变、耐湿热低温固化胶及其制备方法
  • 一种高抗黄变耐析出无卤阻燃热塑性弹性体组合物及其制备方法
  • 一种高耐黄变水性木器清面漆及其制备方法
  • 一种耐黄变鞋用橡胶及其制备方法
  • 高挺性光泽型耐黄变漂白色鞋边橡胶及其制备方法
技术分类

06120116524112