一种针对具有大字符间距与局部遮挡的场景文本检测方法

文献发布时间：2023-06-19 09:32:16

技术领域

本发明属于光学字符识别技术领域，尤其涉及一种针对具有大字符间距与局部遮挡的场景文本检测方法。

背景技术

由于文字天生包含了丰富且准确的语义信息，使计算机能够阅读并理解图片上的文字具有学术和实际应用价值。场景文本检测就是检测自然场景图片中的文本。该任务的难点主要来源于三个方面，第一是文本自身的多样性，自然场景中的文本具有多样的字体，颜色，大小，艺术风格；第二是自然场景图片的背景十分复杂，现实生活中存在一些结构与文本类似的对象，比如说窗户，砖瓦，栅栏，草地等等；第三是图片成像环境的影响，部分图片存在不均匀光照、模糊等。

现有方法之一是基于文本框回归，这类方法借鉴了通用目标检测框架，如SSD，Faster R－CNN等，但由于锚框(anchor)机制的限制，导致这类方法无法处理任意形状的文本(比如弯曲文本)。同时，由于有限的感受野，使得长文本的边框回归不准确。

现有方法之二是基于语义分割，基于分割的方法将图片上的像素分为前景(文本区域)和背景。这种做法无需考虑文本对象的形状与尺寸，能够处理任意形状的文本，但是由于文本的边界难以界定，导致相邻的文本行不易区分开。除此之外，绝大部分方法使用连通区域分析确定文本实例，而且当文本字符间距大或者局部被遮挡时，一个文本对象会对应多个检测框。

发明内容

为了克服背景技术中基于语义分割的方法来识别图像中的文本时，文本字符间距大或者局部被遮挡的文本时，一个文本对象会对应多个检测框的问题，本发明提出如下技术方案：

一种针对具有大字符间距与局部遮挡的场景文本检测方法，包括以下步骤：

S1、通过全卷积神经网络对输入的图片提取特征，并将不同层次的特征进行融合；

S2、融合后的特征经过文本语义分割网络输出文本分割图，以及经过文本实例特征嵌入模块输出文本实例嵌入特征图；

S3、将文本分割图与文本实例嵌入特征图通过文本实例重组算法得到文本检测结果。

进一步地，S1中，采用特征金字塔结构的全卷积网络，输入的图片先经过特征金字塔网络提取不同层次的特征，再经过点加操作、通道级联操作将不同层次的特征融合在一起。

进一步地，S2中，文本实例特征嵌入模块将每个像素嵌入特征空间，文本区域中的平均像素特征被视为文本区域的特征

进一步地，文本实例特征嵌入模块构建的网络结构将融合后的特征先经过两个Conv－BN－Relu层，再使用一个1×1卷积降低通道数，减少计算量，经过relu激活层再上采样到原始输入尺寸。

进一步地，文本实例特征嵌入模块通过减小同一个文本实例中不同像素的特征距离以及增大不同文本实例间的特征距离进行训练。

进一步地，文本实例重组算法是一个基于度量的聚类算法。

该发明一种针对具有大字符间距与局部遮挡的场景文本检测方法的有益效果：本方法针对具有大字符间距和局部被遮挡文本的误检问题进行优化，提出了文本实例特征嵌入模块与文本实例重组算法，其中文本实例嵌入模块将每个像素嵌入特征空间，并将文本区域中的平均像素特征视为文本区域的特征。随后，文本实例重组算法将具有相似特征的文本候选区域进行重组。通过这样做，由于字符间距大或局部被遮挡被分割为多个区域的文本实例，能够重新被检测成一个完整的对象。所提出的两个模块不依赖与具体的模型细节，可以非常便携地与任意主流的基于分割的文本检测算法相结合，提升方法的精度。

附图说明

图1为本发明实施例中文本检测方法的步骤示意图；

图2为本发明实施例中特征金字塔结构全卷积网络图；

图3为本发明实施例中文本实例特征嵌入模块网络结构图；

具体实施方式

以下结合实施例对本发明作进一步的阐述，所述的实施例仅为本发明一部分的实施例，这些实施例仅用于解释本发明，对本发明的范围并不构成任何限制。

如说明书附图1所示，一种针对具有大字符间距与局部遮挡的场景文本检测方法，包括以下步骤：

S1、通过全卷积神经网络对输入的图片提取特征，并将不同层次的特征进行融合

选择任意一个主流的基于分割的文本检测方法，本实施例中以经典的特征金字塔结构的全卷积网络(FPN+FCN)为例。整体的网络结构如说明书附图2所示，输入的图片先经过特征金字塔网络提取不同层次的特征，之后经过通道级联操作将不同层次的特征融合在一起。

S2、融合后的特征经过文本语义分割网络输出文本分割图，以及经过文本实例特征嵌入模块输出文本实例嵌入特征图

主要的对文本实例特征嵌入模块输出文本实例嵌入特征图介绍。其中文本实例特征嵌入模块网络结构，如说明书附图3所示，融合后的特征先经过两个Conv－BN－Relu层，再使用一个1×1卷积降低通道数，减少计算量，随后经过relu激活层再上采样到原始输入尺寸。具体的，文本实例特征嵌入模块为每一个像素输出一个特征向量F

由于每一个像素的特征向量在标签中是缺失的，而该模块的目的是学到文本实例之间的相似性，因此本文采用了聚类的思想，在训练过程中通过减小同一个文本实例中不同像素的特征距离以及增大不同文本实例间的特征距离来监督文本实例嵌入模块学习。具体的，(1)减少实例内距离：同一文本区域中像素之间的特征距离应尽可能小。本文利用像素与文本实例之间的距离作为损失，使同一个文本区域内像素特征更加相似。(2)增加实例间距离：与实例内距离相反，不同文本区域的特征向量之间的距离应尽可能大。

S3、将文本分割图与文本实例嵌入特征图通过文本实例重组算法得到文本检测结果

文本实例重组算法是一个基于度量(距离)的聚类算法，主要思想是判断两个文本候选集的特征向量距离是否小于阈值，如果该特征距离足够小，则认为两个文本候选集可能是同一个文本实例，将这两个候选文本合并重组成一个。除了特征距离以外，还需要满足一些逻辑条件，比如两个候选文本的相对位置等。

本发明针对大字符间距和局部被遮挡的文本，提出了文本实例特征嵌入模块与文本实例重组算法，能有效的检测具有大字符间距和局部被遮挡的文本，有效的提高了模型整体的精度，同时可以做到即插即用，并不依赖某一种具体的方法，可以十分便携地与主流基于分割的文本检测方法相结合。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：高攀;刘磊;黄军文;汤红;
专利申请人：深圳市华付信息技术有限公司;