一种基于分割的文本检测方法、装置、系统及介质

文献发布时间：2023-06-19 11:02:01

技术领域

本发明涉及文本检测技术领域，尤其涉及一种基于分割的文本检测方法、装置、系统及介质。

背景技术

场景文本检测在计算机视觉领域有着广泛的应用，如即时翻译、图像检索、场景解析、地理定位、盲导航等。但是在一些情况下，现有图像文本检测方法可能会受到影响，比如弯曲、变形或非常长的文本，这些文本很难用单个边框来检测，而目前现有的文本检测器针对字符级的检测准确性不够，进而降低了复杂场景文本检测结果的准确性。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于分割的文本检测方法、装置、系统及介质，旨在解决现有技术中字符级场景文本检测准确性低的问题。

本发明的技术方案如下：

一种基于分割的文本检测方法，其包括如下步骤：

获取待检测文本图像，对所述待检测文本图像中的文本区域进行特征提取后输出字符区域概率图和字符关联概率图；

根据所述字符区域概率图和字符关联概率图对所述文本区域进行字符分割后获得每个字符的标注框；

将文本区域中各个标注框的坐标转换至待检测文本图像后输出字符文本检测结果。

所述的基于分割的文本检测方法中，所述对所述待检测文本图像中的文本区域进行特征提取后输出字符区域概率图和字符关联概率图之前，还包括：

构建字符文本检测模型，以预设损失函数通过弱监督学习训练所述字符文本检测模型直到模型收敛至预设值后完成训练。

所述的基于分割的文本检测方法中，所述构建字符文本检测模型，以预设损失函数通过弱监督学习训练所述字符文本检测模型直到模型收敛至预设值后完成训练，包括：

构建字符文本检测模型，获取无字符标注的真实样本和具有字符标注的合成样本；

将所述真实样本合成样本均输入至所述字符文本检测模型中进行弱监督学习训练，以预设损失函数对所述字符文本检测模型的输出结果进行误差评价；

将所述输出结果反馈至用于生成合成样本的标注生成器；

所述标注生成器根据输出结果输出更新后的合成样本至所述字符文本检测模型中，直到误差评价结果小于预设值后完成训练。

所述的基于分割的文本检测方法中，所述获取具有字符标注的合成样本，包括：

获取合成图像中每个字符框和关联框的角点以及对应数量的原始高斯热图；

通过透视变换将所述原始高斯热图根据每个字符框的角点转换为对应字符框的形状；

将透视转换后的原始高斯热图按每个字符框的位置覆盖在所述合成图像上，作为合成图像的字符标注。

所述的基于分割的文本检测方法中，所述预设损失函数为

所述的基于分割的文本检测方法中，所述字符框分割置信度矩阵

所述的基于分割的文本检测方法中，所述字符区域概率图和字符关联概率图均为高斯热图。

本发明又一实施例还提供了一种基于分割的文本检测装置，所述装置包括：

特征提取模块，用于对获取到的待检测文本图像中的文本区域进行特征提取后输出字符区域概率图和字符关联概率图；

分割模块，用于根据所述字符区域概率图和字符关联概率图对所述文本区域进行字符分割后获得每个字符的标注框；

转换模块，用于将文本区域中各个标注框的坐标转换至待检测文本图像后输出字符文本检测结果。

本发明又一实施例还提供了一种基于分割的文本检测系统，所述系统包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于分割的文本检测方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于分割的文本检测方法。

本发明的另一实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使所述处理器执行上述的基于分割的文本检测方法。

有益效果：本发明公开了一种基于分割的文本检测方法、装置、系统及介质，相比于现有技术，本发明实施例通过挖掘文待检测文本图像中每个字符的区域概率以及字符之间的连接概率来进行字符分割，实现了字符级的文本检测，有效提高了针对不规则形状文本或者过长文本的检测准确性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明提供的基于分割的文本检测方法较佳实施例的流程图；

图2为本发明提供的基于分割的文本检测方法较佳实施例中字符文本检测模型的训练过程示意图；

图3为本发明提供的基于分割的文本检测装置较佳实施例的功能模块示意图；

图4为本发明提供的基于分割的文本检测系统较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

请参阅图1，图1为本发明提供的基于分割的文本检测方法较佳实施例的流程图。如图1所示，其包括如下步骤：

S100、获取待检测文本图像，对所述待检测文本图像中的文本区域进行特征提取后输出字符区域概率图和字符关联概率图；

S200、根据所述字符区域概率图和字符关联概率图对所述文本区域进行字符分割后获得每个字符的标注框；

S300、将文本区域中各个标注框的坐标转换至待检测文本图像后输出字符文本检测结果。

本实施例中，在进行文本检测时，先获取待检测文本图像，所述待检测文本图像例如广告牌、路牌等场景文本图像中可包含一个或多个文本区域，且文本区域可以为不规则形状，为进行准确的文本检测，先对所述待检测文本图像进行裁剪获得文本区域，即去除多余的背景噪声，针对待检测文本图像中的文本区域进行进一步的检测处理节约计算量，现有的裁剪方法可得到单词级别的图像块，之后对裁剪得到的文本区域进行特征提取后输出字符区域概率图和字符关联概率图，即与传统文本检测不同的是，本实施例中输出的不是离散标记每个像素二值分割映射的特征提取图，而是输出两路代表字符区域以及字符连接的概率图，本实施例中，所述字符区域概率图和字符关联概率图均为高斯热图，其中字符区域概率图中的高斯热力分布代表该像素是字符中心点的概率，而字符关联概率图中的高斯热力分布则代表该像素是相连字符之间空间的中心点的概率，高斯热图在处理不严格有界的真实字符区域时具有很高的灵活性，因此在针对不规则形状文本或者过长的文本时，可灵活准确的挖掘其中每个字符位置以及字符连接位置的概率分布，便于后续的准确文本检测。

之后根据所述字符区域概率图和字符关联概率图对所述文本区域进行字符分割，具体的字符分割可采用例如分水岭算法（watershed algorithm）实现，其利用高斯热图的图像区域特性来进行图像分割，将边缘检测与区域生长的优点结合起来，能够得到单像素宽、连通、封闭确位置准确的轮廓。分割获得字符区域后即可得到字符的标注框，由于文本区域是从待检测文本图像中裁剪得到的，因此需要将标注框的坐标根据裁剪规则进行反向转换，将当前文本区域中各个标注框的坐标转换回待检测文本图像中对应的坐标后，即可推理输出字符文本检测结果，在待检测文本图像中得到字符级别的文本边界检测结果，有效提高了针对不规则形状文本或者过长文本的检测准确性。

具体在推理阶段可采用现有的方法实现，最终的输出可以是各种形状的，比如字框或字符框，以及进一步的多边形，例如字符级的框可以直接根据上述分水岭算法得到，四角点边框则可通过如下后处理实现，首先初始化一个和输入图像一样大的全0矩阵M，之后对M进行连通区域计算，最后，通过寻找一个旋转矩形并将每个标签对应的连通分量围成最小面积，得到边界框，现有的软件库OpenCV提供的函数就可以完成这些操作，当然本实施例还可以根据分割得到的每个字符的标注框实现曲线文本的文本边框推理，此处不作赘述。

进一步地，所述对所述待检测文本图像中的文本区域进行特征提取后输出字符区域概率图和字符关联概率图之前，还包括：

构建字符文本检测模型，以预设损失函数通过弱监督学习训练所述字符文本检测模型直到模型收敛至预设值后完成训练。

本实施例中，在进行文本检测之前，先构建并训练字符文本检测模型，特别地，由于大多数现有的文本数据集不提供字符级标注，而获取字符级标注的工作代价太大，因此本实施例中通过弱监督的方式，即训练数据中不全部包含有准确标注的方式对所述字符文本检测模型进行学习训练，以弥补字符级标注不足且获取代价过高的缺点，在保证模型训练效果的同时也控制了训练成本。

进一步地，所述构建字符文本检测模型，以预设损失函数通过弱监督学习训练所述字符文本检测模型直到模型收敛至预设值后完成训练，包括：

构建字符文本检测模型，获取无字符标注的真实样本和具有字符标注的合成样本；

将所述真实样本合成样本均输入至所述字符文本检测模型中进行弱监督学习训练，以预设损失函数对所述字符文本检测模型的输出结果进行误差评价；

将所述输出结果反馈至用于生成合成样本的标注生成器；

所述标注生成器根据输出结果输出更新后的合成样本至所述字符文本检测模型中，直到误差评价结果小于预设值后完成训练。

本实施例中，请参阅图2，在构建了字符文本检测模型对其进行训练时，以弱监督学习框架进行，即同时利用具有字符标注的合成样本和没有字符标注的真实样本输入至字符文本检测模型中进行弱监督训练，具体来说，针对具有字符标注的合成样本，由于其合成时带有字符标注，因此直接通过预设损失函数对合成样本的文本检测输出结果进行误差评价，然而，由于标注生成器在生成字符标注时不一定准确，因此本实施例中将模型预测的输出结果反馈至标注生成器中，标注生成器根据接收到的反馈调节其输出的合成样本中的字符标注，之后再将更新后的合成样本输入至模型继续进行训练；而针对无字符标注的真实样本，则需要通过该字符文本检测模型得到字符区域概率图和字符关联概率图后分割得到标注框，将该标注框作为伪标注通过损失函数进行误差评价，两路数据同时在弱监督训练下根据误差评价结果反向传播调节所述字符文本检测模型的权重参数，直到误差评价结果小于预设值后得到最优权重参数完成训练，即本实施例在一个统一的框架内，同时执行文本检测任务和弱监督生成字符集标注任务，合成的数据经过字符文本检测模型处理后，会得到一个反馈，该反馈会促使标注生成器在弱监督学习下更好的生成有利于训练的字符集标注数据，打破了现有训练集缺少字符级标注的限制，有效提高了字符级文本检测的准确性。

进一步地，所述获取具有字符标注的合成样本，包括：

获取合成图像中每个字符框和关联框的角点以及对应数量的原始高斯热图；

通过透视变换将所述原始高斯热图根据每个字符框和关联框的角点位置转换为对应字符框和关联框的形状；

将透视转换后的原始高斯热图按每个字符框和关联框的位置覆盖在所述合成图像上，作为合成图像的字符标注。

本实施例中，由于缺乏字符级标注样本，因此所述合成样本的生成同样在弱监督学习下进行，且所述字符文本检测模型对文本区域进行特征提取后需要获得两路高斯热图，因此合成样本中的字符标注同样需要是高斯热图的形式的字符区域标注与字符关联标注，以用于后续的学习训练，具体生成过程为先获取合成图像中每个字符框的角点，在合成图像中，每个字符框的角点是已知的可直接获取，获取到各个角点后可进一步生成相连字符之间的关联框，具体为先连接两个相连字符框的对角线，在两个字符框内分别得到上三角形和下三角形，分别计算两个上三角形的中心点和两个下三角形的中心点后得到四个角点坐标，将其作为关联框的角点，根据当前字符框加上关联框的数量获取对应数量的原始高斯热图，原始高斯热图是二维各向同性的，通过透视变换将所述原始高斯热图对应转换为各个字符框和关联框的形状，即各个原始高斯热图按字符框和关联框的形状进行扭曲，之后将转换后的原始高斯热图按各个字符框和关联框的位置覆盖在所述合成图像上，得到具有字符标注的合成图像，以用于后续的模型训练，实现在弱监督训练下得到字符级的文本检测，在很难获取到具有真实字符标注的训练样本下，很好地平衡了模型训练样本与模型预测准确性。

进一步地，所述预设损失函数为

更进一步地，所述字符框分割置信度矩阵

本实施例中，通过损失函数来评价字符文本检测模型预测结果的可靠性，其中，由于标注生成器获得的合成样本中的字符标注不一定非常准确，因此可能导致字符文本检测模型输出的预测结果误差较大，因此在传统偏差估计的基础上，所述预设损失函数中还加上了字符框分割置信度来体现预测结果的可靠性，具体通过已有的标注样例来给出一个置信度，具体通过标注样例的文本长度进行对比，字符框分割置信度的值与预测字符框数量除以真实标注样例字符数成正比，优选地，如果

由以上方法实施例可知，本发明提供的基于分割的文本检测方法通过挖掘文待检测文本图像中每个字符的区域概率以及字符之间的连接概率来进行字符分割，实现了字符级的文本检测，有效提高了针对不规则形状文本或者过长文本的检测准确性。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种基于分割的文本检测装置，如图3所示，装置1包括：

特征提取模块11，用于对获取到的待检测文本图像中的文本区域进行特征提取后输出字符区域概率图和字符关联概率图；

分割模块12，用于根据所述字符区域概率图和字符关联概率图对所述文本区域进行字符分割后获得每个字符的标注框；

转换模块13，用于将文本区域中各个标注框的坐标转换至待检测文本图像后输出字符文本检测结果。

所述特征提取模块11、分割模块12和转换模块13依次连接，具体实施方式请参考上述对应的方法实施例，此处不再赘述。

进一步地，所述基于分割的文本检测装置还包括：

构建训练模块，用于构建字符文本检测模型，以预设损失函数通过弱监督学习训练所述字符文本检测模型直到模型收敛至预设值后完成训练。

进一步地，所述构建训练模块包括：

构建获取单元，用于构建字符文本检测模型，获取无字符标注的真实样本和具有字符标注的合成样本；

损失计算单元，用于将所述真实样本合成样本均输入至所述字符文本检测模型中进行弱监督学习训练，以预设损失函数对所述字符文本检测模型的输出结果进行误差评价；

反馈单元，用于将所述输出结果反馈至用于生成合成样本的标注生成器；

更新单元，用于将所述标注生成器根据输出结果更新后的合成样本输入至所述字符文本检测模型中，直到误差评价结果小于预设值后完成训练。

进一步地，所述构建获取单元包括：

获取子单元，用于获取合成图像中每个字符框和关联框的角点以及对应数量的原始高斯热图；

变化子单元，用于通过透视变换将所述原始高斯热图根据每个字符框和关联框的角点位置转换为对应字符框和关联框的形状；

覆盖子单元，用于将透视转换后的原始高斯热图按每个字符框和关联框的位置覆盖在所述合成图像上，作为合成图像的字符标注。

本发明另一实施例提供一种基于分割的文本检测系统，如图4所示，系统10包括：

一个或多个处理器110以及存储器120，图4中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器110用于完成系统10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM（Acorn RISCMachine）或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于分割的文本检测方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行系统10的各种功能应用以及数据处理，即实现上述方法实施例中的基于分割的文本检测方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据系统10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于分割的文本检测方法，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使所述处理器执行上述方法实施例的基于分割的文本检测方法。例如，执行以上描述的图1中的方法步骤S100至步骤S300。

综上所述，本发明公开的一种基于分割的文本检测方法、装置、系统及介质中，方法通过获取待检测文本图像，对所述待检测文本图像中的文本区域进行特征提取后输出字符区域概率图和字符关联概率图；根据所述字符区域概率图和字符关联概率图对所述文本区域进行字符分割后获得每个字符的标注框；将文本区域中各个标注框的坐标转换至待检测文本图像后输出字符文本检测结果。本发明实施例通过挖掘文待检测文本图像中每个字符的区域概率以及字符之间的连接概率来进行字符分割，实现了字符级的文本检测，有效提高了针对不规则形状文本或者过长文本的检测准确性。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机电子设备（可以是个人计算机，服务器，或者网络电子设备等）执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够"、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供一种基于分割的文本检测方法、装置、系统及介质的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孙悦;李天驰;王帅;
专利申请人：深圳点猫科技有限公司;

上一篇：一种高阻隔农药瓶及其制备方法
下一篇：值域数据匹配方法、装置、存储介质及电子设备