目标检测方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 11:29:13

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

随着便携设备、手机终端等电子设备相比以往更智能化，芯片的解析能力更强，可以通过计算机视觉技术对图文信息、视频信息等进行高效的解析，并对图文信息、视频信息等中的目标对象进行检测。

以目标对象为文本对象为例，文本检测的主要目的是定位文本行或字符在图像中的位置，由于文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，尤其是还存在大量密集文本，导致采用通用的目标检测方法无法得到很好的定位效果，因此，目标检测准确率不高。

发明内容

本申请提供了一种目标检测方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种目标检测方法，包括：

将第一文本图像基于特征提取模块进行特征提取，得到特征图像；

将所述特征图像输入第一检测模块，得到内缩文本区域的概率图及文本区域的阈值图；

将所述特征图像输入第二检测模块，得到用于表征像素是否属于文本区域概率的得分图及用于表征回归处理所需文本区域坐标的回归预测图；

将基于所述内缩文本区域的概率图、所述文本区域的阈值图、所述得分图及所述回归预测图训练得到的检测网络作为目标检测网络；

根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

根据本申请的另一方面，提供了一种目标检测装置，包括：

特征提取分支模块，用于将第一文本图像基于特征提取模块进行特征提取，得到特征图像；

第一检测分支模块，用于将所述特征图像输入第一检测模块，得到内缩文本区域的概率图及文本区域的阈值图；

第二检测分支模块，用于将所述特征图像输入第二检测模块，得到用于表征像素是否属于文本区域概率的得分图及用于表征回归处理所需文本区域坐标的回归预测图；

目标检测网络确定模块，用于将基于所述内缩文本区域的概率图、所述文本区域的阈值图、所述得分图及所述回归预测图训练得到的检测网络作为目标检测网络；

目标检测处理模块，用于根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

采用本申请，可以将第一文本图像基于特征提取模块进行特征提取，得到特征图像；将所述特征图像输入第一检测模块，得到内缩文本区域的概率图及文本区域的阈值图；将所述特征图像输入第二检测模块，得到用于表征像素是否属于文本区域概率的得分图及用于表征回归处理所需文本区域坐标的回归预测图；将基于所述内缩文本区域的概率图、所述文本区域的阈值图、所述得分图及所述回归预测图训练得到的检测网络作为目标检测网络；根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。由于是在特征提取后通过多个检测分支（即将特征图像分别输入第一检测模块和第二检测模块再次运算）得到用于目标检测的多个对比图（即内缩文本区域的概率图、文本区域的阈值图、得分图及回归预测图），从而，由该多个对比图训练得到的目标检测网络进行文本区域的检测，可以解决目前采用通用的目标检测方法定位效果差的问题，可以精确定位出文本区域，因此，目标检测准确率高。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的目标检测方法的流程示意图；

图2是根据本申请实施例的一应用示例中在二值图上使用回归框的密集文本检测的流程示意图；

图3是根据本申请实施例的目标检测装置的组成结构示意图；

图4是用来实现本申请实施例的目标检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等，文本检测的主要目的是定位文本行或字符在图像中的位置，文本的精准定位既十分重要又具备挑战，因为相较于通用目标检测来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，往往在通用目标检测上较为成功的算法无法直接迁移到文字检测中，但近年来随着深度学习的再次兴起，对文本检测的研究也成为了一大热点，出现了如下专门用于文本检测的方法。

一、基于滑动窗口的文本检测方法

该方法主要是基于通用目标检测的思想，设置大量具有不同的长宽比及不同大小的锚点框，并以这些锚点框为滑动窗口，在图像上进行遍历搜索、或者在基于图像进行卷积操作所得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定。这类基于滑动窗口的文本检测方法，其优点是在文本框判定之后，不需要其余的后续便可进行后续工作，缺点是计算量过大，不仅需要耗费大量计算资源，而且耗时较长。

二、基于计算连通域的方法

该方法主要是基于分割思想，先使用全卷积神经网络模型提取图像特征，然后对特征图进行二值化处理，并计算其连通域，然后相应于不同的应用场景，采用不同应用场景适用的训练数据集来判断文本行的位置。这类基于计算连通域的方法，其优点是计算快速，计算量小，缺点是后处理步骤繁琐，涉及大量的计算和调优，这不仅会消耗大量时间，同时，后处理策略是否合理有效也严格制约着算法的性能。

根据本申请的实施例，提供了一种目标检测方法，图1是根据本申请实施例的目标检测方法的流程示意图，该方法可以应用于目标检测装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行特征提取、目标检测等等。其中，终端可以为用户设备（UE，User Equipment）、移动设备、蜂窝电话、无绳电话、个人数字处理（PDA，Personal Digital Assistant）、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

S101、将第一文本图像基于特征提取模块进行特征提取，得到特征图像。

一示例中，该特征提取模块包括骨干网络模块及特征增强融合（FPEM）模块的情况下，可以将该第一文本图像输入所述骨干网络模块进行特征提取，得到多个特征向量，将所述多个特征向量经至少一个所述FPEM模块再次进行特征提取、上采样及串联处理后，得到所述特征图像。其中，所述FPEM模块可以由特征金字塔增强模块（Feature PyramidEnhancement Module，PFEM）和特征融合模块（Feature Fusion Module，FFM）组成，FPEM模块在执行分割处理时可以是可级联的U形模块，可引入多级信息及指导更好的分割。

S102、将所述特征图像输入第一检测模块，得到内缩文本区域的概率图及文本区域的阈值图。

一示例中，该第一检测模块采用可微分二值化（DB，Real-time Scene TextDetection with Differentiable Binarization）模型的情况下，将所述特征图像输入所述DB模型进行卷积及反卷积处理，输出多通道的特征图像，该多通道的特征图像中，第一通道输出的特征图像为所述内缩文本区域的概率图，第二通道输出的特征图像为所述文本区域的阈值图。

S103、将所述特征图像输入第二检测模块，得到用于表征像素是否属于文本区域概率的得分图及用于表征回归处理所需文本区域坐标的回归预测图。

一示例中，该第二检测模块采用场景文本检测（EAST，An Efficient andAccurate Scene Text Detector）模型的情况下，将所述特征图像输入EAST模型进行卷积及反卷积处理，输出一组第一特征映射数据，将所述第一特征映射数据进行第一卷积处理，得到所述得分图，将所述第一特征映射数据进行第二卷积处理，得到所述回归预测图。其中，针对第一特征映射数据而言，在执行特征映射的过程中，是通过降维处理，将高维多媒体数据的特征向量映射到一维或者低维空间中。

S104、将基于所述内缩文本区域的概率图、所述文本区域的阈值图、所述得分图及所述回归预测图训练得到的检测网络作为目标检测网络。

一示例中，可以将该内缩文本区域的概率图、该文本区域的阈值图、该得分图及该回归预测图作为样本数据进行网络训练，以将训练得到的检测网络作为最终使用的目标检测网络。

S105、根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

一示例中，基于上述S101-S104，可以针对第一文本图像的特征提取及多检测分支的处理得到相应的上述样本数据，从而得到最终使用的目标检测网络，在本S105中使用该目标检测网络的过程中，是可以任意选取一个第二文本图像，其中，第二文本图像中可以包括一行或多行的文本行，文本行不限于英文字符、中文字符、或者中英文混合字符，还可以是非字符的符号等等，使用该目标检测网络可以检测出一行或多行的文本行及其所包含的文本内容。

采用本申请，由于是在特征提取后通过多个检测分支（即将特征图像分别输入第一检测模块和第二检测模块再次运算）得到用于目标检测的多个对比图（即内缩文本区域的概率图、文本区域的阈值图、得分图及回归预测图），从而，由该多个对比图训练得到的目标检测网络进行文本区域的检测，可以解决目前采用通用的目标检测方法定位效果差的问题，可以精确定位出文本区域，因此，目标检测准确率高。

一实施方式中，还包括：基于所述第一检测模块进行检测处理所对应第一检测分支的输出，与所述基于所述第二检测模块进行检测处理所对应第二检测分支的输出结合在一起进行训练；其中，将所述第一检测分支输出的所述内缩文本区域的概率图及所述文本区域的阈值图采用第一损失函数（即为 DB模型对应的损失函数）进行训练，将所述第二检测分支输出的所述得分图及所述回归预测图采用第二损失函数（即为EAST模型对应的损失函数）进行训练；根据所述第一损失函数和所述第二损失函数得到总损失函数，根据所述总损失函数的反向传播得到所述目标检测网络。采用本实施方式，可以针对密集文本检测，结合像素聚合网络（PAN，Efficient and Accurate Arbitrary-Shaped Text Detectionwith Pixel Aggregation Network）技术、EAST模型和DB模型三者的优势，具体的，可以先通过PAN技术中使用2个FPEM模块进行特征提取，然后分别通过2个检测分支（如DB模型所在的第一检测分支和EAST模型所在的第二检测分支），以得到该第一检测分支对应的内缩文本区域的概率图及文本区域的阈值图，及该第二检测分支对应的得分图和回归分支，以便结合该第一检测分支和该第二测分支进行联合训练，最终通过所得到的总损失函数的反向传播得到最终使用的目标检测网络，从而，通过联合训练得到的该目标检测网络可以实现更精确的目标检测。

对上述PAN技术、EAST模型和DB模型三者各自的优势介绍如下：

一：PAN技术是以Resnet18为基础网络骨架，通过Resnet18对输入图像进行特征提取，以得到纹理、边缘、角点和语义信息等特征，这些特征由4组大小不同的多通道特征映射表征。然后将提取得到的特征经过2个FPEM模块进行处理，比如，通过FPEM模块执行结合卷积、反卷积和批归一化相结合的处理。再次提取纹理、边缘、角点和语义信息等特征，最后通过在输出特征图上进行上采样得到一个6通道的特征映射。

针对6通道的特征映射而言，第一个通道的特征图是表示文本行区域的概率图，二值化后计算连通域，可以得到具体的文本行区域；第二个通道的特征图是表示文本行区域按照一定的规则与比例内缩后的文本行区域的概率图，二值化后计算连通域，可以得到具体的内缩文本行区域；将剩余的4个通道联合起来，表示特征图大小的4维特征向量，然后使用聚类的方法，结合文本区域图和内缩文本区域图，通过计算每个像素点位置的4维特征向量与聚类中心点的距离，判断出现在文本区域却未出现在内缩文本区域的像素点具体属于哪一个文本区域。

需要指出的是，不限于上述2个FPEM模块的处理，选择2个FPEM模块的好处是：可以用最少的时间成本提取到更为准确的特征。2个FPEM模块中的每个FPEM模块所做的处理是相同的，将提取得到的特征经过每个FPEM模块进行处理具体包括：对上一步基于Resnet18提取得到的4组大小不同的多通道特征映射，按照从大到小的，从前往后的次序进行特征映射，可以依次称为正向第一、正向第二、正向第三、正向第四组特征映射。先对正向第四组特征映射进行2倍的上采样处理，即将其大小扩大2倍；然后将其与正向第三组特征映射按照通道逐点相加，对逐点相加结果进行一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作，得到的结果称为反向第二组特征映射；相应的，将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射；然后将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于反向第三组特征映射和正向第一组特征映射，得到反向第四组特征映射，同时将正向第四组特征映射视为反向第一组特征映射，由此得到4组反向特征映射；将第四组反向特征映射作为目标第一组特征映射，对目标第一组特征映射进行 2倍的下采样处理，即大小缩小2倍；然后将其与反向第三组特征映射按通道逐点相加，对逐点相加结果进行一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作，得到的结果称为目标第二组特征映射；相应的，将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于目标第二组特征映射和反向第二组特征映射，得到目标第三组特征映射；然后将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于目标第三组特征映射和反向第一组特征映射，得到目标第四组特征映射，最终，将上述目标第一、目标第二、目标第三和目标第四组特征映射作为该第一个FFEM模块的输出，第2个FFEM模块是以第一个FFEM模块的输出作为输入，进行如上述该第一个FFEM模块同样的操作，以得到第二个FFEM模块的输出。

二：DB模型也是以上述Resnet18为基础网络架构，通过Resnet18对输入图像提取特征，然后将提取到的特征图全部上采样到原始图像的四分之一大小并串联起来，然后经过一次卷积操作，得到一个2通道的特征映射图作为输出。

针对2通道的特征映射图而言，第一个通道表示内缩文本区域的概率图；第二个通道表示文本区域的阈值图，其中，对于每个像素点距离真实的文本区域框的距离进行了归一化操作，该距离可以采用0到1之间的任意数值。还设计了一个可微分的二值化函数，此二值化函数的参数是可以跟随网络进行学习的，然后根据阈值图和概率图可以计算出此图像文本区域的二值图，在二值图上计算连通域，可以得到内缩文本区域，接着按照一定的规则和比例将内缩文本区域向外扩，由此得到真实文本区域。

三、EAST模型是一种基于回归的文本检测模型，可以直接从完整的图像中预测文本实例的存在及其几何特征，它的输出包括两个分支，第一个是像素值在[0，1]范围内的得分图，其值表示每个像素是否属于文本区域的概率；第二个分支是回归分支预测图，它可以为文本区域生成两种几何图形的候选预测边界框，比如旋转框（RBOX）或四边形框（QUAD）。在得到得分图和旋转框后，采用后处理算法对每个像素进行阈值化处理，以得到得分超过预定置信阈值的文本区域。由于这些区域被认为是有效的，因此，在每个像素位置会预测一个文本框，后续通过局部感知非极大抑制（LNMS）算法将同一片文本区域的像素点预测的所有候选预测边界框，组合成一个最终的预测边界框，以用来表示该文本区域。最终，将LNMS后处理的输出结果作为整个文本检测算法的最终输出。

可见：上述PAN技术、DB模型和EAST模型各有优势，其中，PAN技术由于使用FPEM模块，其提取特征的优势更加明显，而DB模型的后处理比PAN技术更为简单，所以DB模型的后处理操作更快；EAST模型与PAN技术和DB模型的思路不同，虽然其速度更快，后处理也较为简单，但是对于较宽或较长文本区域的检测能力较弱，导致边缘回归效果较差。

在一些开放的场景文本检测数据集上，如每张图像包括4到5个文本框的情况，采用上述PAN技术、DB模型和EAST模型的检测速度和检测结果基本上相差无几，但是，针对文本非常密集的实际应用场景，比如小学生的算术练习册上一张图像上有至少100个文本区域的情况，由于至少100个文本区域导致的密集文本效应，导致可能出现文本粘连等情况，采用PAN技术和DB模型无法很好的解决对这些密集文本的目标检测。

对于上述密集文本情况，考虑时间成本及检测准确率的综合效果，可以结合上述PAN技术、DB模型和EAST模型三者的优势，即：在骨干网络中将PAN技术的2个FPEM模块运用于DB模型和EAST模型的检测中，同时，将DB模型和EAST模型执行检测的最终输出进行合并，以联合训练出目标检测网络。一示例中，可以基于该目标检测网络实现在二值图上使用回归框得到真实文本区域的全新后处理的筛选以得到目标回归框的方法，不仅提升了密集文本检测的性能，同时保证了密集文本检测的速度，兼顾到时间成本及检测准确率。

一实施方式中，还包括：将所述文本区域的阈值图进行二值化处理，得到文本框二值图；将所述得分图进行二值化处理，得到得分二值图；根据所述得分二值图和所述回归预测图，得到回归框；将落在所述文本框二值图上的回归框作为待比较对象，基于回归框的交并比运算从所述待比较对象中筛选出目标回归框。采用本实施方式，还可以基于二值化的处理，从作为该待比较对象的多个回归框中筛选出最终的目标回归框，从而提高目标检测的精确度。

针对上述结合上述PAN技术、DB模型和EAST模型三者优势的一示例中，包括如下内容：

①在骨干网络中将PAN技术的FPEM模块运用于DB模型的第一检测分支和EAST模型的第二检测分支之前的特征提取过程中，具体可以是对输入图像进行卷积操作，提取特征，然后将提取到的特征使用2次FPEM模块进行处理，对处理之后的特征图像全部上采样到原图大小，并进行串联。

②分别使用2个检测分支，即：DB模型所在的第一检测分支及EAST模型的第二检测，可以并行的同步执行多分支检测，或者分时的异步多分支检测。之后，将DB模型和EAST模型的最终输出进行合并，以便后续可以实现在二值图上使用回归框得到真实文本区域。

③在第一检测分支中，具体可以是对串联后的特征图像进行一次卷积，两次反卷积操作，得到一个2通道的输出特征图像，其中，第一个通道表示内缩文本区域的概率图，第二个通道表示文本区域的阈值图。

④在第二检测分支中，具体可以是对串联后的特征图像进行一次卷积操作，两次反卷积操作，得到一组32通道的特征映射，然后在对这组特征映射进行一次卷积操作，得到一个1通道的特征映射图（如上述得分图），其表示像素是否属于文本区域的概率；相应的，对上述那组32通道的特征映射也做一次卷积操作，得到一个5通道或8通道的特征映射图（如回归分支预测图），其表示回归的文本框坐标（文本框坐标的数量取决于回归框的数量情况），可以据此文本框坐标为文本区域生成两种几何图形的候选预测边界框。

⑤在训练阶段，对于第一检测分支的输出，可以使用DB模型对应的损失函数，对于第二检测分支的输出，可以使用EAST模型对应的损失函数，总的损失函数为DB模型对应损失函数加上EAST模型对应的损失函数，通过该总的损失函数来实现多任务的联合训练学习，最终训练好的目标检测模型更为精确，使用该目标检测网络进行目标检测，可以提高对密集文本的文字检测。其中，对第一检测分支中上述第一通道表示的内缩文本概率图和上述第二通道表示的文本区域阈值图进行处理的过程中，可以分别使用Dice Loss函数和平滑L1损失函数对这两个通道进行训练，二值化后可以得到内缩文本区域二值图。而对于第二检测分支，EAST模型所使用的损失函数可以使用Dice Loss函数或平滑L1损失函数进行训练。

⑥在测试阶段，对第一检测分支得到的文本区域阈值图根据设定的第一阈值进行二值化处理，得到文本框二值图，其中可能存在两个边框有重叠或相交的情况；然后对第二检测分支得到的得分图根据设定的第二阈值（考虑到该得分图上每个像素点的值表示其是否属于文本概率，从而可以将该设定的第二阈值设置的比第一阈值高的多，以筛选掉大部分的点）进行二值化处理，得到得分二值图；然后，根据第二检测分支其他通道的输出，可以知道得分图二值化后剩下的每个像素点对应的回归框。

其中，相比于在EAST模型使用LNMS进行处理的方式，不仅耗时且效果不好，本示例中，可以通过得分图二值化处理除去大量的回归框后，对剩下的回归框与文本框二值图做当前处理：如果回归框的四条边全部落在文本框二值图上值为1的像素点上，那么保留这个框；最后，对于所有留下的回归框，判断其是否相交，对于相交的框，如果其交并比超过0.8（指定的较高的阈值），那么只保留一个，至此，得到全部文本框。

采用本示例，相比于只采用DB模型和PAN技术，有效的解决了粘连文本的问题，相比于只采用EAST模型，提高了其检测长文本的能力，且得到目标检测模型后的应用过程（即后处理过程）相比只采用PAN技术、DB模型及EAST模型的应用过程，本示例的应用过程更加简单高效。

应用示例：

图2是根据本申请实施例的一应用示例中在二值图上使用回归框的密集文本检测的流程示意图，该流程包括如下内容：

第一步，将密集文本图像输入Resnet18网络，进行特征提取。

第二步，将第一步提取到的特征，经过两个FPEM模块，再次提取特征，并得到与所提取特征对应的4组特征映射的特征图。

第三步，将第二步得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小，并串联在一起。

第四步，将第三步得到特征映射进行一次卷积操作，两次反卷积操作，输出特征映射通道为2，特征映射大小与原图大小一致的特征映射图，其中，第一个通道表示内缩文本区域的概率图，第二个通道表示文本区域的阈值图（所谓文本区域的阈值图，可以用于指代文本的边框）。

第五步，将第三步得到的特征映射进行一次卷积操作，两次反卷积操作，输出特征映射通道为32，特征映射大小与原图大小一致的一组特征映射图。

需要指出的是，通过上述一次卷积操作及两次反卷积操作得到的特征相比上述第一步得到的特征及第二步得到的特征是更为精确的，若以上述第一步得到的特征记为特征1，第二步得到的特征记为特征2，则本步骤得到的该特征可以记为特征3。

第六步，对第五步得到的特征映射进行一次卷积操作（即对上述32通道的一组特征映射进行卷积操作），得到与原图大小一致的1通道特征映射，表示得分图。

第七步，对第五步得到的特征映射进行一次卷积操作（即对上述32通道的一组特征映射进行卷积操作），得到与原图大小一致的5通道（或8通道）的特征映射，以表示回归框的坐标偏移。

需要指出的是，如果预测的是旋转框（RBOX），那么就是上述5通道，分别表示当前像素点距离文本框上下左右的距离以及文本框的旋转角度；如果预测的是四边形框（QUAD），那么就是上述8通道，分别表示四边形框的4个顶点坐标。

第八步，在训练阶段，第四步的输出使用DB的损失函数，第六步和第七步的输出使用EAST的损失函数，考虑到多任务的学习方式，最终采用的总的损失函数为DB的损失函数加上EAST损失函数。

第九步，在测试阶段，对第四步得到的文本区域阈值图按照设定阈值进行二值化处理，得到文本框二值图。

第十步，对第六步得到的得分图按照设定的高阈值进行二值化，得到得分二值图。

第十一步，将第十步的得分二值图与第七步的输出相结合，得到得分二值图上每个值为1的像素点对应的回归框。

第十二步，根据第九步得到的文本框二值图，判断第十一步得到的回归框是否落在文本框二值图上，记录落在其上的回归框。

第十三步，对于第十二步得到的回归框中相交的回归框，判断其交并比值是否大于设定的较高阈值，若大于，则滤除该框，否则保留该框。

本申请提供了一种目标检测装置，图3是根据本申请实施例的目标检测装置的组成结构示意图，如图3所示，所述装置包括：特征提取分支模块41，用于将第一文本图像基于特征提取模块进行特征提取，得到特征图像；第一检测分支模块42，用于将所述特征图像输入第一检测模块，得到内缩文本区域的概率图及文本区域的阈值图；第二检测分支模块43，用于将所述特征图像输入第二检测模块，得到用于表征像素是否属于文本区域概率的得分图及用于表征回归处理所需文本区域坐标的回归预测图；目标检测网络确定模块44，用于将基于所述内缩文本区域的概率图、所述文本区域的阈值图、所述得分图及所述回归预测图训练得到的检测网络作为目标检测网络；目标检测处理模块45，用于根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

一实施方式中，所述特征提取分支模块，用于在所述特征提取模块包括骨干网络模块及FPEM模块的情况下，将所述第一文本图像输入所述骨干网络模块进行特征提取，得到多个特征向量，将所述多个特征向量经至少一个所述FPEM模块再次进行特征提取、上采样及串联处理后，得到所述特征图像。

一实施方式中，所述第一检测分支模块，用于所述第一检测模块采用DB模型的情况下，将所述特征图像输入所述DB模型进行卷积及反卷积处理，输出多通道的特征图像；所述多通道的特征图像中，第一通道输出的特征图像为所述内缩文本区域的概率图，第二通道输出的特征图像为所述文本区域的阈值图。

一实施方式中，所述第二检测分支模块，用于所述第二检测模块采用EAST模型的情况下，将所述特征图像输入EAST模型进行卷积及反卷积处理，输出一组第一特征映射数据；将所述第一特征映射数据进行第一卷积处理，得到所述得分图；将所述第一特征映射数据进行第二卷积处理，得到所述回归预测图。

一实施方式中，还包括训练模块，用于基于所述第一检测模块进行检测处理所对应第一检测分支的输出，与所述基于所述第二检测模块进行检测处理所对应第二检测分支的输出结合在一起进行训练；其中，将所述第一检测分支输出的所述内缩文本区域的概率图及所述文本区域的阈值图采用第一损失函数进行训练，将所述第二检测分支输出的所述得分图及所述回归预测图采用第二损失函数进行训练；根据所述第一损失函数和所述第二损失函数得到总损失函数，根据所述总损失函数的反向传播得到所述目标检测网络。

一实施方式中，还包括筛选模块，用于将所述文本区域的阈值图进行二值化处理，得到文本框二值图；将所述得分图进行二值化处理，得到得分二值图；根据所述得分二值图和所述回归预测图，得到回归框；将落在所述文本框二值图上的回归框作为待比较对象，基于回归框的交并比运算从所述待比较对象中筛选出目标回归框。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是用来实现本申请实施例的目标检测方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图4中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的目标检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的目标检测方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的目标检测方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的目标检测方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

目标检测方法的电子设备，还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王翔;秦勇;
专利申请人：北京世纪好未来教育科技有限公司;

上一篇：物联网缺失数据的填充方法及系统
下一篇：一种用于流场视频和气动载荷测量的组合式腔体