掌桥专利:专业的专利平台
掌桥专利
首页

文本检测方法、装置、电子设备及计算机可读存储介质

文献发布时间:2023-06-19 12:14:58


文本检测方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域,尤其涉及文本检测方法、装置电子设备及计算机可读存储介质。

背景技术

文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、文字识别,身份认证和视觉导航等,文本检测的主要目的是定位文本行或字符在图像中的位置,文本的精准定位既十分重要又具备挑战,因为相较于通用目标检测来说,文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点,因此,往往在通用目标检测上较为成功的算法无法直接迁移到文字检测中。

发明内容

根据本公开的一方面,提供了一种文本检测方法,包括:

获取待检测文本图像;

获取所述待检测文本图像的第一特征映射;

将所述第一特征映射输入至特征金字塔增强模块,生成第二特征映射;

对所述第二特征映射进行第一卷积处理,生成预测目标的中心点得分图;

将所述中心点得分图与所述第一特征映射逐通道逐点相乘,得到一组合并特征映射;

对所述一组合并特征映射进行第二卷积处理,生成预测目标的定位得分图;

根据所述定位得分图定位预测目标的中心点;

根据所述中心点定位文本框。

根据本公开的另一方面,提供了一种文本检测装置,包括:

第一获取模块,用于获取待检测文本图像;

第二获取模块,用于获取所述待检测文本图像的第一特征映射;

第一生成模块,用于将所述第一特征映射输入至特征金字塔增强模块,生成第二特征映射;

第二生成模块,用于对所述第二特征映射进行第一卷积处理,生成预测目标的中心点得分图;

第一处理模块,用于将所述中心点得分图与所述第一特征映射逐通道逐点相乘,得到一组合并特征映射;

第二处理模块,用于对所述一组合并特征映射进行第二卷积处理,生成预测目标的定位得分图;第一定位模块,用于根据所述定位得分图定位预测目标的中心点;

第二定位模块,用于根据所述中心点定位文本框。

根据本公开的另一方面,提供了一种电子设备,包括:

处理器;以及

存储程序的存储器,

其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述方面中任一项所述的文本检测方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述方面中任一项所述的文本检测方法。

本申请实施例中提供的一个或多个技术方案,提升了密集文本检测的速度和精度。

附图说明

在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:

图1示出了根据本公开示例性实施例的文本检测方法的流程图;

图2示出了根据本公开示例性实施例的文本检测方法的另一流程图;

图3示出了根据本公开示例性实施例的文本检测装置的示意性框图;

图4示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

近年来随着深度学习的再次兴起,对文本检测的研究也成为了一大热点,出现了大量专用于文本检测的方法,且都取得了不错的检测效果。根据文本检测所用方法的技术特点,目前比较流行的文本检测方法可大致分为两类,第一类是基于滑动窗口的文本检测方法,它主要是基于通用目标检测的思想,设置大量不同长宽比、不同大小的锚点框,以这些锚点框为滑动窗口,在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索,对于每个搜索到的位置框,进行框内是否是文本的分类判定,这种方法的优点是文本框判定之后,不需要其余的后续处理便可进行后续工作,缺点是计算量过大,不仅需要耗费大量计算资源,而且耗时较长;第二类是基于计算连通域的方法,也称基于分割思想的方法,它主要是先使用全卷积神经网络模型提取图像特征,然后对特征图进行二值化并计算其连通域,然后根据不同地应用场景(即不同地训练数据集),使用一些特定的方法,判断文本行位置,这种方法的优点是计算快速,计算量小,缺点是后处理步骤繁琐,涉及大量的计算和调优,这不仅会消耗大量时间,同时后处理策略是否合理有效也严格制约着算法的性能。

对于《Efficient and Accurate Arbitrary-Shaped Text Detection withPixel Aggregation Network》(像素聚合网络,简称为PAN)、《Real-time Scene TextDetection with Differentiable Binarization》(可微分二值化方法,简称为DB)以及《Objects as Points》(简称为CenterNet),其中,PAN是以残差网络Resnet18为基础网络骨架,对输入图像提取纹理、边缘、角点和语义信息等特征,这些特征由4组大小不同的多通道特征映射表征。然后将提取得到的特征经过特征金字塔增强模块(Feature PyramidEnhancement Module,简称为FPEM),FPEM模块将一种结合卷积、反卷积和批归一化相结合的操作,再次提取纹理、边缘、角点和语义信息等特征,最后通过在输出特征图上进行上采样得到一个6通道的特征映射,第一个通道的特征图是表示文本行区域的概率图,二值化后计算连通域,可以得到具体的文本行区域,第二个通道的特征图是表示文本行区域按照一定的规则与比例内缩后的文本行区域的概率图,二值化后计算连通域,可以得到具体的内缩文本行区域,剩余的4个通道联合起来,表示特征图大小为4维特征向量,然后使用聚类的方法,结合文本区域图和内缩文本区域图,通过计算每个像素点位置的4维特征向量与聚类中心点的距离,判断出现在文本区域却未出现在内缩文本区域的像素点具体属于哪一个文本区域。

DB是也是以Resnet18为基础网络架构,对输入图像提取特征,然后将提取到的特征图全部上采样到原始图像的四分之一大小并串联起来,然后经过一次卷积操作,得到一个2通道的特征映射图作为输出,第一个通道表示内缩文本区域的概率图,第二个通道表示文本区域的阈值图,即每个像素点距离真实的文本区域框的距离,进行了归一化操作,距离是0到1之间的数,然后设计了一个可微分的二值化函数,此二值化函数的参数是可以跟随网络进行学习的,然后根据阈值图和概率图可以计算出此图像文本区域的二值图,在二值图上计算连通域,可以得到内缩文本区域,接着按照一定的规则和比例将内缩文本区域向外扩,由此得到真实文本区域。

CenterNet是一种用于通用目标检测的Anchor-free的方法,可视为基于回归的方法,它的大体思路是,首先设定要预测的物体的总体的类别N,最后输出通道数量为N+2+2,它只预测物体的中心点,会为每种类别输出一张得分图,其每个像素点的值在0到1之间,表示这个点是某类物体中心的概率,因此会有N张得分图。因为在预测的过程中,并不能保证预测到的中心点就是真实的中心点,实际中往往会发生偏移,因此还会用两个通道来预测中心点的偏移量,一个是x轴偏移量,一个是y轴偏移量。除此之外,剩下的两个通道用来预测中心点距离矩形框左边框和上边框的距离。实际的后处理为,通过设定阈值在得分图找到物体的可能中心点,然后根据中心点对应的xy偏移量对中心点进行校正,然后通过中心点并结合预测到的宽和高直接得到矩形框。下面对上述所谓的偏移量进行说明:比如说原图的宽和高分别为W和H,最后预测得出的特征图的大小为W/4和H/4,则原图上一个点(10,10)对应于特征图上一个点就是(2.5,2.5),但是图像是离散的且其坐标为整数值,所以向上取整,(10,10)对应(2,2),那么特征图上的中心点相对于原图的偏移量就是(0.5,0.5)。

综上所述,PAN和DB各有优势,其中,PAN由于使用FPEM模块,其前向计算相比DB的前向计算更快,而DB的后处理比PAN更为简单,所以DB的后处理操作更快。在一些开放的场景文本检测数据集上,例如每张图像4到5个文本框,两者的检测速度和检测结果基本上相差无几。但是,针对文本非常密集的实际应用场景,比如一张图像上有100个文本区域,例如小学生的算术练习册,两者的速度受文本框数量的影响非常大,几乎是随着文本框数量的增长,呈线性下降趋势,无法满足实际应用场景的速度需求。但是,实际的密集文本场景下,PAN和DB却又存在着能力过剩的情况,即实际的密集文本多以带角度倾斜矩形文本为主,并不多见长曲文本。其次,CenterNet是一种非常快的通用目标检测算法,针对文本图像这种密集文本场景,它的检测速度几乎不受影响,依然非常快,但是它对密集文本图像检测的精度却十分低,尤其是存在训练不稳定和框漂移问题,导致CenterNet无法应用于密集场景文本检测。CenterNet只预测一个中心点导致的漂移问题可以通过预测一个中心区域来解决,比如像PAN和DB并不在存在漂移问题,但CenterNet相比于其他基于滑动窗口或者分割的方法来说快速的主要优势在于其一个物体只预测一个中心点,所以后处理非常简单,速度非常快。

在本实施例中提供了一种文本检测方法,可用于智能手机,便携式平板电脑(portable android device,简称为PAD)、个人移动数字终端(Personal DigitalAssistant,简称为PDA)等,具有显示、处理和网络连接功能的智能设备(电子设备),应用于教育领域中针对文本非常密集的实际应用场景。图1示出了根据本公开示例性实施例的文本检测方法的流程图,如图1所示,该流程包括如下步骤:

步骤S101,获取待检测文本图像。例如可以是有100个文本区域的图像,如小学生的算术练习册。

步骤S102,获取待检测文本图像的第一特征映射。在一些可选实施例中,与PAN一样,使用Resnet18网络模型作为基础网络模型,将待检测文本图像输入至Resnet18网络模型,得到M组特征映射,将该M组特征映射作为上述第一特征映射,其中该Resnet18网络模型包括M个块串联构建。具体地,收集大量密集文本图像,并用带角度矩形人工进行标注,作为本可选实施例的网络的训练集,构建骨干网络,以Resnet18网络模型作为基础网络模型,Resnet18网络可以由4个block块串联构建,每个block块包括若干层卷积操作,第一个block块输出的特征映射大小为原图的1/4,第二个为原图1/8,第三个为原图1/16,第四个为原图1/32,将得到的4组特征映射,该4组特征映射作为上述第一特征映射。本领域技术人员应当知晓,所述该第一特征映射的获取方式并非用于限制本实施例,根据实际需要而采用其他的第一特征映射的获取方式亦在本实施例的保护范围之内。

步骤S103,将第一特征映射输入至特征金字塔增强模块,生成第二特征映射。具体地,将第一特征映射经过两个FPEM模块之后得到一组特征映射(称为二阶特征映射),接着对二阶特征映射进行信息融合,得到该第二特征映射。

步骤S104,对第二特征映射进行第一卷积处理,生成预测目标的中心点得分图。在一些可选实施例中,得到第二特征映射之后,分为五个分支进行处理,第一个分支对第二特征映射做一次卷积操作,输出大小为原图1/4大小的1通道特征图,表示预测目标的中心点得分图,此处与CenterNet不同,CenterNet是对于每个预测目标只取其中心点所在的像素点作为中心点,在该实施例中取中心点附近半径为例如为3的高斯区域内的所有点作为预测目标的中心点,当然该半径可以根据实际情况灵活选取。

步骤S105,将该中心点得分图与该第一特征映射逐通道逐点相乘,得到一组合并特征映射;

步骤S106,对上述一组合并特征映射进行第二卷积处理,生成预测目标的定位得分图。在一个可选实施例中,该步骤由第五分支执行,将中心点得分图与第一特征映射逐通道逐点相乘,得到一组合并特征映射,对该一组合并特征映射进行第二卷积处理,具体地,将该一组合并特征映射输入神经网络模型进行一次反卷积操作和二次卷积操作,得到该定位得分图,该神经网络模型可以通过使用二分类交叉熵损失函数对一次反卷积层和二次卷积层的参数进行训练得到,该一次反卷积层与该一次反卷积操作对应,该二次卷积层与该二次卷积操作对应。作为一些具体的实现方式,第五个分支首先对骨干网络中Resnet18四个block块输出的4组特征映射,通过上下采样的方式全部变为原图的1/8大小,然后串联叠加,接着将第一个分支的输出缩放到原图1/8大小并与叠加后得到的特征映射逐通道逐点相乘,得到一组合并特征映射,接着在合并特征映射上进行一次反卷积、两次卷积操作,输出大小为原图1/4大小的1通道特征图,表示定位得分图,其上每个像素点的值表示这个像素点是物体唯一中心点的概率(每个物体一个中心点)。

步骤S107,根据定位得分图定位预测目标的中心点。具体地,将定位得分图中大于预设阈值的像素点作为上述中心点。

步骤S108,根据上述中心点定位文本框。

通过上述步骤,同时定位得分图与中心点得分图联合得出中心点的操作,极大提升了中心点预测的精度,进而提升了密集文本检测的速度和精度。

为了更精确的定位文本框,在一些可选实施例中,如图2所示,包括如下步骤:

步骤S201,对第二特征映射进行第三卷积处理,生成预测目标的中心点偏移量。具体地,第二个分支对第二特征映射做一次卷积操作,输出大小为原图1/4大小的2通道特征图,表示中心点偏移量,其中通道1上的每个像素点表示对应位置中心点相对于x方向的偏移量,通道2上的每个像素点表示对应位置中心点相对于y方向的偏移量。

步骤S202,根据该中心点偏移量确定该中心点的坐标,这里可以根据该中心点的坐标定位文本框,或者为使得文本框的定位更准确,继续执行步骤S203。

步骤S203,对第二特征映射进行第四卷积处理,得到预测目标的旋转角度。具体地,第三个分支对第二特征映射做一次卷积操作,输出大小为原图1/4大小的1通道特征图,表示检测文本框的旋转角度,即每个像素点上的值表示其对应目标相对于水平方向的夹角,这是为了应对倾斜文本而增加的。

步骤S204,对第二特征映射进行第五卷积处理,得到预测目标的高度和宽度。具体地,第四个分支对第二特征映射做一次卷积操作,输出大小为原图1/4大小的2通道特征图,表示预测目标的高和宽,通道1上每个像素点的值表示检测文本框的高,通道2上的每个像素点的值表示检测文本框的宽。

步骤S205,根据该中心点的坐标、该旋转角度、该高度和宽度定位该文本框。

在一些可选实施例中,模型训练分两个阶段,第一个阶段中第五个分支不参与训练,只训练前四个分支,与CenterNet一样,第一个分支使用Focal Loss、其他分支均使用Smooth-L1 Loss进行训练,等到第一阶段训练结束,开始第二阶段的训练,第二个阶段的训练只针对第五个分支,同时只更新输出之前的一次反卷积、两次卷积这三个神经网络层的参数,使用二分类交叉熵损失函数进行训练,只有中心点为正,其他点皆为负;在前向阶段,第五个分支的输出与第一个分支的输出逐点相乘,得到最终的中心点得分图,设定阈值,大于阈值的认为是中心点,然后通过偏移量确定中心点在原图上的坐标,根据高、宽、倾斜角直接可以得到对应的文本检测框,所有操作全部在图形处理器(graphics processingunit,简称为GPU)上并行完成,大幅提高了检测速度,同时定位得分图与中心点得分图联合得出中心点的操作,极大提升了中心点预测的精度,进而提升了密集文本检测的速度和精度。

上述步骤S103涉及将第一特征映射输入至特征金字塔增强模块,得到第二特征映射,在一些可选实施例中,将第一特征映射中的N组大小不同的多通道特征映射按照从大到小的次序分为正向第1、2、3…N组特征映射,将正向第N组特征映射作为反向第一组特征映射,将正向第N组特征映射进行上采样之后,与正向第N-1组特征映射按照通道逐点相加并进行第六卷积处理,得到反向第二组特征映射,将反向第二组特征映射进行上采样之后,与正向第N-2组特征映射按照通道逐点相加并进行第七卷积处理,得到反向第二组特征映射,依次对每一组正向特征映射进行同样的操作,得到反向第N组特征映射,将反向第N组特征映射作为目标第一组特征映射,对反向第N组特征映射进行下采样之后,与反向第N-1组特征映射按照通道逐点相加并进行第八卷积处理,得到目标第二组特征映射,将该目标第二组特征映射进行下采样之后,与反向第N-2组特征映射按照通道逐点相加并进行第九卷积处理,得到目标第二组特征映射,依次对每一组反向特征映射进行同样的操作,得到目标第N组特征映射,将该目标第N组特征映射作为该第二特征映射;N为正整数。具体地,在本可选实施例中选择2个FPEM模块,因为在发明人的实验结果中,2个能达到最好的效果。每个FPEM模块所做的处理是相同的,具体细节是对得到的4组大小不同的多通道特征映射,按照从大到小的,从前往后的次序,依次称为正向第一、正向第二、正向第三、正向第四组特征映射,先对正向第四组特征映射进行2倍上采样,即将其大小扩大2倍,然后将其与正向第三组特征映射按照通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征映射,同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射,然后同样的操作作用于反向第三组特征映射和正向第一组特征映射,得到反向第四组特征映射,同时将正向第四组特征映射视为反向第一组特征映射,由此得到4组反向特征映射;将第四组反向特征映射作为目标第一组特征映射,然后对目标第一组特征映射进行2倍下采样,即大小缩小2倍,然后将其与反向第三组特征映射按通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征映射,同样的操作作用于目标第二组特征映射和反向第二组特征映射,得到目标第三组特征映射,然后同样的操作作用于目标第三组特征映射和反向第一组特征映射,得到目标第四组特征映射,目标第一、目标第二、目标第三和目标第四组特征映射便是FFEM模块的输出;第2个FFEM模块是以第1个FFEM模块的输出作为输入,进行同样的操作,得到输出作为第二组特征映射。

PAN和DB都是专门用于文本检测、基于分割的算法,通过预测整个内缩文本区域定位文本框,没有文本漂移的现象。同时PAN的骨干网络(backbone)是专门为文本检测设计的,这与其他文本检测算法使用一些为分类或识别等任务设计的骨干网络不同。CenterNet是一种基于无锚点(Anchor-free)的通用目标检测方法,它的骨干网络是为人体关键点检测设计的或者是为自然场景物体检测或分类设计的,它输出的检测框主要是正矩形,它无法直接用于密集、细长且带角度的倾斜文本检测。同时CenterNet对一个物体只预测一个中心点,即只用一个像素点作为其中心点,尽管CenterNet在通用目标检测时也可能因为中心点漂移(预测不准)出现检测框漂移,但这不会影响检测效果,因为漂移的幅度不大。基于此,本可选实施例结合上述三者的优势,CenterNet如果预测中心区域那么就可以消除框漂移,但是对于同一物体又会带来多个检测框,又需要进行非极大值抑制(Non-MaximumSuppression,简称为NMS),NMS过程复杂需要在CPU上进行,比较耗时,本可选实施例用一个分类操作从中心区域中选出一个中心点,那么相当于CenterNet加了一个中心点优选,从而实现精度、速度双重提升。

在本实施例中还提供了一种文本检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种文本检测装置300,如图3所示,包括:

第一获取模块301,用于获取待检测文本图像;

第二获取模块302,用于获取所述待检测文本图像的第一特征映射;

第一生成模块303,用于将所述第一特征映射输入至特征金字塔增强模块,生成第二特征映射;

第二生成模块304,用于对所述第二特征映射进行第一卷积处理,生成预测目标的中心点得分图;

第一处理模块305,用于将所述中心点得分图与所述第一特征映射逐通道逐点相乘,得到一组合并特征映射;

第二处理模块306,用于对所述一组合并特征映射进行第二卷积处理,生成预测目标的定位得分图;第一定位模块307,用于根据所述目标的定位得分图定位预测目标的中心点;

第二定位模块308,用于根据所述中心点定位文本框。

本实施例中的文本检测装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。

本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图4,现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示,电子设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405,包括:输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备,输入单元406可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如,在一些实施例中,文本检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本检测方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

相关技术
  • 文本检测方法、装置、电子设备及计算机可读存储介质
  • 文本检测方法、装置、电子设备及计算机可读存储介质
技术分类

06120113228026