掌桥专利:专业的专利平台
掌桥专利
首页

一种密集场景文本检测与识别方法

文献发布时间:2024-04-18 19:58:30


一种密集场景文本检测与识别方法

技术领域

本发明涉及文本识别技术领域,具体涉及一种密集场景文本检测与识别方法。

背景技术

场景文本检测与识别技术是人工智能领域飞速发展的一个分支。常规场景文本检测与识别任务的目的就是通过检测和识别从复杂的自然场景图像中找出所有的文本实例,在确定它们在图像中位置的同时还要对文本内容进行转录,以此来获取文本信息。这对图像检索、自动驾驶、盲人辅助等大量现实世界应用具有重要价值。

随着深度神经网络强大的表示能力,场景文本检测与识别近年来取得了良好的进展。然而,由于密集场景中的文本具有位置分布随机、大小形状多变、字体和颜色丰富、语言类型多样等特点,数据变化所揭示的不同模式,以及实际应用所需的苛刻条件,在密集场景中进行文本识别仍然是一个巨大的挑战,是计算机视觉领域的核心问题之一。

目前,完成对密集场景文本检测与识别的方法,一类是基于深度学习网络将检测和识别视为两个独立的任务,遵循传统的流水线方法将文本检测和识别过程分开处理。其中训练好的文本检测器用于生成文本提议,然后将文本提议放入文本识别器得到结果。但是,由于识别的结果极度依赖检测的准确性,误差累积现象十分严重。另一类是利用Transformer的全局建模的优势端到端地准确检测和识别自然场景文本。但对于包含极端纵横比、数量较多、弯曲和其他困难情况的密集场景文本,会普遍出现漏检误检的情况,很难获得令人满意的结果。

发明内容

本发明的目的在于克服上述技术不足,提供一种密集场景文本检测与识别方法,解决现有技术中密集场景文本检测与识别方法准确度低、容易出现漏检误检的技术问题。

为达到上述技术目的,本发明采取了以下技术方案:

第一方面,本发明提供了一种密集场景文本检测与识别方法,包括如下步骤:

获取公共数据集以及密集文本图像数据集;

建立基于词长感知Transformer的深度学习网络模型,采用所述公共数据集对所述深度学习网络模型进行预训练,以生成初始识别模型;其中,所述深度学习网络模型由编码器和含有多个动态头的解码器组成,用于实现文本检测特征与识别特征的提取、多尺度语义信息的融合、文本边界框信息的预测和字符序列的预测,所述深度学习网络模型使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的区域,且保留有词长感知实例分割建议头;

采用所述密集文本图像数据集对所述初始识别模型进行训练,以优化所述初始识别模型后,生成密集场景文本检测和识别协同模型;

获取待识别密集场景文本图像,将所述待识别密集场景图像输入至所述密集场景文本检测和识别协同模型中,以得到识别结果。

在一些实施例中,所述密集文本图像数据集的数据来源包括:

图像处理后的自制数据集图像、公共数据集中选取的密集场景文本图像、合成数据集图像以及数据增强处理后的图像。

在一些实施例中,所述深度学习网络模型在检测和识别阶段使用相同的带有多个动态头的解码器对同一组文本查询进行解码。

在一些实施例中,所述深度学习网络模型按照功能划分为特征融合层、查询迭代层、匹配输出层三个部分,其中,所述特征融合层用于对输入图像进行多尺度特征提取,并使用初始化的文本边界框信息对多尺度特征进行感兴趣区域对齐,融合不同尺度的图像特征;所述查询迭代层用于通过带有动态头的解码器利用融合特征对文本查询进行多轮迭代更新,得到精细化的文本查询信息;所述匹配输出层用于将识别器使用文本查询信息和多尺度融合信息对最佳匹配的文本实例提议进行字符序列预测,得到密集场景文本图像检测与识别的最终输出。

在一些实施例中,所述深度学习网络模型还包括文本字长先验计数信息预测损失函数,所述文本字长先验计数信息预测损失函数的计算公式为:

其中,L

在一些实施例中,所述深度学习网络模型还包括字长感知实例分割损失函数,所述字长感知实例分割损失函数的计算公式为:

其中,L

在一些实施例中,所述密集场景文本检测与识别方法还包括:

在建立基于词长感知Transformer的深度学习网络模型后,对所述深度学习网络模型的超参数进行调整;其中,所述超参数至少包括文本查询迭代次数、学习率、动态解码器的头数、dropout率、损失权重因子。

第二方面,本发明还提供一种密集场景文本检测与识别装置,包括:

数据获取模块,用于获取公共数据集以及密集文本图像数据集;

第一模型训练模块,用于建立基于词长感知Transformer的深度学习网络模型,采用所述公共数据集对所述深度学习网络模型进行预训练,以生成初始识别模型;其中,所述深度学习网络模型由编码器和含有多个动态头的解码器组成,用于实现文本检测特征与识别特征的提取、多尺度语义信息的融合、文本边界框信息的预测和字符序列的预测,所述深度学习网络模型使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的区域,且保留有词长感知实例分割建议头;

第二模型训练模块,用于采用所述密集文本图像数据集对所述初始识别模型进行训练,以优化所述初始识别模型后,生成密集场景文本检测和识别协同模型;

识别模块,用于获取待识别密集场景文本图像,将所述待识别密集场景文本图像输入至所述密集场景文本检测和识别协同模型中,以得到识别结果。

第三方面,本发明还提供一种电子设备,包括:处理器和存储器;

所述存储器上存储有可被所述处理器执行的计算机程序;

所述处理器执行所述计算机程序时实现如上所述的密集场景文本检测与识别方法中的步骤。

第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的密集场景文本检测与识别方法中的步骤。

与现有技术相比,本发明提供的密集场景文本检测与识别方法,通过设计的基于词长感知Transformer架构的端到端场景文本检测与识别协同方法,利用图像编码器从输入的场景图中提取多尺度图像特征,使用含有多个动态头的解码器迭代更新文本查询,实现检测阶段的信息精炼和识别阶段的损失梯度回流,以达到协同优化检测与识别的目的。同时,该设计能从图像数据中提取特征并且使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的区域;还保留有一个专门的词长感知实例分割建议头,增强了网络模型在不平衡数据分布中捕捉样本特征的能力。设计的密集场景文本检测和识别协同的架构能够稳定实现密集场景文本检测特征与识别特征提取、多尺度语义信息融合、文本边界框信息预测和字符序列预测,提高了密集场景文本检测与识别的精确度,适用于多种现实场景下的密集文本检测与识别,特别是适合需要对密集分布文本进行准确检测与识别的情况。不仅减轻了对图像中复杂背景的干扰,实现专注于场景文本定位的特点,而且还对不平衡文本数据中存在的极端词长文本有较好的定位能力,对于实现精确图像检索、安全自动驾驶、高效盲人辅助等应用领域具有重要的指导意义。

附图说明

图1是本发明实施例提供的密集场景文本检测与识别方法的流程图;

图2是本发明实施例的高精度的密集场景文本检测与识别方法的数据集制备完整流程图;

图3是本发明实施例的高精度的密集场景文本检测与识别方法的深度网络模型搭建及训练的处理流程图;

图4是本发明实施例的高精度的密集场景文本检测与识别方法的模型处理步骤流程图;

图5是本发明实施例的高精度的密集场景文本检测与识别方法的模型架构图;

图6是本发明实施例提供的密集场景文本检测与识别装置的功能模块示意图;

图7是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参阅图1,本发明提供的密集场景文本检测与识别方法,包括如下步骤:

S100、获取公共数据集以及密集文本图像数据集;

S200、建立基于词长感知Transformer的深度学习网络模型,采用所述公共数据集对所述深度学习网络模型进行预训练,以生成初始识别模型;其中,所述深度学习网络模型由编码器和含有多个动态头的解码器组成,用于实现文本检测特征与识别特征的提取、多尺度语义信息的融合、文本边界框信息的预测和字符序列的预测,所述深度学习网络模型使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的区域,且保留有词长感知实例分割建议头;

S300、采用所述密集文本图像数据集对所述初始识别模型进行训练,以优化所述初始识别模型后,生成密集场景文本检测和识别协同模型;

S400、获取待识别密集场景文本图像,将所述待识别密集场景文本图像输入至所述密集场景文本检测和识别协同模型中,以得到识别结果。

本实施例中,通过设计的基于词长感知Transformer架构的端到端场景文本检测与识别协同方法,利用图像编码器从输入的场景图中提取多尺度图像特征,使用含有多个动态头的解码器迭代更新文本查询,实现检测阶段的信息精炼和识别阶段的损失梯度回流,以达到协同优化检测与识别的目的。同时,该设计能从图像数据中提取特征并且使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的区域;还保留有一个专门的词长感知实例分割建议头,增强了网络模型在不平衡数据分布中捕捉样本特征的能力。设计的密集场景文本检测和识别协同的架构能够稳定实现密集场景文本检测特征与识别特征提取、多尺度语义信息融合、文本边界框信息预测和字符序列预测,提高了密集场景文本检测与识别的精确度,适用于多种现实场景下的密集文本检测与识别,特别是适合需要对密集分布文本进行准确检测与识别的情况。不仅减轻了对图像中复杂背景的干扰,实现专注于场景文本定位的特点,而且还对不平衡文本数据中存在的极端词长文本有较好的定位能力,对于实现精确图像检索、安全自动驾驶、高效盲人辅助等应用领域具有重要的指导意义。

在一些实施例中,步骤S100中,所述密集文本图像数据集的数据来源包括:

图像处理后的自制数据集图像、公共数据集中选取的密集场景文本图像、合成数据集图像以及数据增强处理后的图像。

在一些实施例中,所述数据增强处理的方式包括随机缩放、随机旋转、随机裁剪、亮度增强中的一种或多种。

在一些实施例中,所述合成数据集图像的建立方法为:

采用PIL工具包将大量不同字体的文本合成到常规场景图像中,并对所述合成后的图像进行标注后,以得到合成数据集图像。

本实施例中,可以利用图像合成及数据增强手段来制备含有密集文本的场景图像数据集,完成数据集图像正负样本的划分、场景文本图像实例的内容标注和真实框坐标信息的记录,并将设计的文本检测与识别协同架构在合成制备的密集场景文本图像数据集上进行完整地训练。

具体的,可以通过科学的图像合成方法来制备一定数量规模的,含有密集文本的合成图像,或者利用纸质文档和高清工业相机采集并裁剪规范得到真实的密集文本场景图像,或者利用数据增强来得到更多数量的密集文本图像,以此来形成所述的密集场景文本图像数据集。

进一步的,所述密集场景文本图像数据集的制备过程包括:常规阅读电子书准备、纸质阅读材料准备、密集文本图像采集、密集文本图像处理。

示例性的,本发明实施例通过工业摄像头或者相机在不同实体阅读场景中对文本信息进行拍摄,以此来采集密集文本图像;或者从目前存在的公开文本图像数据集TotalText中选取符合需要的高质量文本图像;值得注意的是,所准备的文本图像中的文本实例所包含的字符应当清晰、丰富。或者还可以利用PIL工具包将大量不同字体的文本合成到常规场景图像中,得到一定规模的合成密集文本图像。

进一步的,本发明实施例为了扩充所制备密集场景文本图像数据集的数量规模,也为了让深度网络模型的预训练和训练在大量的图像数据上完成,需要使用数据增强的方法。具体而言,可以通过不同的图像处理方式,例如随机缩放,短尺寸从640到896(间隔32)中进行选择,长尺寸不超过1600;随机旋转,我们使图像在正负90度之间进行旋转;随机裁剪,我们确保裁剪图像不会切割文本实例;亮度增强等,对数据集中的图像数量进行扩充。

进一步的,本发明实施例制备的数据集还需完成对密集场景文本图像数据集的数据集图像正负样本的划分。在通过上述方法制备得到的数据集中确定正负样本的划分,所述图像样本包括:正样本,其包括所述图像中的所有能清晰确定坐标信息以及字符内容的文本实例,且将其视为密集场景文本图像的前景目标部分;负样本,其包括所述场景图像中的极端模糊无法分辨的文本以及非文本背景部分。

进一步的,本发明实施例制备的数据集还需完成对合成数据集图像适当大小区域进行Ground-Truth标注的任务,本发明实施例提供的标注方法有两种包括:一种是根据密集场景文本图像所改动的合成区域所在的位置信息自动生成并记录保存需要标注的真实框坐标位置信息和文本内容转录;另一种是根据文本检测与识别图像数据标注工具PPOCRLabel对所有正样本的坐标位置和字符转录进行人工标注,记录并保存所述的Ground-Truth。

需要说明的是,本发明实施例数据标签的构建规则分两类,一类是构建单词长度先验信息标签,另一类是构建文本实例词长分割图标签。

本实施例中,给定一幅含有Y个文本实例的图像I,其文本词长先验计数标签G

进一步的,本发明实施例中

其中,len()为字符长度计算函数。

进一步的,本发明实施例对一个文本实例的纵横比R进行计算。本发明实施例将纵横比的计算分为两类,一类是水平文本或多方向文本,含有四个坐标点。另一类是弯曲或长文本,含有2n个坐标点,其中,n∈{3,4,5,6,7,8}。为了方便计算,本发明实施例将坐标点按标注习惯,从文本实例的左上角开始进行顺时针标记序号。对于水平文本或多方向文本,横边的计算可以表示为:

其中,L

sin

其中,a,b,c为任意三个点组成的三条边。根据四个点的坐标值计算出纵边与横边形成的四个夹角θ

其中,L

本发明实施例对于含有2n个点的弯曲或长文本,n∈{3,4,5,6,7,8},将其所有坐标点按邻近的四个坐标点组成为一个四边形的规则分为n-1个矩形。然后,对组成的n-1个四边形使用水平或多方向文本实例横边长和纵边长的计算方法,得到n-1个四边形的横边长L

进一步的,本实施例考虑到样本数据的差异,对计算得到的标签进行归一化处理,得到文本词长先验计数预测分支所需要的标签G

进一步的,本发明实施例对于给定的一幅含有Y个文本实例的图像I,其中的每个文本实例都由一个多边形组成,多边形的顶点数n由数据集特性决定。每个文本实例转录的字符数量

具体完整建立密集场景文本图像数据集的流程图如图2所示。

在一些实施例中,所述步骤S200和步骤S300中,设计适用于密集场景文本检测与识别的算法,进行深度神经网络模型的搭建,构建的图像编码器利用适合于全局特征建模的Transformer架构,提取输入图像的多尺度语义特征,使用含有多个动态头的解码器对文本检测过程与文本识别过程进行协同优化。所述的密集场景文本检测和识别协同算法采用二分匹配来对文本查询产生的预测结果和学习数据Ground-Truth进行最佳匹配。检测阶段的边界框损失、文本掩码损失、实例类别损失、词长预测损失均作为匹配的权重参与最佳匹配的过程。

具体来说,本发明实施例应当按照场景需求,设计适用于密集场景文本检测与识别的算法。提供了一种在端到端场景文本检测与识别协同方法的基础上利用Transformer构建密集场景文本检测和识别协同的架构,该架构能够稳定实现密集场景下文本检测特征与识别特征的提取、多尺度语义信息的融合、文本边界框信息的预测和字符序列的预测。

进一步的,本发明实施例所设计的密集场景文本检测和识别协同的架构将文本检测任务视为一个集合预测问题,并将文本检测器中的文本查询迭代更新实现检测阶段的信息精炼和识别阶段的损失梯度回流,端到端的优化密集场景文本检测和识别协同架构。

可选的,本发明实施例所设计的深度神经网络框架可以由常见的Transformer架构和卷积神经网络构建,通过特定的编码器与解码器组合串行顺序连接协同作用,这种网络框架一般具有优异的融合图像局部和全局特征的能力,对处理密集场景文本检测与识别任务会表现出更加显著的优势。

在一些实施例中,本发明实施例通过对密集场景文本图像明显存在的单词长度先验进行约束,使设计的密集场景文本检测和识别协同的架构从图像数据中提取高级语义特征并且使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的文本目标区域。

此外,本发明实施例对密集场景文本图像中字符数小于4或大于10的文本定义为极端词长文本类别进行分割,设计的密集场景文本检测和识别协同的架构保留有一个专门的词长感知实例分割建议头,针对极端词长的文本实例给予更多关注,增强了网络模型在不平衡数据分布中捕捉样本特征的能力。

在一些实施例中,所述深度学习网络模型在检测和识别阶段使用相同的带有多个动态头的解码器对同一组文本查询进行解码。

本实施例中,所述的密集场景文本检测和识别协同的架构在检测和识别阶段使用相同的带有多个动态头的查询解码器对同一组文本查询进行解码,减少网络模型冗余,加强检测与识别之间的协同作用。

在一些实施例中,所述深度学习网络模型按照功能划分为特征融合层、查询迭代层、匹配输出层三个部分,其中,所述特征融合层用于对输入图像进行多尺度特征提取,并使用初始化的文本边界框信息对多尺度特征进行感兴趣区域对齐,融合不同尺度的图像特征;所述查询迭代层用于通过带有动态头的解码器利用融合特征对文本查询进行多轮迭代更新,得到精细化的文本查询信息;所述匹配输出层用于将识别器使用文本查询信息和多尺度融合信息对最佳匹配的文本实例提议进行字符序列预测,得到密集场景文本图像检测与识别的最终输出。

本实施例中,所设计的深度神经网络分为三个部分:特征融合层、查询迭代层、匹配输出层。本发明实施例具体将输入图像进行多尺度特征提取,并使用初始化的文本边界框信息对多尺度特征进行感兴趣区域对齐,融合不同尺度的图像特征;带有动态头的解码器利用融合特征对文本查询进行多轮迭代更新,得到精细化的文本查询信息;将识别器使用文本查询信息和多尺度融合信息对最佳匹配的文本实例提议进行字符序列预测,得到密集场景文本图像检测与识别的最终输出。

在一些实施例中,所述方法还包括:

在建立基于词长感知Transformer的深度学习网络模型后,对所述深度学习网络模型的超参数进行调整;其中,所述超参数至少包括文本查询迭代次数、学习率、动态解码器的头数、dropout率、损失权重因子。

本实施例中,在适用于密集场景文本检测和识别协同框架设计完成之后,应当具体地对深度网络中的一些超参数进行调整设置,例如文本查询迭代次数、学习率、动态解码器的头数、dropout率、损失权重因子等;而且训练迭代次数也应该按照数据集的规模进行适当调整。

在一些实施例中,步骤S200和步骤S300用于实现模型的训练,在得到密集场景文本图像数据集后,需要科学合理地划分出训练集、验证集和测试集,使用上述搭建好的端到端密集场景文本检测与识别协同模型在制备的密集场景文本图像数据的训练集上进行迭代训练。

此外,本发明实施例所述的密集场景文本检测和识别协同算法,需要针对密集文本这一独特的数据进行正负样本的特征学习。对于任何基于监督学习的深度神经网络目标检测算法,均需要为深度网络的训练设置正负样本,以便于网络从中学习特征。

进一步的,本发明实施例以制备的数据集图像中标记得到的GT框与文本字符转录均为正样本数据,文本图像中背景部分均为负样本数据,以供本发明实施例所述的密集场景文本检测和识别协同算法进行特征学习。

在具体进行训练时,先制备训练数据,并在搭建深度网络模型,网络训练正负样本划分均实施完成之后,就可以对本发明实施例所设计的密集场景文本检测和识别协同模型在制备的密集场景文本图像数据集上进行训练。

为了使网络模型对密集场景文本检测与识别的效果更好,应当在密集场景文本检测和识别协同模型的训练之前,对选取的图像编码器网络在大规模图像分类数据集进行预训练,将预训练的权重保存,然后再开始对搭建的密集场景文本检测和识别协同模型利用预训练好的图像编码器网络权重开始训练学习。

所设计的深度网络模型在制备的密集场景文本图像数据集上进行若干次迭代训练后,对该模型进行验证、测试。当密集文本检测和识别准确率和召回率相对于此前密集场景文本检测与识别算法未有明显提升时,应当对设计的密集场景文本检测和识别协同算法所搭建的网络模型参数进行微调,并重复该步骤,直至密集场景文本检测和识别效果有提升为止。

在训练后,选取上述网络模型训练得到的最好的权值参数进行保存,然后将训练结束后的网络模型在密集场景文本图像验证集和测试集上进行实验,进行图像中真实密集场景文本检测和识别。如果对实时性没有硬性要求,可以将此发明中的密集场景文本检测和识别协同方法运用到基于视频的密集场景文本检测和识别任务中去。具体的深度神经网络的完整的训练流程图如图3所示。

在一些实施例中,步骤S400是通过上述训练得到的模型,对现实阅读场景下基于图像或者基于视频的密集场景文本进行检测和识别。对于密集场景文本检测和识别这一具体实例,深度网络模型处理步骤如图4所示。

需要说明的是,上述对本说明书特定实例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本发明另一实施例提供一种密集场景文本检测与识别模型具体架构,请参阅图5,该密集场景文本检测与识别架构主要包括图像编码器、RoI对齐、文本检测器和文本识别器。

所设计的网络图像编码器采用常规的深度神经网络,包括但不限于主流的卷积神经网络、Transformer等,并利用双向特征金字塔网络增强主干特征提取的能力。Rol对齐采用传统的多特征对齐模块,目的在于不同尺度特征的对应特征相对位置能对齐。文本检测器部分加入空间词长先验信息预测器,限制文本相对形状;加入文本词长分割图生成,细化文本绝对位置信息。文本识别器利用迭代过程中最后一次检测精炼的结果进行多尺度特征融合,获取详细的文本特征信息进行文本字符分类识别。

优化阶段的损失函数表示为检测阶段损失和识别阶段损失的加权和。需要说明的是,发明实施例设计的文本字长先验计数信息预测损失L

其中,

其中,

本发明另一实施例提供一种密集场景文本检测与识别装置,请参阅图6,该密集场景文本检测与识别装置包括数据获取模块11、第一模型训练模块12、第二模型训练模块13以及识别模块14。

数据获取模块11用于获取公共数据集以及密集文本图像数据集。

第一模型训练模块12用于建立基于词长感知Transformer的深度学习网络模型,采用所述公共数据集对所述深度学习网络模型进行预训练,以生成初始识别模型;其中,所述深度学习网络模型由编码器和含有多个动态头的解码器组成,用于实现文本检测特征与识别特征的提取、多尺度语义信息的融合、文本边界框信息的预测和字符序列的预测,所述深度学习网络模型使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的区域,且保留有词长感知实例分割建议头。

第二模型训练模块13用于采用所述密集文本图像数据集对所述初始识别模型进行训练,以优化所述初始识别模型后,生成密集场景文本检测和识别协同模型。

识别模块14用于获取待识别密集场景文本图像,将所述待识别密集场景文本图像输入至所述密集场景文本检测和识别协同模型中,以得到识别结果。

需要说明的是,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述密集场景文本检测与识别的执行过程,各模块的具体实施方式请参考上述对应的方法实施例,此处不再赘述。

在一些实施例中,所述密集文本图像数据集的数据来源包括:

图像处理后的自制数据集图像、公共数据集中选取的密集场景文本图像、合成数据集图像以及数据增强处理后的图像。

在一些实施例中,所述数据增强处理的方式包括随机缩放、随机旋转、随机裁剪、亮度增强中的一种或多种。

在一些实施例中,所述合成数据集图像的建立方法为:

采用PIL工具包将大量不同字体的文本合成到常规场景图像中,并对所述合成后的图像进行标注后,以得到合成数据集图像。

在一些实施例中,所述深度学习网络模型在检测和识别阶段使用相同的带有多个动态头的解码器对同一组文本查询进行解码。

在一些实施例中,所述深度学习网络模型按照功能划分为特征融合层、查询迭代层、匹配输出层三个部分,其中,所述特征融合层用于对输入图像进行多尺度特征提取,并使用初始化的文本边界框信息对多尺度特征进行感兴趣区域对齐,融合不同尺度的图像特征;所述查询迭代层用于通过带有动态头的解码器利用融合特征对文本查询进行多轮迭代更新,得到精细化的文本查询信息;所述匹配输出层用于将识别器使用文本查询信息和多尺度融合信息对最佳匹配的文本实例提议进行字符序列预测,得到密集场景文本图像检测与识别的最终输出。

在一些实施例中,所述密集场景文本检测与识别装置还包括调整模块,用于在建立基于词长感知Transformer的深度学习网络模型后,对所述深度学习网络模型的超参数进行调整;其中,所述超参数至少包括文本查询迭代次数、学习率、动态解码器的头数、dropout率、损失权重因子。

本发明另一实施例提供一种电子设备,如图7所示,电子设备10包括:

一个或多个处理器110以及存储器120,图7中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图7中以通过总线连接为例。

处理器110用于完成电子设备10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的小分子药物设计方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行电子设备10的各种功能应用以及数据处理,即实现上述方法实施例中的小分子药物设计方法。

存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作平台、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至电子设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的小分子药物设计方法,例如,执行以上描述的图1中的方法步骤S100至步骤S400。

本发明另一实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S400。

综上所述,本发明提供的密集场景文本检测与识别方法,通过设计的基于词长感知Transformer架构的端到端场景文本检测与识别协同方法,利用图像编码器从输入的场景图中提取多尺度图像特征,使用含有多个动态头的解码器迭代更新文本查询,实现检测阶段的信息精炼和识别阶段的损失梯度回流,以达到协同优化检测与识别的目的。同时,该设计能从图像数据中提取特征并且使用针对不同单词长度定制的字符计数先验来有效地约束感兴趣的区域;还保留有一个专门的词长感知实例分割建议头,增强了网络模型在不平衡数据分布中捕捉样本特征的能力。设计的密集场景文本检测和识别协同的架构能够稳定实现密集场景文本检测特征与识别特征提取、多尺度语义信息融合、文本边界框信息预测和字符序列预测,提高了密集场景文本检测与识别的精确度,适用于多种现实场景下的密集文本检测与识别,特别是适合需要对密集分布文本进行准确检测与识别的情况。不仅减轻了对图像中复杂背景的干扰,实现专注于场景文本定位的特点,而且还对不平衡文本数据中存在的极端词长文本有较好的定位能力,对于实现精确图像检索、安全自动驾驶、高效盲人辅助等应用领域具有重要的指导意义。

以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

相关技术
  • 一种适用密集文本的深度神经网络自然场景文本检测方法
  • 基于多维度融合的密集场景文本检测方法、设备、介质
技术分类

06120116501195