掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的扭曲图像矫正方法、装置和存储介质

文献发布时间:2023-06-19 10:27:30


一种基于深度学习的扭曲图像矫正方法、装置和存储介质

技术领域

本发明涉及图像处理技术领域,具体而言,涉及一种基于深度学习的扭曲图像矫正方法、装置和存储介质。

背景技术

在传统的文档数字化过程中,通常使用扫描仪对文档进行扫描,得到清晰平整的文档图像进行存储。但是扫描仪体积过大,不易携带,需要对文档进行按压,使用不便。随着移动产品的发展,使用手机等移动设备进行文档扫描已经是一种趋势,虽然手机的出现很大程度上代替了扫描仪,随之而来也出现了一些问题,比如使用手机拍摄文档时由于拍摄设备和文档平面不平行导致的透视形变,以及文档本身没有完全展开,存在弯曲甚至折痕。这会严重影响后续的光学字符识别等任务。目前,针对扭曲文档矫正的方法一般主要可以分为:基于三维重建的方法;基于模型的方法和基于深度学习的方法。对于三维重建的方法,通常使用专门的硬件设备来完成矫正,比如结构光源、立体照相机或者激光相机。通过这些设备获得文档的三维信息。通过三维重建得到变形文档和平整文档之间的映射关系,最后完成矫正,此方法可以有效处理变形,得到比较优秀的效果,但是此类方法对于硬件的要求过高,限制了方法的应用,通过手机无法完成矫正。对于基于模型的方法,通过将弯曲文档的表面建模为广义圆柱体来完成矫正,此类方法通常矫正效果不错但是适应的场景不多,大多数扭曲和理想的模型差距较大。对于基于深度学习的方法,通常使用语义分割的模型对扭曲原图进行偏移图的预测,此类方法适用于弯曲和折叠等多种复杂场景,但是矫正效果不够理想。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一,公开了一种基于深度学习的扭曲图像矫正方法、装置和存储介质,通过改良基于深度学习的矫正方法,降低扭曲图像中的背景、光照和干扰图形等噪声的影响,达到更好的矫正效果,提高矫正效率,降低运算量。

本发明的第一方面公开了一种基于深度学习的扭曲图像矫正方法,包括:提取扭曲图像的特征数据;以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;根据特征数据,识别出扭曲图像中的待矫正元素;利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图;根据预测偏移图矫正扭曲图像。

在该技术方案中,提取待矫正扭曲图像的特征数据,根据特征数据识别出待矫正图像中的目标元素(待矫正元素),例如,根据文本行检测算法,获得图像的文本特征图(此时特征数据即为文本特征图)以识别出图像中的文档,准确定位待矫正图像中的目标元素,针对目标元素进行计算,减少背景噪声对矫正结果的影响,降低了运算量。

根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,提取扭曲图像的特征数据的步骤,具体包括:利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图作为所述特征数据。

在该技术方案中,针对扭曲文档的复杂场景,使用神经网络模型对扭曲的文档图像进行文本行检测,提取文本行的中心线特征用于训练和矫正。直接使用文本特征而不是原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性。

根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图的步骤,具体包括:使用预训练的语义分割模型提取扭曲图像的文本区域特征图和文本行中心线特征图;使用文本区域特征图和文本行中心线特征图进行后处理,生成精准化的文本行中心线特征图。

根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体包括:获取非扭曲图像,对非扭曲图像做扭曲处理,生成自建扭曲图像作为训练图像,生成对应于扭曲处理过程的偏移图作为训练图像对应的偏移图,以构建用于矫正的深度神经网络模型。

在本发明中,自建扭曲图像即合成图像,使用自建扭曲图像可以提升训练集素材量,提高训练效果。此外,使用采集的平整文档图像(非扭曲图像),合成扭曲的文档图像和偏移图,作为训练数据。有效解决训练数据难以采集的问题。

根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,扭曲处理具体包括:根据非扭曲图像的尺寸随机生成扭曲参数,其中,扭曲参数包括扭曲的初始点、方向、扭曲程度和形变的类型,形变的类型包括弯曲和折叠;根据扭曲参数计算每个像素的形变量;重复随机生成扭曲参数的步骤以及根据扭曲参数计算每个像素的形变量的步骤,进行多次扭曲,叠加每次扭曲的形变;使用插值算法将非扭曲图像变换为自建扭曲图像。

根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体还包括:构建基于编码器-解码器结构的卷积神经网络模型,使用自建扭曲图像作为输入,使用生成的标签作为训练标签,输出偏移图;对基于编码器-解码器结构的卷积神经网络模型进行多次训练,使卷积神经网络的损失值下降收敛至预期范围内。

根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图的步骤,具体包括:对通过文本行检测生成的文本特征图进行预处理并输入到用于矫正的深度神经网络模型中,以输出预测偏移图,其中,待矫正元素包括文本特征图。

本发明的第二方面公开了一种基于深度学习的扭曲图像矫正装置,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的所述程序指令以实现如上述任一项技术方案所述的基于深度学习的扭曲图像矫正方法。

本发明的第三方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码用于实现如上述任一项技术方案所述的基于深度学习的扭曲图像矫正方法。

本发明的有益效果至少包括:针对待矫正扭曲图像的复杂场景,使用神经网络模型对待矫正扭曲图像进行特征数据检测(例如文本行检测),提取扭曲图像的特征数据用于训练和矫正,而不是使用原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性。使用自建的扭曲图像和偏移图,作为训练数据。有效解决训练数据难以采集的问题。使用自建扭曲图像作为训练数据,对应的偏移图作为训练标签,使用神经网络作为模型,训练模型用于预测待矫正扭曲图像的偏移图,生成预测偏移图,使用预测偏移图完成待矫正扭曲图像到平整图像的矫正,提高矫正效率,降低运算量。

附图说明

图1示出了根据本发明的一个实施例的基于深度学习的扭曲图像矫正方法的示意流程图。

图2示出了根据本发明的又一个实施例的基于深度学习的扭曲图像矫正方法的示意系统框图。

图3示出了根据本发明的实施例的生成的扭曲文档数据的原图。

图4示出了根据本发明的实施例的生成的扭曲文档数据的文本特征图。

图5示出了根据本发明的实施例的生成的扭曲文档数据的X方向偏移图。

图6示出了根据本发明的实施例的生成的扭曲文档数据的Y方向偏移图。

图7示出了根据本发明的实施例的矫正结果图。

图8示出了根据本发明的实施例的基于深度学习的扭曲图像矫正装置的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。

如图1所示,本发明的实施例之一公开了一种基于深度学习的扭曲图像矫正方法,包括:步骤S102,提取扭曲图像的特征数据;步骤S104,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;步骤S106,根据特征数据,识别出扭曲图像中的待矫正元素;步骤S108,利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图;步骤S110,根据预测偏移图矫正扭曲图像。

在该实施例中,提取待矫正扭曲图像的特征数据,根据特征数据识别出待矫正图像中的目标元素(待矫正元素),例如,根据文本行检测算法,获得图像的文本特征图(此时特征数据即为文本特征图)以识别出图像中的文档,准确定位待矫正图像中的目标元素,针对目标元素进行计算,减少背景噪声对矫正结果的影响,降低了运算量。

根据上述实施例,优选地,提取扭曲图像的特征数据的步骤,具体包括:利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图作为所述特征数据。

在该实施例中,针对扭曲文档的复杂场景,使用神经网络模型对扭曲的文档图像进行文本行检测,提取文本行的中心线特征用于训练和矫正。直接使用文本特征而不是原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性。

根据上述实施例,优选地,利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图的步骤,具体包括:使用预训练的语义分割模型提取扭曲图像的文本区域特征图和文本行中心线特征图;使用文本区域特征图和文本行中心线特征图进行后处理,生成精准化的文本行中心线特征图。

根据上述实施例,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体包括:获取非扭曲图像,对非扭曲图像做扭曲处理,生成自建扭曲图像作为训练图像,生成对应于扭曲处理过程的偏移图作为训练图像对应的偏移图,以构建用于矫正的深度神经网络模型。

在该实施例中,使用采集的平整文档图像(非扭曲图像),合成扭曲的文档图像和偏移图,作为训练数据。有效解决训练数据难以采集的问题。

根据上述实施例,优选地,扭曲处理具体包括:根据非扭曲图像的尺寸随机生成扭曲参数,其中,扭曲参数包括扭曲的初始点、方向、扭曲程度和形变的类型,形变的类型包括弯曲和折叠;根据扭曲参数计算每个像素的形变量;重复随机生成扭曲参数的步骤以及根据扭曲参数计算每个像素的形变量的步骤,进行多次扭曲,叠加每次扭曲的形变;使用插值算法将非扭曲图像变换为自建扭曲图像。

根据上述实施例,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体还包括:构建基于编码器-解码器结构的卷积神经网络模型,使用自建扭曲图像作为输入,使用生成的标签作为训练标签,输出偏移图;对基于编码器-解码器结构的卷积神经网络模型进行多次训练,使卷积神经网络的损失值下降收敛至预期范围内。

根据上述实施例,优选地,利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图的步骤,具体包括:对通过文本行检测生成的文本特征图进行预处理并输入到用于矫正的深度神经网络模型中,以输出预测偏移图,其中,待矫正元素包括文本特征图。

如图2至图7所示,本发明的实施例之一还公开了一种基于深度学习的扭曲图像矫正方法,包括:利用深度神经网络模型对扭曲的文档图像进行文本行检测,提取文本行中心线,获得图像的文本特征图;使用采集的平整文档图像,合成扭曲的文档图像和对应的训练标签,作为训练数据,构建用于矫正的深度神经网络模型;根据文本特征图,使用深度神经网络进行推理来预测图像的偏移图,基于该偏移图将扭曲的文档图像矫正为平整图像。

优选地,在使用深度神经网络对扭曲文档图像进行文本行检测时,具体包括:使用一个预训练的语义分割模型提取扭曲图像的文本区域特征图和文本行中心线特征图;使用文本区域特征图和文本行中心线特征图进行后处理,得到精准的文本行中心线特征图。

优选地,在使用平整文档图像合成扭曲文档图像数据时,包括如下步骤:

步骤1.1根据图像的尺寸随机生成扭曲的参数,扭曲参数包括扭曲的初始点、方向、扭曲程度和形变的类型,形变的类型包括弯曲和折叠两种类型;

步骤1.2根据形变参数计算每个像素的形变量;

步骤1.3重复步骤1.1和步骤1.2,进行多次扭曲,叠加每次扭曲的形变;

步骤1.4使用插值算法将平整图像变换为扭曲图像。

优选地,在利用深度神经网络预测文本特征图的偏移图之前进行深度神经网络模型的训练时,具体包括:构建基于编码器-解码器结构的卷积神经网络模型,使用生成的扭曲图像作为网络的输入,使用生成的标签作为训练标签,模型输出2通道的偏移图;对卷积神经网络模型进行多次训练,使卷积神经网络模型的损失值下降收敛至预期范围内。

优选地,在利用深度神经网络模型预测文本特征图的偏移图,具体包括:对通过文本行检测生成的文本特征图进行预处理;将文本特征图输入到训练完成的深度神经网络模型中,模型输出两个通道的偏移图,且尺寸与输入尺寸一致。

优选地,在使用深度神经网络预测的偏移图生成平整图像时,映射特征图的两个通道分别代表当前像素在平整图像中对应像素的偏移值。

上述实施例针对扭曲文档的复杂场景,使用神经网络模型对扭曲的文档图像进行文本行检测,提取文本行的中心线特征用于训练和矫正,直接使用文本特征而不是原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性;使用采集的平整文档图像,合成扭曲的文档图像和偏移图,作为训练数据,有效解决训练数据难以采集的问题;使用生成的扭曲文档图像作为训练数据,对应的偏移图作为训练标签,使用基于语义分割任务的神经网络作为模型,训练模型用于预测真实扭曲文档的偏移图,使用偏移图完成扭曲文档到平整文档的矫正。其中,基于文本特征的扭曲文档图像矫正方法可以分为训练和矫正两部分,系统工作流程图如图2所示:

一、训练部分

步骤1.1:采集平整文档图像;

使用扫描仪采集完全平整的文档图像(非扭曲图像),采集的文档类型尽量多种形式,比如论文、杂志等不同的类型,以提高数据的多样性。

步骤1.2:生成训练文档图像数据;

对于采集的每一张平整文档图像,生成扭曲文档图像(自建扭曲图像)和偏移图作为训练数据。首先,按照扭曲模型,生成平整文档图像等大小的偏移图。如某平整图像的尺寸为(W,H,3),那么生成尺寸为(W,H,2)的偏移图,偏移图的第一个通道表示像素在X方向的像素偏移值,第二个通道表示像素在Y方向的像素偏移值。偏移图生成时,需要在同一个偏移图上实现多个扭曲的叠加,以达到同一张图有多种扭曲的目的,更好地模仿真实的场景。在进行一个扭曲的生成时,首先在偏移图的尺寸范围内随机生成扭曲的参数,扭曲的参数包括扭曲的初始点、扭曲的方向、扭曲的类型以及扭曲的程度,其中扭曲的类型包括卷曲和折叠。在实践中我们发现,扭曲的初始点的位置会对扭曲效果产生较大的影响,对于一些在文档边缘的扭曲初始点,会造成扭曲效果不足的影响,所以我们人为地排除在文档边缘生成扭曲初始点。利用这些扭曲参数就可以计算每一个像素在这次扭曲中产生的偏移值,叠加多次扭曲的偏移值就得到了最终的偏移图。为了使模型更好的泛化到真实的扭曲场景,我们人为控制不同扭曲类型的样本数量的比例,在实验中我们通常生成30%的折叠效果的样本和70%的弯曲效果的样本。然后,使用偏移图对原始的平整图像进行采样,即生成训练文档图像数据,包括扭曲图像和对应的偏移图。扭曲文档图像(自建扭曲图像)如图3所示,偏移图可视化为图5和图6。

步骤1.3:对训练文档图像进行文本特征提取;

对于每一张生成的扭曲图像(自建扭曲图像),使用基于语义分割的神经网络模型提取文本的中心线特征,该神经网络使用扭曲的原图像作为输入,输出文本区域特征图和文本中心线特征图,对于文本中心线特征图,神经网络可能产生一些错误的识别,包含一些图像和表格等非文本区域,但在文本区域特征图中不会产生错误,所以使用文本区域特征图对所有文本中心线进行鉴别筛选,提取准确的文本中心线特征图,如图4所示。

步骤1.4:训练矫正网络;

首先构建一个深度卷积神经网络,由于本发明针对的扭曲矫正任务与语义分割任务具有相似性,所以可以使用语义分割任务中的神经网络模型,本发明中使用UNet和DeepLab系列网络。通过实验,确定使用在语义分割任务中表现更优的DeepLab系列模型。该模型与UNet相比,具有空洞空间卷积池化金字塔(ASPP)结构,ASPP结构使用不同采样率的空洞卷积并行采样,在多个尺度捕捉图像的上下文,有效提高矫正效果。DeepLab同时在参数量上优于两个堆叠的UNet,更少的参数量可以带来更快速的训练和矫正速度,提高本发明的可用性。在损失函数的设计方面,申请人经过多次的实验对比后,使用逐像素的交叉熵损失的均值作为损失函数。

该网络模型输入一张扭曲图像的文本特征图,输出一张与原图同样尺寸的两个通道的偏移图,与步骤1.2中生成的偏移图相同,第一个通道的值表示预测的该像素的X方向的偏移值,第二个通道的值表示预测的该像素的Y方向的偏移值。通过多轮次的深度学习训练,使该深度卷积神经网络的损失值收敛至预期的范围内,神经网络能够较好的拟合训练样本,即完成了矫正网络的训练。

二、矫正部分

步骤2.1:扭曲文档图像的文本特征提取;

与步骤1.3所述方法相同,对需要矫正的扭曲文档进行文本特征提取,得到文本特征图用于矫正。

步骤2.2:预测偏移图;

对于步骤2.1中生成的文本特征图,使用步骤1.4中使用的深度卷积神经网络进行偏移图预测,因为上述训练步骤中神经网络已经可以较好的拟合训练样本,且训练样本包含了丰富的扭曲场景,因此可以较好的泛化到真实的扭曲图像中。

步骤2.3:生成平整图像;

利用步骤2.2中神经网络预测的偏移图,具体地,对于X方向的偏移图P

如图8所示,根据本发明的实施例之一,公开了基于深度学习的扭曲图像矫正装置800,包括:存储器802,用于存储程序指令;处理器804,用于调用所述存储器中存储的所述程序指令以实现如上述任一实施例所述的基于深度学习的扭曲图像矫正方法。

根据本发明的实施例之一,还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码用于实现如上述任一实施例所述的基于深度学习的扭曲图像矫正方法。

根据本发明的上述实施例,针对现有的扭曲文档矫正方法中,一类基于硬件的矫正方法,需要通过特殊的硬件采集文档的深度信息,容易受到操作门槛和使用场景等因素的制约,还有一类基于模型的矫正方法,需要对使用者的拍摄角度做出限制且应用场景不多,仅限理想的弯曲矫正,本发明提供一种基于文本特征的深度学习扭曲文档矫正方法,无需额外的硬件设备,也无需限制使用者的拍摄角度,降低了使用移动设备采集文档的操作门槛并且提高了采集效果,并且本发明借助基于深度学习的图像处理技术,面对复杂的扭曲文档也可以表现出良好的矫正效果。

上述实施例的各种方法中的全部或部分步骤是可以通过程序来控制相关的硬件来完成,该程序可以存储于可读存储介质中,存储介质包括只读存储器(Read—OnlyMemory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read—Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的可读的任何其他介质。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于深度学习的扭曲图像矫正方法、装置和存储介质
  • 一种基于深度学习的图像识别方法、装置及存储介质
技术分类

06120112553085