掌桥专利:专业的专利平台
掌桥专利
首页

一种单字碑帖图像二值化方法、系统、装置及存储介质

文献发布时间:2023-06-19 11:19:16


一种单字碑帖图像二值化方法、系统、装置及存储介质

技术领域

本发明涉及图像处理技术领域,尤其涉及一种单字碑帖图像二值化方法、系统、装置及存储介质。

背景技术

书法作为我国传统文化艺术的精华,是中国文化精神血脉相连的符号。书法作品主要以“碑刻”和“帖”的形式被保存下来,碑刻一般是指刻在石头上的文字,用拓碑的方法可以将碑刻文字印制成纸质的拓本;帖一般是指写在纸上或绢上的书法作品;以上两种统称为“碑帖”。自然腐蚀和人为损坏,碑帖图像一般带有噪声,严重的甚至模糊不清,在不破坏汉字特征的前提下,将碑帖图像二值化,提取干净的文字十分重要,也是研究和利用碑帖图像不可缺少的课题。

二值化是最简单和最常用的图像分割方法。碑帖图像二值化的目标是把汉字提取出来,即把汉字区域提取为前景,而其余部分变成背景。目前的二值化方法都是基于颜色和像素分布直方图等初级特征来确定阈值,根据阈值选取方法的不同,可以将二值化方法分为固定阈值的二值化方法和自适应阈值的二值化方法,例如常见的大津二值算法(OTSU),但无论目前哪种方法都只利用图像的像素值信息,当背景像素和前景像素差别很小时,就会把背景像素误认为前景像素,处理效果非常差。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于全卷积神经网络的单字碑帖图像二值化方法、系统、装置及存储介质。

本发明所采用的技术方案是:

一种单字碑帖图像二值化方法,包括以下步骤:

获取单字碑帖图像及与单字碑帖图像对应的二值图像构建数据集,将数据集划分为训练集和验证集;

构建全卷积神经网络模型;

从所述训练集中随机获取图像对(单字碑帖图像和二值图像)作为网络的输入,对全卷积神经网络模型进行训练;

将待识别的单字碑帖图像输入训练好的所述全卷积神经网络模型,输出对应的二值化图像。

进一步,所述全卷积神经网络模型包括编码器和解码器,所述编码器用于提取特征,且特征的大小不断缩小,所述解码器用于将特征的大小进行扩大;

所述编码器和所述解码器采取密集的跳接,使低层特征和高层特征融合。

进一步,所述编码器包括第一卷积层单元、第二卷积层单元、第三卷积层单元、第四卷积层单元和第五卷积层单元;

所述第一卷积层单元中的卷积核大小为3×3,卷积核个数为32;

所述第二卷积层单元中的卷积核大小为3×3,卷积核个数为64;

所述第三卷积层单元中的卷积核大小为3×3,卷积核个数为128;

所述第四卷积层单元中的卷积核大小为3×3,卷积核个数为256;

所述第五卷积层单元中的卷积核大小为3×3,卷积核个数为512。

进一步,所述解码器包括第一反卷积层单元、第二反卷积层单元、第三反卷积层单元、第四反卷积层单元和输出层;

所述第一反卷积层单元包括一个反卷积层和两个卷积层,反卷积层的卷积核大小为2×2;卷积层的卷积核大小为3×3,卷积核个数为256;

所述第二反卷积层单元包括一个反卷积层和两个卷积层,反卷积层的卷积核大小为2×2;卷积层的卷积核大小为3×3,卷积核个数为128;

所述第三反卷积层单元包括一个反卷积层和两个卷积层,反卷积层的卷积核大小为2×2;卷积层的卷积核大小为3×3,卷积核个数为64;

所述第四反卷积层单元包括一个反卷积层和两个卷积层,反卷积层的卷积核大小为2×2;卷积层的卷积核大小为3×3,卷积核个数为32;

所述输出层中的卷积核大小1×1,卷积核个数为1。

进一步,所述对全卷积神经网络模型训练过程中,采用的损失函数为:

loss=1-Dice

Dice定义为:

其中,|A∩B|表示两图像的交集,|A|和|B|分别表示图像A和图像B所有像素之和。

进一步,所述全卷积神经网络模型中的Relu函数的表达式为:

f(x)=max(0,x)。

进一步,所述输出层后面连接Sigmoid函数,所述Sigmoid函数的表达式为:

本发明所采用的另一技术方案是:

一种单字碑帖图像二值化系统,包括:

数据获取模块,用于获取单字碑帖图像及与单字碑帖图像对应的二值图像构建数据集,将数据集划分为训练集和验证集;

模型构建模块,用于构建全卷积神经网络模型;

模型训练模块,用于从所述训练集中随机获取图像对作为网络的输入,对全卷积神经网络模型进行训练;

图片转换模块,用于将待识别的单字碑帖图像输入训练好的所述全卷积神经网络模型,输出对应的二值化图像。

本发明所采用的另一技术方案是:

一种单字碑帖图像二值化装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是:

一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是:本发明能够处理复杂噪声和背景下的单字碑帖图像,网络提取图像和汉字的各种的特征,比传统的二值化方法有效,能处理各种背景的碑帖图像。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于全卷积神经网络的单字碑帖图像二值化方法的流程示意图;

图2是本发明实施例中训练集的图像样本。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本实施例提供一种基于全卷积神经网络的单字碑帖图像二值化方法,包括以下步骤:

S1、获取单字碑帖图像及与单字碑帖图像对应的二值图像构建数据集,将数据集划分为训练集和验证集。

其中,训练集的收集可以通过如下方式获得:

S11、直接收集单字碑帖图像和对应的二值图,二值图也可根据碑帖图像人为标记得到,最终单字碑帖图像和对应二值图如图2所示;

S12、单字碑帖图像不易收集,可直接收集碑帖作品图像,然后裁剪出单字图像。

S13、将数据集按9:1的比例随机分为训练集和验证集。

S2、构建全卷积神经网络(FCN)模型。

如图1所示,该网络由两部分组成:编码器和解码器,编码器为前半部分即卷积层1~5,编码器提取特征且特征大小不断缩小,解码器为网络后半部分,解码器把特征大小扩大,可看做特征恢复的过程。编码器和解码器采取密集的跳接,低层特征和高层特征融合,确保图像的细节不会丢失。具体的网络模型为:

卷积层1-1:卷积核大小3×3,卷积核个数为32,卷积步长s=1,padding=1;

卷积层1-2:卷积核大小3×3,卷积核个数为32,卷积步长s=1,padding=1;

池化层1:选择最大值池化Max pooling,使用最大池化尺寸为2×2,步长s=2;

卷积层2-1:卷积核大小3×3,卷积核个数为64,卷积步长s=1,padding=1;

卷积层2-2:卷积核大小3×3,卷积核个数为64,卷积步长s=1,padding=1;

池化层2:选择Max pooling,使用最大池化尺寸为2×2,步长s=2;

卷积层3-1:卷积核大小3×3,卷积核个数为128,卷积步长s=1,padding=1;

卷积层3-2:卷积核大小3×3,卷积核个数为128,卷积步长s=1,padding=1;

池化层3:选择Max pooling,使用最大池化尺寸为2×2,步长s=2;

卷积层4-1:卷积核大小3×3,卷积核个数为256,卷积步长s=1,padding=1;

卷积层4-2:卷积核大小3×3,卷积核个数为256,卷积步长s=1,padding=1;

池化层4:选择Max pooling,使用最大池化尺寸为2×2,步长s=2

卷积层5-1:卷积核大小3×3,卷积核个数为512,卷积步长s=1,padding=1;

卷积层5-2:卷积核大小3×3,卷积核个数为512,卷积步长s=1,padding=1。

反卷积层6:卷积核大小为2×2,对行列进行两倍翻倍。

级结构:卷积层4-2与卷积层5-2做级联,将高分辨率特征图与低分辨率特征图进行融合,进而拼接后作为下一个卷积层的输入。

卷积层6-1:卷积核大小3×3,卷积核个数为256,卷积步长s=1,padding=1;

卷积层6-2:卷积核大小3×3,卷积核个数为256,卷积步长s=1,padding=1;

反卷积层7:卷积核大小为2×2,对行列进行两倍翻倍。

级结构:卷积层3-2与卷积层6-2做级联,将高分辨率特征图与低分辨率特征图进行融合,进而拼接后作为下一个卷积层的输入。

卷积层7-1:卷积核大小3×3,卷积核个数为128,卷积步长s=1,padding=1;

卷积层7-2:卷积核大小3×3,卷积核个数为128,卷积步长s=1,padding=1;

反卷积层8:卷积核大小为2×2,对行列进行两倍翻倍。

级结构:卷积层2-2与卷积层7-2做级联,将高分辨率特征图与低分辨率特征图进行融合,进而拼接后作为下一个卷积层的输入。

卷积层8-1:卷积核大小3×3,卷积核个数为64,卷积步长s=1,padding=1;

卷积层8-2:卷积核大小3×3,卷积核个数为64,卷积步长s=1,padding=1;

反卷积层9:卷积核大小为2×2,对行列进行两倍翻倍。

级结构:卷积层1-2与卷积层8-2做级联,将高分辨率特征图与低分辨率特征图进行融合,进而拼接后作为下一个卷积层的输入。

卷积层9-1:卷积核大小3×3,卷积核个数为32,卷积步长s=1,padding=1;

卷积层9-2:卷积核大小3×3,卷积核个数为32,卷积步长s=1,padding=1。

输出层为卷积层10:卷积核大小1×1,卷积核个数为1,卷积步长s=1,padding=0;

FCN模型的更多细节设置如下:

(1)FCN模型的激活函数选取为Relu函数,Relu函数表达式:f(x)=max(0,x),Relu激活函数可以增加模型的非线性且加速模型收敛,在所有卷积层输出后面都接Relu函数;输出层例外,输出层要把像素值映射到[0,1],故选择Sigmoid函数,其函数表达式:

(2)对进行卷积运算之后的图像进行池化,选用最大值池化的方法。将局部区域的主要特征提取出来,可以很大程度上减少数据的维度,并相应的减少权值参数的总数量,从而降低计算成本,提高计算效率。

(3)构建损失函数Dice loss。loss=1-Dice。其中Dice定义为

S3、训练样本预处理。

训练样本不能直接输入网络中训练,需要采取两个预处理步骤,其作用是把扩充训练集,防止网络过拟合,验证集和测试样本不需经过以下步骤,但为了保证网络输入类似,需要把图像缩放到256×256且像素归一化。以下两个步骤为:

(1)随机选取训练数据集的图像对训练数据集进行扩充,即图像对进行变换,如旋转,放大,缩小,这样在训练集集不大的情况也能有不错的效果。

(2)随机切取图像对,得到裁剪后为256*256的大小的图像块,图像像素默认是[0,255],最后需要把像素值归一化到[0,1],即每个像素值都除以255。

S4、训练全卷积神经网络(FCN)。

使用ADAM优化器处理损失函数,Adam优化器能够利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,为不同的参数计算不同的自适应学习率。初始学习率为0.001,训练次数为40个epochs。图像训练集经过步骤3的预处理后输入卷积网络FCN模型进行训练,输入图像为3通道的彩色图像,模型输出为单通道的灰度图像,大小与输入图像一致。

验证数据集用于确定网络参数,每训练一个epoch,把验证集输入网络,计算验证集的平均loss,保存loss最小对应的网络模型参数,此参数为后续应用时所用的网络参数。

S5、将单字碑帖图像输入训练好的全卷积神经网络得到干净的二值化图像。

此碑帖图像可为任意的单字碑帖图像,不仅限于训练集,与训练集区别越大还能很好处理则说明模型的泛化能力较强。

综上所述,本实施例的方法相对于现有技术,具有如下有益效果:

(1)本实施例可以很好地处理复杂噪声和背景下的单字碑帖图像,网络提取图像和汉字的各种的特征,比传统的二值化方法复杂,能处理各种背景的碑帖图像。同时模型的泛化能力较强,即使是与训练集差距较大的单字碑帖图像也有很好的效果。

(2)本实施例端到端训练,无须人为设计提取各种特征和阈值,网络可根据训练集的输入图像和真值图自动提取各种特征和学到输入到输出的映射,无须人为干预。

(3)本实施例可以很好地保证原图像的细节信息,网络的解码器和编码器采用了密集的跳接。大量低层细节信息的特征可直接传到深层网络,深层网络融合图像的低级特征和高级特征,以免细节信息的过度丢失。

(4)本实施例可以并行处理,即可同时处理多张图像,在模型比传统二值化方法复杂的情况下还可大大提升了处理效率。

本实施例还提供一种单字碑帖图像二值化系统,包括:

数据获取模块,用于获取单字碑帖图像及与单字碑帖图像对应的二值图像构建数据集,将数据集划分为训练集和验证集;

模型构建模块,用于构建全卷积神经网络模型;

模型训练模块,用于从所述训练集中随机获取图像对作为网络的输入,对全卷积神经网络模型进行训练;

图片转换模块,用于将待识别的单字碑帖图像输入训练好的所述全卷积神经网络模型,输出对应的二值化图像。

本实施例的一种单字碑帖图像二值化系统,可执行本发明方法实施例所提供的一种单字碑帖图像二值化方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

本实施例还提供一种单字碑帖图像二值化装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。

本实施例的一种单字碑帖图像二值化装置,可执行本发明方法实施例所提供的一种单字碑帖图像二值化方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种单字碑帖图像二值化方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

相关技术
  • 一种单字碑帖图像二值化方法、系统、装置及存储介质
  • 一种自适应的汉字碑帖图像二值化分割算法
技术分类

06120112879416