掌桥专利:专业的专利平台
掌桥专利
首页

一种字体分割模型的训练方法、装置、设备及介质

文献发布时间:2024-04-18 20:01:30


一种字体分割模型的训练方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域,尤其涉及一种字体分割模型的训练方法、装置、设备及介质。

背景技术

随着深度学习算法和人工智能技术的不断发展,电厂建设类档案逐渐趋于信息化、智能化及现代化管理。

电厂建设类档案通常使用传统的光学字符识别(Optical CharacterRecognition,OCR)文本阅读技术,在电网建设类档案一致性审查、关键信息审查或者手写签名审查等的业务工作中,进行文本识别。

但OCR文本阅读技术对于电厂建设类档案中涉及到的印刷字体和手写字体普遍同时存在的审查表、意见表等电子文档,往往会出现大量误识别和漏识别的情况。

发明内容

本发明提供了一种字体分割模型的训练方法、装置、设备及介质,以提高字体分割的准确性和效率。

第一方面,本发明实施例提供了一种字体分割模型的训练方法,该方法包括:

获取训练样本,并将训练样本输入到Unet++模型中,Unet++模型用于对至少一个目标字体进行分割;

通过Unet++模型中至少一个Unet层对训练样本进行处理,提取至少一个深度特征图;不同Unet提取的深度特征图的深度不同;

针对各深度特征图,通过对应的第一全连接层,对深度特征图进行处理,得到至少一个目标字体的与深度特征图对应的第一区域特征图;

针对每个深度特征图对应的第一区域特征图,通过对应的损失上采样层,对深度特征图对应的第一区域特征图进行处理,得到训练样本的尺寸下的第二区域特征图;

对同一目标字体的第二区域特征图进行融合,得到同一字体的第三区域特征图;

针对每个目标字体的第三区域特征图,通过对应的第二全连接层,对目标字体对应的第三区域特征图进行处理,得到目标字体对应的分割检测结果;

根据训练样本的字体分割真值与至少一个目标字体的分割检测结果,对Unet++模型进行训练,得到字体分割模型。

第二方面,本发明实施例提供了一种字体分割方法,该方法包括:

获取待识别图像;

将待识别图像输入到预先训练的字体分割模型中,得到待识别图像的字体分割结果;

其中,字体分割模型通过如权利要求1-5任一项的字体分割模型的训练方法训练得到。

第三方面,本发明实施例提供了一种字体分割模型的训练装置,装置包括:

样本获取模块,用于获取训练样本,并将训练样本输入到Unet++模型中,Unet++模型用于对至少一个目标字体进行分割;

样本处理模块,用于通过Unet++模型中至少一个Unet层对训练样本进行处理,提取至少一个深度特征图;不同Unet提取的深度特征图的深度不同;

特征图处理模块,用于针对各深度特征图,通过对应的第一全连接层,对深度特征图进行处理,得到至少一个目标字体的与深度特征图对应的第一区域特征图;

样本训练模块,用于针对每个深度特征对应的第一区域特征图,通过对应的损失上采样层,对深度特征图对应的第一区域特征图进行处理,得到训练样本的尺寸下的第二区域特征图;

图像融合模块,用于对同一目标字体的第二区域特征图进行融合,得到同一字体的第三区域特征图;

图像分割模块,用于针对每个目标字体的第三区域特征图,通过对应的第二全连接层,对目标字体对应的第三区域特征图进行处理,得到目标字体对应的分割检测结果;

模型获取模块,用于根据训练样本的字体分割真值与至少一个目标字体的分割检测结果,对Unet++模型进行训练,得到字体分割模型。

第四方面,本发明实施例提供了一种字体分割装置,装置包括:

图像获取模块,用于获取待识别图像;

图像输入模块,用于将待识别图像输入到预先训练的字体分割模型中,得到待识别图像的字体分割结果;其中,字体分割模型通过如权利要求1-5任一项的字体分割模型的训练方法训练得到。

第五方面,本发明实施例提供了一种电子设备,设备包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的字体分割模型的训练方法和字体分割方法。

第六方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的字体分割模型的训练方法和字体分割方法。

本发明实施例的技术方案,通过将训练样本输入到Unet++模型,其中,每个Unet层提取的深度特征图,经过第一全连接层分割,以及经过第二全连接层对同一字体的分割结果进行融合锐化,得到更多丰富的内容,以及基于更加丰富的内容确定分割结果轮廓,在此基础上得到分割检测结果,并训练模型,可以提高字体分割模型的分割准确性。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种字体分割模型的训练方法的流程图;

图2是根据本发明实施例提供的一种Unet++模型的基准模型的结构示意图;

图3是根据本发明实施例提供的一种Unet++模型的结构示意图;

图4是根据本发明实施例提供的一种Dense convolution模型的结构示意图;

图5是根据本发明实施例提供的一种字体分割模型的训练方法的结构示意图;

图6是根据本发明实施例提供的一种字体分割方法的流程图;

图7是根据本发明实施例提供的一种字体分割方法的流程图;

图8是根据本发明实施例提供的一种字体分割模型的训练装置的示意图;

图9是根据本发明实施例提供的一种字体分割装置的示意图;

图10是实现本发明实施例提供的一种电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例的技术方案中,所涉及的训练样本等的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

实施例一

图1为本发明实施例一提供的一种字体分割模型的训练方法的流程图。本发明实施例可适用于字体分割模型的训练的情况,该方法可以由字体分割模型的训练装置来执行,该字体分割模型的训练装置可以采用硬件和/或软件的形式实现。

参见图1所示的分布式事务处理方法,包括:

S101、获取训练样本,并将训练样本输入到Unet++模型中,Unet++模型用于对至少一个目标字体进行分割。

其中,训练样本可以是用于对模型进行训练的图像。训练样本包括但不限于:电厂档案图像、工作票据图像、文件图像、表格图像、审批意见文件图像、手写签名文件图像和盖印红章文件图像等。Unet++模型可以是一种图像分割模型,通过在编码器和解码器之间加入稠密块(Dense block)和卷积层来提高分割精度。Unet++模型的基准模型图如图2所示,Unet++模型的基准模型由网络前半部分为下采样部分(Down-Sampling)、中间的U型底部为卷积部分及后半部分为上采样部分(Up-Sampling)三个部分构成。

网络前半部分为下采样部分(Down-Sampling),由5个下采样层组成,每一个下采样层通过两个尺寸(Size)为3×3,步长(Stride)为1的卷积核和一个2×2的池化层,分别对输入的训练样本图像进行处理。每经过一层下采样,输入的图像的大小尺寸缩小,特征通道数量翻倍,从而实现对训练样本进行逐层递进的特征提取。

中间的U型底部为卷积部分,相当于不再进行池化压缩的一层下采样层。经过4层的下采样,输入的单通道的训练样本已经转化为高通量的低分辨率特征图,对该特征图进行进一步的3×3卷积,使得特征图维度进一步扩展,特征信息更加丰富。

后半部分为上采样部分(Up-Sampling),类似于Down-Sampling的逆操作,把最底层3×3卷积提取到的特征图作为输入,利用一个大小为2×2的逆卷积层和两个3×3的卷积层组成一个上采样层,对被压缩后的特征图进行尺寸大小上的还原。经过5步相同的操作,将特征图还原为原图的大小。此时网络最终输出图像的通道(Channel)为2,每一个Channel代表每一个像素每一个类的预测值,相当于将输入的训练样本分割成了两幅结果。

同时,在Unet++模型的基准模型中还需构建稠密反卷积(Dense convolution)分布,在Unet++网络中,网络每一层级的上采样与下采样之间都有逻辑连接,这种连接称为跳跃连接(Skip connection),从而保证各个节点的解码器之间的信息交互,从而在解码器节点上实现了更灵活的特征融合。Unet++模型的基准模型中构建Dense convolution模型后的整体模型原理结构如图3所示,Dense convolution模型如图4三角边框内所示,其中,x

其中函数

具体的,目标字体可以是预备进行字体分割的字体。目标字体包括但不限于手写字体和印刷字体。Unet++模型通过对训练样本进行至少一次下采样和至少一次上采样,实现图像的分割。

在一个例子中,获取工作票据图像的训练样本,并将工作票据图像输入到Unet++模型中,Unet++模型用于对工作票据图像中的印刷字体和手写字体进行分割。

S102、通过Unet++模型中至少一个Unet层对训练样本进行处理,提取至少一个深度特征图;不同Unet提取的深度特征图的深度不同。

其中,深度特征图可以是训练样本经过Unet层处理后得到的图像。深度特征图的深度可以是指经过的特征提取的层数不同。Unet++模型是对称的,在一次字体分割过程中下采样次数和上采样次数相同,不存在一次字体分割过程中下采样次数和上采样次数不相同的情况。图像经过X次下采样,再经过X次上采样为一个Unet层,X的值可以是:1、2、3和4。

具体的,Unet++模型中的Unet层的个数与深度特征图的个数相同。训练样本每经过1个Unet层可得到其对应的深度特征图,且每个深度图的尺寸不同。

在一个例子中,Unet++模型有4个Unet层,Unet++模型通过这4个Unet层对训练样本进行处理,每一个Unet层可提取一个深度特征图,该Unet++模型共获得4个深度特征图,该4个深度特征图的尺寸不同。

S103、针对各深度特征图,通过对应的第一全连接层,对深度特征图进行处理,得到至少一个目标字体的与深度特征图对应的第一区域特征图。

其中,全连接层可以是将Unet++模型中计算出来的二维特征图转换成一维向量的一个计算操作。第一全连接层可以是两个全连接层的组合。第一区域特征图可以是目标字体所在区域形成的图像。各深度特征图经过对应的第一全连接层的处理,得到各深度特征图对应的第一区域特征图。

具体的,第一全连接层包括两个全连接层。Unet++模型有4个Unet层,在每一个Unet层后各加入一个第一全连接层,对每一个Unet层提取的深度特征图进行处理,得到至少一个深度特征图中的目标字体对应的第一区域特征图。

在一个例子中,第一全连接层包括两个全连接层。Unet++模型有4个Unet层,在每个Unet层后各加入1个第一全连接层。将票据图像输入Unet++模型中,每个Unet层提取到1个深度特征图。每个第一全连接层对对应的Unet层提取的深度特征图进行处理,得到深度特征图中的手写字体和印刷字体对应的第一区域特征图。

S104、针对每个深度特征图对应的第一区域特征图,通过对应的损失上采样层,对深度特征图对应的第一区域特征图进行处理,得到训练样本的尺寸下的第二区域特征图。

其中,损失上采样层可以是对第一区域特征图进行上采样计算的操作。第二区域特征图可以是对第一区域特征图进行上采样计算处理,得到的处理后的图像。

具体的,将训练样本输入Unet++模型,每个Unet层提取到一个深度特征图,对每个深度特征图经过第一全连接层计算,得到同类型目标字体的深度特征图对应的第一区域特征图,对每个第一区域特征图通过损失上采样层的计算,得到每个深度特征图对应的第二区域特征图,得到的第二区域特征图的尺寸与训练样本的尺寸相同。

在一个例子中,将尺寸为512px(像素)×512px(像素)的工作票据图像输入Unet++模型,4个Unet层提取到4个深度特征图,对4个深度特征图经过第一全连接层计算,得到4个深度特征图对应的第一区域特征图,对各第一区域特征图通过损失上采样层的计算,得到第二区域特征图,得到的第二区域特征图的尺寸为512px×512px。

S105、对同一目标字体的第二区域特征图进行融合,得到同一字体的第三区域特征图。

其中,一个Unet可以得到该同一目标字体的一个第二区域特征图,将不同的Unet输出的该同一目标字体的不同第二区域特征图进行融合,可以得到同一字体的第三区域特征图。

具体的,融合可以通过concat技术,stitcher技术或vconcat技术。

在一个例子中,对印刷字体的各第二区域特征图使用concat技术进行融合,得到印刷字体的第三区域特征图。对手写字体的各第二区域特征图使用concat技术进行融合,得到手写字体的第三区域特征图。

S106、针对每个目标字体的第三区域特征图,通过对应的第二全连接层,对目标字体对应的第三区域特征图进行处理,得到目标字体对应的分割检测结果。

其中,第二全连接层用于目标字体分割。第二全连接层可以是两个全连接层的组合。第三区域特征图可以是对目标字体的各第二区域特征图融合后的图像。

具体的,第二全连接层可以是两个长度为(C

在一个例子中,C

S107、根据训练样本的字体分割真值与至少一个目标字体的分割检测结果,对Unet++模型进行训练,得到字体分割模型。

其中,字体分割真值可以是用户预先标注的字体类别及字体所在区域。分割检测结果可以是训练样本经过Unet++模型处理后的分割结果的图像。字体分割模型可以是训练完成的用于对图像进行字体分割的模型。

具体的,用户预先对训练样本标注字体类别及字体所在区域,对训练样本的字体分割真值与至少一个目标字体的分割检测结果进行比较,根据比较结果对Unet++模型进行训练,直至满足训练条件,得到字体分割模型。训练结束条件可以是,Unet++模型针对验证集的准确率大于预设准确率阈值,例如,准确率阈值可以是95%。此外,训练结束条件还可以是是差异最小或差异收敛,或者训练次数大于等于预设次数阈值等。

在一个例子中,用户预先对工作票据标注手写字体、手写字体所在区域、印刷字体及印刷字体所在区域,得到字体分割真值。根据训练样本的字体分割真值与至少一个目标字体的分割检测结果比较,对Unet++模型进行训练,得到字体分割模型。

本发明实施例的技术方案,通过将训练样本输入到Unet++模型,其中,每个Unet层提取的深度特征图,经过第一全连接层分割,以及经过第二全连接层对同一字体的分割结果进行融合锐化,得到更多丰富的内容,以及基于更加丰富的内容确定分割结果轮廓,在此基础上得到分割检测结果,并训练模型,可以提高字体分割模型的分割准确性。

可选的,获取训练样本,包括:获取训练图像;在训练图像中检测签章区域;在存在签章区域时,生成手写字体,并添加到签章区域对应的区域内,得到目标图像;将目标图像添加到训练数据集中;在训练数据集中,获取训练样本。

其中,训练图像可以是待进行字体分割的图像。签章区域可以是训练图像中签章所在的区域。签章区域可以是指电厂档案图像、工作票据图像、文件图像、表格图像、审批意见文件图像、手写签名文件图像和盖印红章文件图像等图像中签章所在的区域。目标图像可以是生成的手写字体填充在训练图像中,形成的图像。训练数据集可以是训练样本的集合。目标图像添加到训练数据集中,作为训练样本。

具体的,签章区域可以通过签章检测模型定位得到。签章检测模型包括但不限于:结合区域提议模型、目标检测模型、目标跟踪算法或单阶段物体检测算法。

在一个例子中,获取训练图像;在训练图像中检测签章区域;在存在签章区域时,生成手写字体,并添加到签章区域对应的区域内,得到目标图像;将目标图像添加到训练数据集中;在训练数据集中,获取训练样本。

通过定位签章区域,并生成手写字体与签章区域融合,得到训练图像,扩充了训练样本,丰富样本数据,可以减少手写字体与印刷体的数量不平衡的情况,增加训练样本的数量和多样性,提高模型的泛化能力。

可选的,签章区域对应的区域,包括签章区域向外延伸预设长度形成的区域。

其中,预设长度可以是用户预设的签章区域向外延伸的长度。预设长度可以包括预设横向延长长度和预设纵向延长长度,预设横向延长长度和预设纵向延长长度可以相同,也可以不同,例如,预设横向延长长度大于等于预设纵向延长长度。其中,签章区域对应的区域是否包括该签章区域?

在一个例子中,预设长度为3厘米,签章区域对应的区域为签章区域和签章区域横向和纵向均向外延伸3厘米形成的区域。

通过签章区域包括签章区域向外延伸预设长度形成的区域,扩大了签章区域的范围,模拟了训练样本中手写体区域位置多变的情况,提升了模型分割的准确率。

实施例二

图6为本发明实施例二提供的一种字体分割模型的训练方法的流程图。本发明实施例在上述实施例的基础上,对字体分割模型的训练操作进行了优化改进。

进一步地,将“根据所述训练样本的字体分割真值与至少一个目标字体的分割检测结果,对所述Unet++模型进行训练”细化为“在所述训练样本的目标字体的类别数量为一个时,对所述目标字体的字体分割真值进行归一化处理;计算归一化处理后的字体分割真值与所述至少一个目标字体的分割检测结果之间的差异;根据所述差异,调整所述Unet++模型的参数”,以完善对字体分割模型的训练的操作。

需要说明的是,在本发明实施例中未详述的部分,可参见其他实施例的表述。

参见图6所示的字体分割模型的训练方法,包括:

S601、获取训练样本,并将训练样本输入到Unet++模型中,Unet++模型用于对至少一个目标字体进行分割。

S602、通过Unet++模型中至少一个Unet层对训练样本进行处理,提取至少一个深度特征图;不同Unet提取的深度特征图的深度不同。

S603、针对各深度特征图,通过对应的第一全连接层,对深度特征图进行处理,得到至少一个目标字体的与深度特征图对应的第一区域特征图。

S604、针对每个深度特征对应的第一区域特征图,通过对应的损失上采样层,对深度特征图对应的第一区域特征图进行处理,得到训练样本的尺寸下的第二区域特征图。

S605、对同一目标字体的第二区域特征图进行融合,得到同一字体的第三区域特征图。

S606、针对每个目标字体的第三区域特征图,通过对应的第二全连接层,对目标字体对应的第三区域特征图进行处理,得到目标字体对应的分割检测结果。

S607、在训练样本的目标字体的类别数量为一个时,对目标字体的字体分割真值进行归一化处理。

其中,归一化处理可以是把所有数据都转化成[0,1]或者[-1,1]之间的数的操作,其目的是为了取消各维数据之间的数量级差别,避免因为输入输出数据数量级差别大而造成模型预测误差过大,起到统一量纲,防止小数据被吞噬的作用。

具体的,当目标字体为印刷字体,令印刷字体像素值可以为1;当目标字体为手写字体,令手写字体像素值可以为2,手写字体的真值小于印刷字体,进行归一化处理。均方误差(Mean Squared Error,MSE)是一种衡量数据预测模型准确性的度量指标,n表示像素总量,f(x)表示预测值,y表示真值。

通过将手写体真值定为较大数值,在计算损失时,样本数较少的手写体样本自动就能获得更大的权重关注,以平衡数量上的劣势。

在一个例子中,在训练样本的目标字体的类别数量为印刷字体,令印刷字体像素值为1,对训练样本进行归一化处理。

S608、计算归一化处理后的字体分割真值与至少一个目标字体的分割检测结果之间的差异。

具体的,将字体分割真值经过归一化处理后与至少一个目标字体的分割检测结果之间比较是否一致。当字体分割真值与分割检测结果一致,表明模型预测准确;当字体分割真值与分割检测结果不一致,表明模型预测错误。

在一个例子中,字体分割真值结果为手写字体,分割检测结果也为手写字体,则模型预测结果准确。

S609、根据差异,调整Unet++模型的参数,得到字体分割模型。

具体的,根据归一化处理后的字体分割真值与至少一个目标字体的分割检测结果之间的差异,调整Unet++模型的参数,直至满足训练条件,得到字体分割模型。

在一个例子中,预设次数阈值为100次,根据归一化处理后的字体分割真值与至少一个目标字体的分割检测结果之间的差异,调整Unet++模型的参数,若训练次数为100次,则结束训练,得到字体分割模型。

本发明实施例通过对目标字体的字体分割真值进行归一化处理,调整目标字体的权重,解决目标字体在训练图像中区域占比小而出现的类不平衡的问题。

可选的,第一全连接层的尺寸通过第一全连接层对应的深度特征图的尺寸确定。

具体的,第一全连接层的尺寸与第一全连接层对应的深度特征图的尺寸相同。Unet++模型有4个Unet层,每个Unet层可获取1个对应的深度特征图。每个深度特征图的深度不同,每个深度特征图的尺寸不同,每个深度特征图对应的第一全连接层的尺寸不同。

在一个例子中,Unet++模型有4个Unet层,Unet层对应的深度特征图的尺寸依次为128px×128px,256px×256px,512px×512px及1024px×1024px;深度特征图对应的第一全连接层的尺寸依次为128px×128px,256px×256px,512px×512px及1024px×1024px。

通过第一全连接层的尺寸与对应的深度特征图的尺寸相同,避免图像空间结构改变,减少特征位置变化对图像分割的影响。

实施例三

图7为本发明实施例三提供的一种字体分割方法的流程图。本发明实施例可适用于字体分割的情况,该方法可以由字体分割装置来执行,该字体分割装置可以采用硬件和/或软件的形式实现。

参见图7所示的字体分割方法,包括:

S701、获取待识别图像。

其中,待识别图像可以是预备进行字体分割的图像。待识别图像包括但不限于:电厂档案图像、工作票据图像、文件图像、表格图像、审批意见文件图像、手写签名文件图像和盖印红章文件图像。获取方式包括但不限于:机器拍摄或机器扫描等。

在一个例子中,通过机器拍摄获取电厂档案图像。

S702、将待识别图像输入到预先训练的字体分割模型中,得到待识别图像的字体分割结果,其中,字体分割模型通过如权利要求1-5任一项的字体分割模型的训练方法训练得到。

具体的,通过如权利要求1-5任一项的字体分割模型的训练方法训练得到字体分割模型。将待识别图像输入到字体分割模型中,对待识别图像中的字体进行分割,得到字体分割后的图像,便于对不同字体分类管理。

在一个例子中,通过如权利要求1-5任一项的字体分割模型的训练方法训练得到字体分割模型。将电厂档案图像输入到字体分割模型中,得到电厂档案图像中手写体图像和印刷体图像。

本发明实施例的技术方案,通过训练完成字体分割模型,可将待识别图像进行字体分割,将图像中手写体和印刷体进行分割,便于不同字体内容分类管理,提升字体分割操作效率。

实施例四

图8为本发明实施例四提供的一种字体分割模型的训练装置的结构示意图。本发明实施例可适用于字体分割模型的训练的情况,该装置可以执行字体分割模型的训练方法,该装置可以采用硬件和/或软件的形式实现。

参见图8所示的字体分割模型的训练装置,包括:样本获取模块801、样本处理模块802、特征图处理模块803、样本训练模块804、图像融合模块805、图像分割模块806和模型获取模块807,其中,

样本获取模块801,用于获取训练样本,并将训练样本输入到Unet++模型中,Unet++模型用于对至少一个目标字体进行分割;

样本处理模块802,用于通过Unet++模型中至少一个Unet层对训练样本进行处理,提取至少一个深度特征图;不同Unet提取的深度特征图的深度不同;

特征图处理模块803,用于针对各深度特征图,通过对应的第一全连接层,对深度特征图进行处理,得到至少一个目标字体的与深度特征图对应的第一区域特征图;

样本训练模块804,用于针对每个深度特征对应的第一区域特征图,通过对应的损失上采样层,对深度特征图对应的第一区域特征图进行处理,得到训练样本的尺寸下的第二区域特征图;

图像融合模块805,用于对同一目标字体的第二区域特征图进行融合,得到同一字体的第三区域特征图;

图像分割模块806,用于针对每个目标字体的第三区域特征图,通过对应的第二全连接层,对目标字体对应的第三区域特征图进行处理,得到目标字体对应的分割检测结果;

模型获取模块807,用于根据训练样本的字体分割真值与至少一个目标字体的分割检测结果,对Unet++模型进行训练,得到字体分割模型。

本发明实施例的技术方案,通过将训练样本输入到Unet++模型,其中,每个Unet层提取的深度特征图,经过第一全连接层分割,以及经过第二全连接层对同一字体的分割结果进行融合锐化,得到更多丰富的内容,以及基于更加丰富的内容确定分割结果轮廓,在此基础上得到分割检测结果,并训练模型,可以提高字体分割模型的分割准确性。

可选的,模型获取模块807,具体用于:

在训练样本的目标字体的类别数量为一个时,对目标字体的字体分割真值进行归一化处理;

计算归一化处理后的字体分割真值与至少一个目标字体的分割检测结果之间的差异;

根据差异,调整Unet++模型的参数。

可选的,第一全连接层的尺寸通过第一全连接层对应的深度特征图的尺寸确定。

可选的,样本获取模块801,包括:

图片获取单元,用于获取训练图像;

签章定位单元,用于在训练图像中检测签章区域;

目标图获取单元,用于在存在签章区域时,生成手写字体,并添加到签章区域对应的区域内,得到目标图像;

数据添加单元,用于将目标图像添加到训练数据集中;

样本收集单元,用于在训练数据集中,获取训练样本。

可选的,签章区域对应的区域,包括签章区域向外延伸预设长度形成的区域。

本发明实施例所提供的字体分割模型的训练装置可执行本发明任意实施例所提供的字体分割模型的训练方法,具备执行字体分割模型的训练方法相应的功能模块和有益效果。

实施例五

图9为本发明实施例五提供的一种字体分割装置的结构示意图。本发明实施例可适用于字体分割的情况,该装置可以执行字体分割方法,该装置可以采用硬件和/或软件的形式实现。

参见图9所示的字体分割装置,包括:图像获取模块901和图像输入模块902,其中,

图像获取模块901,用于获取待识别图像;

图像输入模块902,用于将所述待识别图像输入到预先训练的字体分割模型中,得到所述待识别图像的字体分割结果;其中,所述字体分割模型通过如权利要求1-5任一项所述的字体分割模型的训练方法训练得到。

本发明实施例所提供的字体分割装置可执行本发明任意实施例所提供的字体分割方法,具备执行字体分割方法相应的功能模块和有益效果。

实施例六

图10示出了可以用来实施本发明的实施例的电子设备1000的结构示意图。

如图10所示,电子设备1000包括至少一个处理器1001,以及与至少一个处理器1001通信连接的存储器,如只读存储器(ROM)1002、随机访问存储器(RAM)1003等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器901可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM1003中,还可存储电子设备1000操作所需的各种程序和数据。处理器1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器1001可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器901执行上文所描述的各个方法和处理,例如字体分割模型的训练方法和字体分割方法。

在一些实施例中,分布式事务处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM1003并由处理器1001执行时,可以执行上文描述的字体分割模型的训练方法和字体分割方法的一个或多个步骤。备选地,在其他实施例中,处理器1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行字体分割模型的训练方法和字体分割方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该车辆具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种深度多特征动态对抗的变工况下旋转机械迁移诊断方法
  • 一种深度多特征动态对抗的变工况下旋转机械迁移诊断方法
技术分类

06120116556209