掌桥专利:专业的专利平台
掌桥专利
首页

书法风格识别方法、装置、介质和计算设备

文献发布时间:2023-06-19 19:28:50


书法风格识别方法、装置、介质和计算设备

技术领域

本申请的实施例涉及图像识别领域,更具体地涉及一种书法风格识别方法、装置、介质和计算设备。

背景技术

目前主流的深度学习卷积神经网络例如:VGG、ResNet、MobileNet、DenseNet等模型在自然场景下的图像分类、识别任务上获得了不错的效果。

然而将上述现有技术直接应用于毛笔字书写字体风格识别时,虽然可以对毛笔字书写字体进行进一步特征的提取,但是由于毛笔字字体中单个字体不会包含显著的特征信息,尤其是毛笔字不会带有任何的背景信息,导致现有技术难以对毛笔字书写字体的重要特征进行有效提取,只能通过字体间细微的风格进行识别,难以为毛笔字书写字体确定一个准确的书写风格。而且,不同字体之间可能存在特征较弱的信息,因此现有技术难以进行有效的书法风格识别,识别过程中针对毛笔字书写体得出的识别结果的准确度较低。

发明内容

在本上下文中,本发明期望提供一种书法风格识别方法、装置、介质和计算设备,以增强对书法图像中特征提取的有效性,提高对书法风格识别的准确度。

在本发明实施方式的第一方面中,提供了一种方法书法风格识别方法,包括:

获取待识别的书法图像;

以增强所述待识别的书法图像中的字体风格特征为目标对所述待识别的书法图像进行至少一次特征处理,直至所述待识别的书法图像被处理为预设维度的特征向量;其中,对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合;其中,在进行特征增强时,基于当前特征图的特征空间均值和方差获取能量分布值,并根据所述能量分布值对所述当前特征图进行特征增强处理,得到增强特征图;在进行特征融合时,将增强特征图与原始特征图融合,得到用于下一特征处理步骤的更新特征图;

基于所述特征向量获取所述待识别的书法图像对应的风格识别结果。

在本申请的一个实施例中,对所述待识别的书法图像进行一次特征处理的过程,包括:

获取原始特征图,其中,所述原始特征图基于历史更新特征图获取,所述历史更新特征图包括初始特征图,所述初始特征图基于所述待识别的书法图像获取;

基于所述原始特征图获取当前特征图;

基于所述当前特征图的特征空间均值和方差获取所述当前特征图的能量分布值;

利用所述能量分布值对所述当前特征图进行特征增强,得到增强特征图;

将所述原始特征图和所述增强特征图进行特征融合,得到更新特征图。

在本申请的一个实施例中所述能量分布值的确定过程,包括:

计算所述当前特征图值在宽高维度上的均值,得到维度分量均值;

利用所述当前特征图上每个特征的特征值减去所述维度分量均值,得到所述当前特征图值在特征空间各个维度的特征空间均值;

利用所述特征空间均值计算所述当前特征图的宽、高维度的方差;

基于所述特征空间均值、所述方差与能量系数计算能量分布函数,以获取所述当前特征图的能量分布值。

在本申请的一个实施例中,若所述增强特征图达到所述预设维度,则将所述增强特征图作为所述待识别的书法图像的特征向量;

若所述增强特征图未达到所述预设维度,则将所述增强特征图与所述原始特征图融合,得到更新特征图,并将所述更新特征图作为下一特征处理步骤的原始特征图。

在本申请的一个实施例中,所述当前特征图至少通过卷积、批归一化和激活函数处理后基于所述原始特征图得到。

在本申请的一个实施例中,所述基于所述特征向量获取所述待识别的书法图像对应的识别结果,包括:

计算所述特征向量被分类到各候选识别结果的分类概率;

根据所述分类概率获取对应的候选结果作为所述待识别的书法图像对应的风格识别结果。

在本申请的第二方面中,提供了一种书法风格识别装置,包括:

获取模块,被配置为获取待识别的书法图像;

处理模块,被配置为以增强所述待识别的书法图像中的字体风格特征为目标对所述待识别的书法图像进行至少一次特征处理,直至所述待识别的书法图像被处理为预设维度的特征向量;其中,对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合;其中,在进行特征增强时,基于当前特征图的特征空间均值和方差获取能量分布值,并根据所述能量分布值对所述当前特征图进行特征增强处理,得到增强特征图;在进行特征融合时,将增强特征图与原始特征图融合,得到用于下一特征处理步骤的更新特征图;

识别模块,被配置为基于所述特征向量获取所述待识别的书法图像对应的风格识别结果。

在本申请的第三方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的方法。

在本申请的第四方面中,提供了一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的方法。

根据本申请实施例的书法风格识别方法、装置、介质和计算设备,可以以获取所述待识别的书法图像中的字体风格特征为目标,对所述待识别的书法图像进行包括特征提取、特征增强和特征融合在内的特征处理,直至得到设定维度的特征向量,即所述字体风格特征。由于本申请实施例在进行特征增强时,是以当前特征图的特征空间均值和方差为基础,获取的能量分布值,即特征增强权重,而不是现有技术中的基于预先训练得到的权重参数;因此,本申请实施例中无需预先训练用于特征增强的网络模型(即现有技术中的注意力增强模块),而是可以直接根据输入特征图本身的性质进行特征增强,相当于使用了无参数的注意力进行特征增强,不需要针对每一个特征增强权重参数进行拟合训练,显著降低了特征增强过程中计算资源的消耗,同时也通过对特征的增强提高了特征的表征能力。另外,在本申请实施例中,一些特征处理步骤还将特征增强后的增强特征图与特征增强前的当前特征图融合,然后以融合后的更新特征图作为下一特征处理步骤的输入;即更新特征图既包括增强特征,也包括原始特征,兼顾了特征增强对风格特征的显著化处理,同时弥补了特征增强可能导致的细节丢失。因此,本申请实施例的特征融合步骤可以避免多次特征增强导致的特征消失和特征退化问题,增强了对书法风格特征的完整提取能力,进而提高了最终风格识别结果的准确度。

附图说明

通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:

图1为本申请一实施例提供的书法风格识别方法的流程示意图;

图2为本申请一实施例提供的对待识别的书法图像进行特征处理的示意图;

图3为本申请一实施例提供的对待识别的书法图像进行一次特征处理的示意图;

图4为本申请一实施例提供的待识别的书法图像在多次特征处理中发生特征变换的示意图;

图5为本申请一实施例提供的书法风格识别装置的结构示意图;

图6为本申请一实施例提供的一种介质的结构示意图;

图7为本申请一实施例提供的一种计算设备的结构示意图;

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解,给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本申请的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

根据本发明的实施方式,提出了一种书法风格识别方法、装置、存储介质和计算设备。

下面参考本申请的若干代表性实施例,详细阐释本申请的原理和精神。

示例性方法

下面参考图1,介绍本申请一实施例提供的书法风格识别方法,该方法包括:

步骤S101,获取待识别的书法图像。

在本申请实施例中,所述待识别的书法图像可以是基于书法作品拍摄得到的照片,也可是基于碑帖等书法载体拍摄得到的照片,或者还可是用户直接在书法临摹设备进行电子临摹,生成的书法图像。考虑到照片拍摄的尺寸不一,且可能包括照片拍摄现场与书法无关的背景,在得到上述照片之后,可以按照实际需求进行图像预处理,例如裁剪、旋转或缩放。在本申请实施例中,还可以为待识别的书法图像设置固定的尺寸以便于进行书法风格识别,以得到符合预设标准的待识别的书法图像。

可以理解的是,在本申请实施例中,为了方便后续的特征处理,可以将待识别的书法图像处理为预设尺寸的图像。例如,可以将待识别的书法图像的尺寸设置为128×128×3。需要说明的是,上述尺寸仅为示例,本领域的技术人员可以根据实际需要设置为其他尺寸,本申请实施例对此不做限定。

另外,所述待识别的书法图像还可以是不同形式的图像,例如可以是二值化图像、灰度图像、索引图像或RGB彩色图像。对此,本申请实施例不做限定。

步骤S102,以增强所述待识别的书法图像中的字体风格特征为目标对所述待识别的书法图像进行至少一次特征处理,直至所述待识别的书法图像被处理为预设维度的特征向量。

在本申请实施例中,对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合。其中,可以在每次特征处理中设置多轮次特征提取,以提高特征提取的准确度。例如将特征提取的次数设定为2,使原始特征图在一次特征处理的过程中进行两次特征提取,充分提取所述原始特征图像的全局特征,完善从所述原始特征图中提取到的全局特征包括的风格细节,从而提高对最终得到的书法风格识别结果的关联度。

在进行特征增强时,可以基于包含所述待识别的书法图像特征的当前特征图的特征空间均值和方差获取能量分布值,并根据所述能量分布值对所述当前特征图进行特征增强处理,得到增强特征图。其中,所述能量分布值可以根据所述当前特征空间均值和方差计算当前特征图的能量分布函数来获取。

在进行特征融合时,将增强特征图与原始特征图融合,得到用于下一特征处理步骤的更新特征图。

需要说明的是,在本申请实施例中可能需要经历不止一次特征处理过程。即本申请实施例中,需要对待识别的书法图像进行多次迭代特征处理,得到所述预设维度的特征向量。由此,在本申请实施例中,所述原始特征图在各个特征处理步骤中可能并不相同,例如第一轮特征处理中的原始特征图A1和第二轮特征处理中的原始特征图A2是不同的。具体来说,本申请实施例中,将基于待识别的书法图像进行持续的多轮特征处理,由此,每一个特征处理轮次的原始特征图均是基于历史更新特征图获取的,所述历史更新特征图包括初始特征图,所述初始特征图基于所述待识别的书法图像获取。

在每一个特征处理轮次中,得到的用于下一特征处理步骤的更新特征图,在下一轮特征处理中可作为原始特征图继续进行特征融合。例如,可以对待识别的书法图像进行n轮特征处理,在第一轮特征处理时的输入是待识别的书法图像,此时,首先基于待识别的书法图像获取初始特征图,将初始特征图作为原始特征图进行特征提取和特征增强后得到增强特征图,然后将所述增强特征图与所述原始特征图进行特征融合,得到用于第2轮特征处理的更新特征图(即第2轮特征处理的原始特征图);而对于第2次特征处理,其输入是第1轮次特征处理得到的更新特征图作为原始特征图,对所述原始特征图进行特征提取和特征增强后,利用得到的增强特征图与原始特征图进行特征融合,得到用于第3轮特征处理的更新特征图。

在本申请实施例中,对所述待识别的书法图像进行特征处理的过程如图2所示,n为最后一轮特征处理,1~(n-1)为第一轮特征处理至第倒数第二轮特征处理,2~(n-1)为第二轮特征处理至倒数第二轮特征处理。

其中,参照图2,对所述待识别的书法图像进行特征处理的过程具体包括:

①获取原始特征图。其中,所述原始特征图基于历史更新特征图获取,所述历史更新特征图包括初始特征图,所述初始特征图基于所述待识别的书法图像获取。

具体的,所述初始特征图可以是基于待识别的书法图像直接进行特征提取得到的。所述历史更新特征图可以是经过上一轮包括特征提取、特征增强和特征融合在内的特征处理后的更新特征图。当前特征处理步骤中的所述原始特征图可以是上一轮特征处理后得到的更新特征图(即历史更新特征图)。

②基于所述原始特征图获取当前特征图。其中,可以根据设定维度,采用卷积对所述原始特征图进行特征提取,并在卷积后进行批归一化处理,得到当前特征图。

举例说明,采用3×3的卷积核对128×128×64的原始特征图进行步长为2的下采样后,再进行步长为1的下采样,得到64×64×128的特征图。将64×64×128的特征图通过批归一化映射到0-1的范围内,利用激活函数将归一化后的所述特征图中的特征值均激活为正数,最后输出提取到的64×64×128的当前特征图。

③基于所述当前特征图的特征空间均值和方差获取所述当前特征图的能量分布值。

具体的,首先计算所述当前特征图值在宽、高维度上的均值,得到维度分量均值m。然后利用所述当前特征图上每个特征点(即为像素点)的特征值减去所述维度分量均值m,得到所述当前特征图在特征空间各个维度的特征空间均值d。再利用所述特征空间均值d计算所述当前特征图的宽、高维度的方差v。基于所述特征空间均值d、所述方差v与能量系数ρ计算能量分布函数,以获取所述当前特征图的能量分布值。

此外,所述能量分布函数可以是和所述当前特征图等大的系数矩阵,所述能量分布函数中包含当前特征图中每个特征点的能量分布值。其中,所述当前特征图的能量分布值可以表示对应当前特征图中每个特征点的重要程度,即通过当前特征图的能量分布值可以确定每个特征点是否重要。并且,所述当前特征图的能量分布函数中对应每个特征点的能量分布值越小,则特征点的重要程度越高,反之,能量分布值越大,对应特征点的重要程度越低。即能量分布值小的特征点的重要程度高,能量分布值大的特征点的重要程度低。

举例说明,当前特征图为64×64×128,其相对应能量分布函数就是64行64列的矩阵,矩阵中第3行第4列对应的参数即为当前特征图中特征点(3,4)的能量分布值,若特征点(3,4)对应的能量分布值小于周围特征点的能量分布值,则特征点(3,4)较为重要,反之则不重要。

其中,所述当前特征图的能量分布函数可按下式计算:

/>

式中,E为能量分布值,d为当前特征图的特征空间均值,v为当前特征图的宽、高维度的方差,ρ为能量系数。

④利用当前特征图的能量分布值对所述当前特征图进行特征增强,得到增强特征图。其中,可以通过当前特征图的能量分布值对当前特征图中的每个特征点进行特征增强,用重要程度高的特征点增强所述当前特征图。

具体的,在能量分布函数中,能量分布值小的特征点的重要程度高,能量分布值大的特征点的重要程度低。由此可知能量分布值与对应特征点的重要程度呈反比。为使所述能量分布值与对应特征点的重要程度成正比,取所述当前特征图的能量分布函数的倒数,即为当前特征图中每个特征点的特征值取倒数。因此当每个特征点的特征值倒数越大时,此特征点的重要程度越高,反之重要程度越低。在本申请的实施例中,利用激活函数将当前特征图的能量分布值映射到(0,1)区间,即当前特征图中每个特征点的能量分布值非0即1,重要程度高的特征点对应的能量分布值为1,重要程度低的特征点对应的能量分布值为0。然后将映射到(0,1)区间的当前特征图的能量分布值与当前特征图的特征值进行同或运算,增强所述当前特征图中重要程度高的特征点,得到增强特征图。由此,所述能量分布值可以增强所述待识别的书法图像的字体中的风格特征,弱化所述待识别的书法图像的字体中的背景特征。

其中,还可以采用下式对当前特征图进行特征增强,获取增强特征图:

式中,X

进一步的,在得到增强特征图后,需要判断增强特征图是否达到预设维度,即需要判断增强特征图是否与预设维度的特征向量的维度相同。其中,所述预设维度可以设置为8×8×1024。当增强特征图的维度与预设维度8×8×1024相同时,则可以将增强特征图作为待识别的书法图像的特征向量。若增强特征图未达到预设维度8×8×1024,则继续进行特征融合处理。

将所述原始特征图和所述增强特征图进行特征融合,得到更新特征图。其中,所述更新特征图可作为下一特征处理步骤的原始特征图。此外,可以通过设置残差结构将所述原始特征图与增强特征图进行融合,以使原始特征图的特征权重和增强特征图中的特征权重保持在近似为零的范围内。利用所述残差结构进行融合的具体方式为从原始特征图所在位置延伸出一个分支,直接将原始特征图与所述增强特征图相加进行特征融合,得到更新特征图。

在本申请的实施例中,可以根据图3所示的神经网络结构对原始特征图进行一次特征处理。图3中Conv指的是用于特征提取的卷积层,BN指的是批归一化处理,simAM指的是用于特征增强的无参数注意力机制模块,Relu指的是Relu激活函数,分支的Conv指的是用于特征融合的残差结构。在本申请的实施例中,参照图3所示的一次特征处理过程,首先可以利用两个卷积层对原始特征图进行连续两次特征提取,并在每次特征提取后进行批归一化处理和特征激活,得到当前特征图。然后通过无参数的注意力机制模块以显著化字体中的风格特征为目标,对当前特征图进行特征增强,得到增强特征图。最后通过残差结构将原始特征图与增强特征图进行特征融合后再次进行特征激活,得到用于下一特征处理步骤的更新特征图。

经过上述特征处理过程可以对待识别的书法图像进行多次特征处理,但是在进行最后一轮特征处理时,不包括特征融合,而是将最后一轮得到的等于设定维度的增强特征图作为用于识别的特征向量。例如,可以将用于识别的特征向量的尺寸设为8×8×1024,当增强特征图达到设定的8×8×1024维度时,直接将所述增强特征图作为用于识别的特征向量,无需进行特征融合。即最后一轮特征处理可以按照设定值对原始特征图进行特征提取和特征增强,使增强特征图的维度与预设维度相同,因此无需再进行特征融合,直接将维度与预设维度相等的增强特征图作为待识别的书法图像的特征向量。

在本申请的实施例中,由于实际的书法图像中一般仅包括作为主体的字图像和作为背景的纸张图像,并不像风景图像或人物图像中包含大量的可以用于进行识别的特征,所以可以通过基于图像本身得到的能量分布值对书法图像进行特征处理,而不需要采用现有技术中处理风景图像等复杂图像的有参数注意力模块。考虑到实际的书法图像本身的特征主要体现在字体上,且字体和背景的差别巨大,例如字体一般由黑色像素点(特征点)组成,背景一般由白色或无色像素点(特征点)组成。在进行字体的风格识别时,需要获取的是字体中带有的风格特征,比如字体的书写笔画细节和走向,所以可以根据书法图像中像素点(特征点)对应的像素值(特征值)确定能量分布值,然后利用能量分布值突出书法图像中字体风格特征。

另外,考虑到书法风格实际上是书写手法造成的,例如一些书法字体在起笔、落笔和运笔以及收笔阶段的力度是不同的,而且在书写过程中,笔墨也是在不断消耗的,所以不同书写阶段的像素值(特征值)也是不同的。举例说明,由于行书在书写过程中具有连贯性强、间断点少以及字体末梢处的墨迹较浅的特点,所以行书字体在连贯性强的位置和起笔位置的着墨多,在字体末梢处的着墨少,并且在间断位置会有收笔痕迹。因此,对应包含行书字体的书法图像在行书字体连贯书写的部分对应的像素值(特征值)就深,在末梢处的像素值(特征值)就浅,在间断处依然存在少量像素值(特征值)。

由此可见,书法图像中包含的字体在不同书写阶段的像素值(特征值)不同,即有些地方着墨多,像素颜色深,有些地方着墨少,像素颜色浅。而本申请实施例采用根据像素值(特征值)计算书法图像的能量分布值的方式,有效提取了书法图像不同书写阶段的运笔力度和着墨程度,相当于获取了字体图像不同笔画的特征,从而确定了字体的风格特征。

步骤S103,基于所述特征向量获取所述待识别的书法图像对应的风格识别结果。

在本实施例中,可以先计算所述特征向量被分类到各候选识别结果的分类概率,再根据分类概率获取对应的候选结果作为所述待识别的书法图像对应的风格识别结果。具体可以先通过全局平均池化和线性映射对待识别的书法图像对应的特征向量进行处理,即先通过全局平均池化对所述特征向量进行降维和抽象处理,得到二维特征向量。再通过线性映射将所述二维特征映射为一维特征向量。其中,一维特征向量为一行n列的矩阵向量,n代表所述一维向量被分类到n个字体风格(候选结果)对应的n个概率值,即待识别的书法图像被分类到n个字体风格(候选结果)中的概率,并以最大的概率值对应的字体风格(候选结果)作为待识别的书法图像的风格,即将分类概率值最大对应的字体风格(候选结果)作为待识别书法图像的识别结果。

在本申请的一个实施例中,如图4所示,Conv为卷积层,BN为批归一化处理,simAM为无参数的注意力机制模块,Relu为Relu激活函数。分支卷积结构即为残差结构,用于将原始特征图与增强特征图相加,实现特征融合,Global polling为全局平均池化,Fullyconnection为全连接线性映射。参照图4可知,可以设置多个无参数的注意力机制模块simAM和多个残差结构(分支卷积),以实现对待识别的书法图像进行多轮次的特征提取、特征增强和特征融合。最后将多轮次特征处理后得到的特征向量进行分类,得到书法图像的风格识别结果。具体为通过设置有多个无参数注意力机制模块和多个残差结构的书法风格识别模型对书法图像进行多轮特征处理以实现对待识别的书法图像进行准确的风格识别,其中,所述无参数的注意力机制模块simAM用于特征增强,所述残差结构(分支卷积)用于特征融合。

其中,所述书法风格识别模型可以是基于卷积神经网络模型构建的,例如VGG、ResNet、MobileNet、DenseNet,此处不再一一列举。进一步的,可以给定书法风格识别模型的训练数据为700个书法图像,训练类别为7种字体风格,其中对应每个字体风格的书法图像为100个。再将每个字体风格的书法图像划分为训练集和测试集,对书法风格识别模型进行训练。

在书法风格识别模型训练的过程中,以每个风格对应的训练集中的字体图像作为训练输入,以所在风格作为输出对书法风格识别模型进行训练。具体为:将训练集中的书法图像依次通过预设置的卷积层进行特征提取,通过无参数的注意力机制模块进行特征增强以及通过残差结构进行特征融合后,其维度逐渐增加。所述训练集中的每个书法图像经过多次特征提取、特征增强和特征融合后会从最开始的RGB3个维度增加到设定的1024维度,其宽和高会逐渐变小。所述训练集中的每个128×128×3的彩色书法图像最终被处理为设定的宽高为8×8,维度是1024的高维的特征图。将得到的8×8×1024的特征图后作为训练集中书法图像对应的特征向量,然后将所述特征向量通过书法风格识别模型中的全连接层对应划分到7种字体风格中正确的分类中,实现对书法风格识别模型的训练。

其中,所述书法风格识别模型的训练可以在11GB RAM的NVDIA GTX 2080Ti上进行,在训练过程中将学习率设置为0.001,使用加权交叉熵计算模型损失,再通过Adam优化器进行优化。其中,书法风格识别模型在训练过程中各个预分类的类别权值相等,训练周期可设置为100轮。

此外,利用所述测试集对训练好的书法风格识别模型进行测试,所述模型能够给出每个风格书法图像对应的目标类别概率,并将概率最大的目标类别作为结果输出,准备完成对书法图像的类别预测。经过实际的多轮测试,训练好的书法风格识别模型可以对7种不同风格的书法图像进行风格识别,实际测试的准确率达到96%,能够较好完成对不同书法图像中字体风格的识别。同时,训练好的书法风格识别模型会对书法图像中字体的风格敏感,而不是对训练的字敏感。也就是说,模型的输入可以是训练集之外的书法图像,可进行风格识别的范围不局限于训练集所包含的书法图像中的字体。

举例说明,利用一个训练集中包括100个风格为楷体的书法图像对书法识别模型进行训练周期为100轮的训练,其中,100个风格为楷体的书法图像即为100个楷体字。在模型训练周期达到100轮后,得到一个训练好的书法风格识别模型,然后选取一个或多个训练集中不包含的风格为楷体的书法图像(字)输入到所述书法风格识别模型中进行识别,可以得到对应的识别结果为楷体。例如输入一个楷体的“年”的书法图像,所述书法风格识别模型在对楷体的“年”的书法图像进行识别处理后,得到一个一维特征(1,n),依然可以从n个风格中获取概率值最大对应的楷体风格作为楷体“年”的书法图像的识别结果。

进一步的,采用书法风格识别模型对待识别的书法图像进行多轮次的特征处理的过程,包括:

步骤1,获取原始特征图,其中,在首轮特征处理中,所述原始特征图为待识别的书法图像,自第二轮特征处理时,所述原始特征图为上一轮特征处理得到的历史更新特征图。

步骤2,对原始特征图像利用3×3卷积核进行步长为2的两次卷积和批归一化处理,得到当前特征图;基于无参数的注意力机制模块,利用当前特征图的能量分布值对当前特征图进行增强,得到增强特征图。

步骤3,判断增强特征图是否为8×8×1024的特征图;若是,则将增强特征图作为待识别的书法图像的特征向量后进入步骤4;

若否,则利用残差结构将增强特征图与原始特征图进行融合,得到更新特征图,并更新特征图作为用于下一轮特征处理的历史更新特征图后进入步骤1。

步骤4,对待识别的书法图像的特征向量进行全局池化和两次线性映射处理,得到(1,n)的一维特征向量,将多个分类概率n中最大的概率对应的风格作为待识别的书法图像的风格识别结果。

在本实施例中,如图4所示,可以为所述书法风格识别模型设置5个无参数的注意力机制模块和5个残差模块对待识别的书法图像进行多轮次特征处理。其中,所述书法风格识别模型的卷积层、无参数注意力机制模块和残差结构可以根据表1中的参数对每个待识别的书法图像进行特征提取、特征增强和特征融合,并对应得到待识别的书法图像的识别结果。

表1

/>

在本实施例中,根据表1所示,通过书法识别模型的卷积层、无参数注意力机制模块和残差结构对128×128×3的待识别的书法图像进行第一轮特征处理后,得到一个尺寸为128×128×64的特征图。将128×128×64的特征图作为原始特征图进行第二轮特征处理,即对128×128×64的特征图进行第二轮包括特征提取、特征增强和特征融合在内的特征处理后,得到尺寸为64×64×128的特征图。然后经过第三轮特征处理后得到的是32×32×256的特征图,第四轮特征处理后得到16×16×512的特征图,第五轮为8×8×1024的特征图,即第五轮特征图为最后一轮特征处理,8×8×1024的特征图无需经过特征融合,直接作为待识别的书法图像的特征向量。由上述特征变化可见,除第一轮特征处理外,每次特征处理后得到的特征图相较于上一轮特征处理得到的特征图的宽和高减半,维度呈二倍增长。

本申请实施例提供的书法风格识别方法,可以以获取所述待识别的书法图像中的字体风格特征为目标,对所述待识别的书法图像进行包括特征提取、特征增强和特征融合在内的特征处理,直至得到设定维度的特征向量,即所述字体风格特征。由于本申请实施例在进行特征增强处理时,是基于当前特征图的特征空间均值和方差获取的能量分布值,即特征增强权重,而不是现有技术中的基于预先训练得到的权重参数;因此,本申请实施例在进行特征增强之前,无需预先训练用于特征增强的网络模型(即现有技术中的注意力增强模块),而是可以直接根据输入的特征图本身的能量分布值进行特征增强,相当于使用了无参数的注意力进行特征增强,不需要针对每一个特征增强权重参数进行拟合训练,显著降低了特征增强过程中计算资源的消耗,同时也通过对特征的增强提高了特征的表征能力。

另外,在本申请实施例中,一些特征处理步骤会将特征增强后的增强特征图与特征增强前的当前特征图进行融合,然后以融合后得到的更新特征图作为下一特征处理步骤的输入;即所述融合后得到的更新特征图既包括增强特征,也包括原始特征,兼顾了特征增强对待识别书法图像中字体风格特征的显著化处理,同时弥补了特征增强可能导致的所述字体风格细节的丢失。因此,本申请实施例的特征融合步骤可以避免多次特征增强导致的特征消失和特征退化的问题,增强了对书法风格特征的完整提取能力,提高了最终风格识别结果的准确度。

示例性装置

在介绍了本申请示例性实施例的方法之后,接下来,参考图5对本申请示例性实施方式的一种书法风格识别装置进行说明,该装置包括:

获取模块201,被配置为获取待识别的书法图像。

处理模块202,被配置为以增强所述待识别的书法图像中的字体风格特征为目标对所述待识别的书法图像进行至少一次特征处理,直至所述待识别的书法图像被处理为预设维度的特征向量;其中,对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合;其中,在进行特征增强时,基于当前特征图的特征空间均值和方差获取能量分布值,并根据所述能量分布值对所述当前特征图进行特征增强处理,得到增强特征图;在进行特征融合时,将增强特征图与原始特征图融合,得到用于下一特征处理步骤的更新特征图。

识别模块203,被配置为基于所述特征向量获取所述待识别的书法图像对应的风格识别结果。

作为一种可选的实施方式,所述获取模块201获取到的所述待识别的书法图像可以是基于书法作品拍摄得到的照片,也可是基于碑帖等书法载体拍摄得到的照片,或者还可是用户直接在书法临摹设备进行电子临摹,生成的书法图像。考虑到照片拍摄的尺寸不一,且可能包括照片拍摄现场与书法无关的背景,在获取模块201获取到上述照片之后,可以按照实际需求进行图像预处理,例如裁剪、旋转或缩放。以及通过获取模块201为待识别的书法图像设置固定的尺寸以便于进行书法风格识别,以得到符合预设标准的待识别的书法图像。

作为一种可选的实施方式,所述获取模块201可以将待识别的书法图像处理为预设尺寸的图像。例如,可以通过获取模块201将待识别的书法图像的尺寸设置为128×128×3。需要说明的是,上述尺寸仅为示例,本领域的技术人员可以根据实际需要设置为其他尺寸,本申请实施例对此不做限定。

作为一种可选的实施方式,处理模块202可以对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合。其中,可以在每次特征处理中设置多轮次特征提取,以提高特征提取的准确度。例如将特征提取的次数设定为2,使包括待识别的书法图像的原始特征图在一次特征处理的过程中进行两次特征提取,充分提取所述原始特征图像的全局特征,增强所述待识别的书法图像的全局特征对最终得到的书法风格识别结果的关联。

此外,在进行特征增强时,可以基于包含所述待识别的书法图像特征的当前特征图的特征空间均值和方差获取能量分布值,并根据所述能量分布值对所述当前特征图进行特征增强处理,得到增强特征图。其中,所述能量分布值可以根据所述当前特征空间均值和方差计算当前特征图的能量分布函数来获取。

作为一种可选的实施方式,处理模块202对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合,具体包括:

获取原始特征图。其中,所述原始特征图基于历史更新特征图获取,所述历史更新特征图包括初始特征图,所述初始特征图基于所述待识别的书法图像获取。

基于所述原始特征图获取当前特征图。其中,可以根据设定维度,采用卷积和批归一化处理对所述原始特征图进行特征提取,得到当前特征图。

基于所述当前特征图的特征空间均值和方差获取所述当前特征图的能量分布值,所述能量分布值用于增强所述待识别的书法图像的字体中的风格特征,弱化所述待识别的书法图像的字体中的背景特征。

利用当前特征图的能量分布值对所述当前特征图进行特征增强,得到增强特征图。

若所述增强特征图达到所述预设维度,则将所述增强特征图作为所述待识别的书法图像的特征向量;以及

若所述增强特征图未达到所述预设维度,则将所述增强特征图与所述原始特征图融合,得到更新特征图,并将所述更新特征图作为下一特征处理步骤的原始特征图。

作为一种可选的实施方式,识别模块203通过计算所述特征向量被分类到各候选识别结果的分类概率,再根据分类概率获取对应的候选结果作为所述待识别的书法图像对应的风格识别结果。具体可以先利用全局平均池化和线性映射对待识别的书法图像对应的特征向量进行处理,即先通过全局平均池化对所述特征向量进行降维和抽象处理,得到二维特征向量。再通过线性映射将所述二维特征映射为一维特征向量。其中,一维特征向量为一行n列的矩阵向量,n代表所述一维向量被分类到n个字体风格(候选结果)对应的n个概率值,即待识别的书法图像被分类到n个字体风格(候选结果)中的概率,并以最大的概率值对应的字体风格(候选结果)作为待识别的书法图像的风格,即将分类概率值最大对应的字体风格(候选结果)作为待识别书法图像的识别结果。

本申请实施例提供的书法风格识别装置,可以通过获取模块201获取待识别的书法图像,然后通过处理模块202以获取所述待识别的书法图像中的字体风格特征为目标,对所述待识别的书法图像进行包括特征提取、特征增强和特征融合在内的特征处理,直至得到设定维度的特征向量,所述字体风格特征,再通过识别模块203根据所述字体风格特征获取对应的风格识别结果。由于处理模块202在进行特征增强处理时,是基于当前特征图的特征空间均值和方差获取的能量分布值,即特征增强权重,而不是现有技术中的基于预先训练得到的权重参数;因此,在处理模块202进行特征增强之前,无需使用预先训练用于特征增强的网络模型(即现有技术中的注意力增强模块),而是可以直接根据输入的特征图本身的能量分布值进行特征增强,相当于使用了无参数的注意力进行特征增强,不需要针对每一个特征增强权重参数进行拟合训练,显著降低了特征增强过程中计算资源的消耗,同时也通过对特征的增强提高了特征的表征能力。

另外,通过处理模块202进行特征处理的一些特征处理步骤还会将特征增强后的增强特征图与特征增强前的当前特征图进行融合,然后以融合后得到的更新特征图作为下一特征处理步骤的输入;即所述融合后得到的更新特征图既包括增强特征,也包括原始特征,兼顾了特征增强对待识别书法图像中字体风格特征的显著化处理,同时弥补了特征增强可能导致的所述字体风格细节的丢失。因此,本申请实施例中处理模块202进行特征融合的步骤可以避免多次特征增强导致的特征消失和特征退化的问题,增强了对书法风格特征的完整提取能力,提高了最终风格识别结果的准确度。

示例性介质

在介绍了本申请示例性实施方式的方法和装置之后,接下来,参考图6对本申请示例性实施方式的计算机可读存储介质进行说明,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,获取待识别的书法图像;以增强所述待识别的书法图像中的字体风格特征为目标对所述待识别的书法图像进行至少一次特征处理,直至所述待识别的书法图像被处理为预设维度的特征向量;其中,对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合;其中,在进行特征增强时,基于当前特征图的特征空间均值和方差获取能量分布值,并根据所述能量分布值对所述当前特征图进行特征增强处理,得到增强特征图;在进行特征融合时,将增强特征图与原始特征图融合,得到用于下一特征处理步骤的更新特征图;基于所述特征向量获取所述待识别的书法图像对应的风格识别结果。各步骤的具体实现方式在此不再重复说明。

需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

示例性计算设备

在介绍了本申请示例性实施方式的方法、介质和装置之后,接下来,参考图7对本申请示例性实施方式的用于书法风格识别的计算设备。

图7示出了适于用来实现本申请实施方式的示例性计算设备40的框图,该计算设备40可以是计算机系统或服务器。图7显示的计算设备40仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示,计算设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。

计算设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)4021和/或高速缓存存储器4022。计算设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM7023可以用于读写不可移动的、非易失性磁介质(图7中未显示,通常称为“硬盘驱动器”)。尽管未在图7中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。系统存储器402中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块4024的程序/实用工具4025,可以存储在例如系统存储器402中,且这样的程序模块4024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块4024通常执行本申请所描述的实施例中的功能和/或方法。

计算设备40也可以与一个或多个外部设备404(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口405进行。并且,计算设备40还可以通过网络适配器406与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器406通过总线403与计算设备40的其它模块(如处理单元401等)通信。应当明白,尽管图7中未示出,可以结合计算设备40使用其它硬件和/或软件模块。

处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如,获取待识别的书法图像;以增强所述待识别的书法图像中的字体风格特征为目标对所述待识别的书法图像进行至少一次特征处理,直至所述待识别的书法图像被处理为预设维度的特征向量;其中,对所述待识别的书法图像进行一次特征处理的方式至少包括特征提取、特征增强和特征融合;其中,在进行特征增强时,基于当前特征图的特征空间均值和方差获取能量分布值,并根据所述能量分布值对所述当前特征图进行特征增强处理,得到增强特征图;在进行特征融合时,将增强特征图与原始特征图融合,得到用于下一特征处理步骤的更新特征图。基于所述特征向量获取所述待识别的书法图像对应的风格识别结果。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了图像识别模型的训练装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

相关技术
  • 音乐风格识别方法、装置、计算机设备及存储介质
  • 声纹识别方法、装置、计算机设备和计算机可读存储介质
  • 双层车牌识别方法、装置、计算机设备及存储介质
  • 人脸识别方法、装置、计算机设备及存储介质
  • 语音类别的识别方法、装置、计算机设备和存储介质
  • 书法作品风格的识别方法、装置、电子装置和存储介质
  • 图像风格识别方法、装置、计算机设备及存储介质
技术分类

06120115919664