一种基于中心损失的文字识别改进训练方法

文献发布时间：2023-06-19 12:24:27

技术领域

本发明涉及光学文字识别领域，具体来说，涉及一种基于中心损失的文字识别改进训练方法。

背景技术

文字识别技术是非常广泛使用的一种从图像中识别出文字的方法，主要通过图像处理和模式识别等技术来识别图片中的光学字符，并将其翻译成计算机文字。其被广泛用于生产生活中，如身份证、驾驶证、护照、表格、发票等包含文字信息的图片识别。

目前使用最广泛的文字识别技术是以卷积循环神经网络为主干网络，配以连接时域分类损失函数或基于注意力机制的损失函数进行训练的方法。这种方法在大部分情况下都可以取得较为理想的识别结果，但是对于形近字的识别结果通常较差。形近字问题是文字识别领域的一个难题，由于形近字在特征空间中分布比较相似，因此网络通常比较难将其区分开来，如何将形近字的特征区分开来是解决形近字识别问题的一个重点方向。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于中心损失的文字识别改进训练方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于中心损失的文字识别改进训练方法，包括以下步骤：

S1、利用卷积循环网络在文字识别数据集上进行训练至收敛，得到预训练模型；

S2、对字典里的所有字生成单独的图片并获得一个单字数据集，而后使用预训练模型对所有单字数据集进行预测，通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心，将所获取的单字的特征中心来构建一个字典的特征中心；

S3、利用所获取的字典的特征中心来构建中心损失函数，将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛。

进一步的，所述S1中利用卷积循环网络在文字识别数据集上进行训练至收敛，得到预训练模型包括以下步骤：

S11、将文字图片输入到卷积循环神经网络中，并提取语义特征F1；

S12、将提取到的语义特征F1输入到连接层F

S13、将分类特征z输入到连接时域分类损失函数中进行损失函数的计算，对网络的模型权重参数进行更新。

进一步的，所述S2中对字典里的所有字生成单独的图片并获得一个单字数据集，而后使用预训练模型对所有单字数据集进行预测，通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心，将所获取的单字的特征中心来构建一个字典的特征中心包括以下步骤：

S21、对于字符数为D的字典，构建一个大小为D×S维的中心特征矩阵C；

S22、将单字图片输入卷积循环神经网络中，并取得语义特征F1；

S23、将语义特征F1输入到连接层F

进一步的，所述S3中利用所获取的字典的特征中心来构建中心损失函数，将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛包括以下步骤：

S31、将字段图片输入到加载了预训练模型的卷积循环网络中得到语义特征F1；

S32、将语义特征F1输入到全连接层F

进一步的，所述S23中将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z的步骤包括：

使用SoftMax函数将其归一化，得出每个位置上对应字典中每个字的概率值；

其中，概率值公式为：

进一步的，所述S32中将语义特征F1输入到全连接层F

将分类特征Z输入到CTC损失函数进行损失函数的计算与模型的权重参数更新；

对分类特征Z进行处理得到分类特征Z中每个位置的概率y，并找出其对应的字符串S；

对字符串S进行去重处理，获得去重后的字符串s。

进一步的，所述对字符串S进行去重处理，获得去重后的字符串s的步骤包括：

比较去重后的字符串s与输入图片字符的长度；

若去重后的字符串s与输入图片字符长度相等，先找出去重后的字符串s中对应字符的位置，并将F1中对应位置的特征提取出来，将输入图片字符对应位置的中心特征提取出来；

若去重后的字符串s与输出图片字符长度不等，则不计算中心损失也不更新中心特征矩阵。

进一步的，所述先找出去重后的字符串s中对应字符的位置，并将F1中对应位置的特征提取出来的步骤包括：

计算平方损失函数并更新模型参数；

其中，平方损失函数为

Loss为平方损失量，m为输入图片字符的长度，F1k为语义特征F1中对应位置的特征值，Cn为输入图片字符对应位置的中心特征值。

进一步的，所述将输入图片字符对应位置的中心特征提取出来的步骤包括：

使用现阶段的特征F1

计算对应位置的特征C

进一步的，所述将对应位置的特征C

根据加权公式获取新的中心特征值：

其中，加权公式为：

Cn为新的中心特征值，F1k为语义特征F1中对应位置的特征值，为权重且大小为0.05。

本发明的有益效果为：本发明采用的中心特征初始化模块，可以对中心特征进行快速地初始化一个相对准确地特征中心，防止网络在训练初期出现较大的梯度波动使得网络无法正确训练的问题，其建立了一种基于中心损失函数的训练方法，通过中心损失函数来缩短特征空间中单字特征类内的距离，使得形近字的特征更易可分，提升形近字的识别效果。

本发明采用的中心损失训练模型模块，可以使得同一个字的特征空间更为紧凑，对于形近字来说，可以让它们离各自的特征中心更加接近，使得形近字更容易被区分，从而提升网络对于形近字的识别率，通过这种方法，可以在不改变模型大小以及推理速度的情况下，提升模型在识别文字时的准确率，相比于之前的技术，本发明具有更加精确的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于中心损失的文字识别改进训练方法的流程图；

图2是根据本发明实施例的一种基于中心损失的文字识别改进训练方法的获取训练模型的流程图；

图3是根据本发明实施例的一种基于中心损失的文字识别改进训练方法获取中心点初始模块的流程图；

图4是根据本发明实施例的一种基于中心损失的文字识别改进训练方法的构建中心损失函数的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于中心损失的文字识别改进训练方法。

现结合附图和具体实施方式对本发明进一步说明，如图1-4所示，根据本发明实施例的基于中心损失的文字识别改进训练方法，包括以下步骤：

S1、利用卷积循环网络在文字识别数据集上进行训练至收敛，得到预训练模型；

其中，所述利用卷积循环网络在文字识别数据集上进行训练至收敛，得到预训练模型包括以下步骤：

S11、将文字图片输入到卷积循环神经网络中，并提取语义特征F1；

其中，语义特征F1包括输入图片中各文字的单字特征与句子的语义信息；

其中，单字特征包括字符在图片中的纹理信息、形态学信息；

其中，纹理信息可以包括但不限于灰度分布的均匀性、梯度分布的均匀性、梯度方差、灰度均方差、梯度均方差、模糊度等特征；

其中，形态学信息可以包括但不限于旋转角度、纵横比、周长、面积等特征；

其中，句子的语义信息包括但不限于前一字符的词性、后一字符的词性、前后字符的语义相关性、序列的语义相关性等信息。

S12、将提取到的语义特征F1输入到连接层F

其中，分类特征是对语义特征F1的加权线性求和，其主要表示图片横轴各位置属于字典中每一个字符的概率大小。

S13、将分类特征z输入到连接时域分类损失函数中进行损失函数的计算，对网络的模型权重参数进行更新；

按照模型训练的一般方法，在经过大量不同的文字图片多次重复这一步骤将网络训练至收敛之后，此时的网络模型即为预训练模型；

需注意，所提到的语义特征F1，其大小为L×S，根据输入图片的大小与卷积循环神经网络结构来决定；

需注意，这里的训练网络至收敛指的是使用此模型在同分布的验证集上进行验证，其字段准确率可以达到95%以上。

其中，所述S2中对字典里的所有字生成单独的图片并获得一个单字数据集，而后使用预训练模型对所有单字数据集进行预测，通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心，将所获取的单字的特征中心来构建一个字典的特征中心包括以下步骤：

S21、对于字符数为D的字典，构建一个大小为D×S维的中心特征矩阵C；

S22、将单字图片输入卷积循环神经网络中，并取得语义特征F1；

S23、将语义特征F1输入到连接层F

S3、利用所获取的字典的特征中心来构建中心损失函数，将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛。

其中，所述S3中利用所获取的字典的特征中心来构建中心损失函数，将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛包括以下步骤：

S31、将字段图片输入到加载了预训练模型的卷积循环网络中得到语义特征F1；

S32、将语义特征F1输入到全连接层F

其中，语义特征F1包括输入图片中各文字的单字特征与句子的语义信息；

其中，单字特征包括字符在图片中的纹理信息、形态学信息；

其中，纹理信息可以包括但不限于灰度分布的均匀性、梯度分布的均匀性、梯度方差、灰度均方差、梯度均方差、模糊度等特征；

其中，形态学信息可以包括但不限于旋转角度、纵横比、周长、面积等特征；

其中，句子的语义信息包括但不限于前一字符的词性、后一字符的词性、前后字符的语义相关性、序列的语义相关性等信息；

其中，分类特征是对语义特征F1的加权线性求和，其主要表示图片横轴各位置属于字典中每一个字符的概率大小。

其中，所述将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z的步骤包括：

使用SoftMax函数将其归一化，得出每个位置上对应字典中每个字的概率值；

其中，概率值公式为：

在y中第一行特征的长度为D，其中概率最大的位置在第2列，则字典中第2个字符就是这一行特征所对应的单字字符；

在找出所有位置的单字字符后，得到了一个长为L的字符串S,若字符串S中存在连续的重复字符，则将重复字符去掉，只保留首个字符；

例如：若获得的字符串为aaabbcc，则去重后的字符串为a_ _b_c；

其中，_代表被去掉的字符；

去重后的字符串用s表示，这时会有两种情况：

第一种情况：这时的去重后的字符串s只剩单个字符，则将特征F1中对应位置的特征提取出来，并将其更新到特征矩阵C对应字符位置；

例如，输入一张字符位置在字典的第n行的一张单字图片至网络中，获取了字符串s，在去重后发现此时单字符的位置在y的第k行，则提取F1中第k行的特征F1

其中，所述S32中将语义特征F1输入到全连接层F

将分类特征Z输入到连接时域分类损失函数进行损失函数的计算与模型的权重参数更新；

对分类特征Z进行处理得到分类特征z中每个位置的概率y，并找出其对应的字符串S；

对字符串S进行去重处理，获得去重后的字符串s。

其中，所述对字符串S进行去重处理，获得去重后的字符串s的步骤包括：

比较去重后的字符串s与输入图片字符的长度；

先找出去重后的字符串s中对应字符的位置，并将F1中对应位置的特征提取出来；

将输入图片字符对应位置的中心特征提取出来；

计算平方损失函数并更新模型参数；

其中，平方损失函数为

Loss为平方损失量，m为输入图片字符的长度，F1

其中，所述将输入图片字符对应位置的中心特征提取出来的步骤包括：

使用现阶段的特征F1

计算对应位置的特征C

其中，所述将对应位置的特征C

根据加权公式获取新的中心特征值：

其中，加权公式为：

例如：输入的图片中的字符串为abc，去重后的字符串s为a_ _b_c_，他们的长度都为3，满足情况一，则三个首字符的位置为1,4,6。那就将F1中对应位置的特征抽取出来，分别为F1

之后则是中心特征的更新，

若s与输出图片字符长度不等，则表示模型此时对图片中的一个或多个字符的预测存在较大的不确定性，所以此时无法准确地找出每个字符所对应特征的位置。因此跳过此步骤，不计算中心损失也不更新中心特征矩阵；

例如：输入的图片中字符串为abc，而去重后的字符串s为a_b_c_d，这时s的长度与输入图片字符串的长度不相等，则跳过此次中心损失的计算与中心特征矩阵的更新；之后则重复步骤S3，在训练模型至再次收敛后此时的网络模型即为最后的模型。

综上所述，借助于本发明的上述技术方案，本发明采用的中心特征初始化模块，可以对中心特征进行快速地初始化一个相对准确地特征中心，防止网络在训练初期出现较大的梯度波动使得网络无法正确训练的问题，其建立了一种基于中心损失函数的训练方法，通过中心损失函数来缩短特征空间中单字特征类内的距离，使得形近字的特征更易可分，提升形近字的识别效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：廖翔宇;张翊;吴名朝;
专利申请人：浩鲸云计算科技股份有限公司;

上一篇：一种基于浮标的潮位观测及预报方法
下一篇：基于TDOA的定位方法、装置、计算机设备及存储介质