掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及一种人工智能OCR识别领域,更涉及一种基于增强透视的人工智能的OCR识别方法。

背景技术

在对现实拍摄的图片文字进行识别时,由于其拍摄角度往往不是正对着文字进行拍摄,导致传统的人工智能OCR识别在文字透视角度过大时经常识别有误,甚至是识别不出,不能满足自然拍摄的识别准确率要求。

发明内容

本发明是为了解决上述现有技术存在的不足之处,提出一种基于增强透视的光学文字识别方法,以期能够支持自动识别透视角度大的图片中的文字,从而增加识别的准确率。

本发明为达到上述发明目的,采用如下技术方案:

本发明一种基于增强透视的光学文字识别方法的特点包括:

步骤1、数据准备:

获取透视角度为“0”的N张原图片作为待处理图片集,且所述待处理图片集包含10种数字0-9的原图片、26种小写字母a-z的原图片、26种大写字母A-Z的原图片;

步骤2、数据标注:

利用标注工具按照所述待处理图片集中每张图片的文字内容,对所述待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,所述标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令所述矩形框的四个顶点的坐标记为(x

步骤3、对所述待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;

步骤3.1、定义两个透视参数分别为a

步骤3.2、初始化a

步骤3.3、初始化a

步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换,得到变换后的像素点[x y],从而对每个像素点进行透视变换,并得到透视变换后的一张图片:

式(1)中,x表示透视变换后的横坐标,y表示透视变换的后纵坐标,u表示透视变换前的横坐标,v表示透视变换前的纵坐标;

步骤3.5、将a

步骤3.6、将a

步骤3.7、按照步骤3.2-步骤3.6的过程对所述待处理图片集中的所有图片进行处理,从而得到N×n×n张透视变换后的图片所构成的增强图片集;

步骤4、建立并训练复杂场景下的图片文字识别模型,包括:ResNet网络、conv5网络、GRU层、全连接层;

步骤4.1、使用ResNet网络作为模型首层,并对增强图片集进行特征提取,获得维度为[N

步骤4.2、利用所述conv5网络对特征矩阵M

步骤4.3、利用Reshape操作将特征向量矩阵M

利用Reshape逆操作将向量序列特征M

步骤4.4、将四维特征向量矩阵M

步骤4.5、利用Reshape操作将所述增强图片集中的一张图片x的标注矩阵转换为维度为3×512×4的矩阵;利用式(3)建立图片文字识别模型的损失函数Loss:

式(3)中,i表示全连接层中任意一个单元;p

步骤4.6、基于所述增强图片集,利用梯度下降法对所述图片文字识别模型进行训练,并计算损失函数Loss,用于更新模型的参数,直到达到最大训练次数或是损失函数Loss收敛为止,从而得到训练好的最优图片文字识别模型用于对待识别的图片进行光学文字识别。

与现有技术相比,本发明的有益效果在于:

本发明通过采用人工智能神经网络来训练透视增强数据集,解决了现有技术中对于透视角度大的图片中的文字无法识别的问题,提高了复杂场景下OCR识别的准确率。

具体实施方式

本实施例中,一种基于增强透视的光学文字识别方法,包括:

步骤1、数据准备:

获取透视角度为“0”的N张原图片作为待处理图片集,且待处理图片集包含10种数字0-9的原图片、26种小写字母a-z的原图片、26种大写字母A-Z的原图片;

步骤2、数据标注:

利用标注工具按照待处理图片集中每张图片的文字内容,对待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令矩形框的四个顶点的坐标记为(x

步骤3、对待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;

步骤3.1、定义两个透视参数分别为a

步骤3.2、初始化a

步骤3.3、初始化a

步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换,得到变换后的像素点[x y],从而对每个像素点进行透视变换,并得到透视变换后的一张图片:

式(1)中,x表示透视变换后的横坐标,y表示透视变换的后纵坐标,u表示透视变换前的横坐标,v表示透视变换前的纵坐标;

步骤3.5、将a

步骤3.6、将a

步骤3.7、按照步骤3.2-步骤3.6的过程对待处理图片集中的所有图片进行处理,从而得到N×n×n张透视变换后的图片所构成的增强图片集;将增强图片集按照60%、30%、10%的比例将分别随机分为训练集、验证集和测试集。

步骤4、建立并训练复杂场景下的图片文字识别模型,包括:ResNet网络、conv5网络、GRU层、全连接层;

步骤4.1、使用ResNet网络作为模型首层,并对增强图片集进行特征提取,获得维度为[N

步骤4.2、利用conv5网络对特征矩阵M

步骤4.3、利用Reshape操作将特征向量矩阵M

利用Reshape逆操作将向量序列特征M

步骤4.4、将四维特征向量矩阵M

步骤4.5、利用Reshape操作将增强图片集中的一张图片x的标注矩阵转换为维度为3×512×4的矩阵;利用式(3)建立图片文字识别模型的损失函数Loss:

式(3)中,i表示全连接层中任意一个单元;p

步骤4.6、基于增强图片集,利用梯度下降法对图片文字识别模型进行训练,并计算损失函数Loss,用于更新模型的参数,直到达到最大训练次数或是损失函数Loss收敛为止,从而得到训练好的最优图片文字识别模型用于对待识别的图片进行OCR识别。

本实施例中,模型训练时batch_size设置为32。当完成一个bacth训练后,使用此时的最新的模型在验证集上进行测试,模型在训练过程中分别对模型预测的横坐标信息、纵坐标信息、内容进行模型的损失计算,本方法中该过程迭代100次后,保存在验证集上应用效果最好的模型文件,供模型应用时调用。

技术分类

06120114711370