掌桥专利:专业的专利平台
掌桥专利
首页

适用于用电业扩报装申请的图文资料自动识别方法及系统

文献发布时间:2023-06-19 10:41:48


适用于用电业扩报装申请的图文资料自动识别方法及系统

技术领域

本发明涉及识别技术领域,具体涉及适用于用电业扩报装申请的图文资料自动识别方法及系统。

背景技术

业扩报装工作是市场营销的一项重要内容,是为国民经济发展提供电力供应的一种手段,与电网建设、发展密切相关。在电力企业发展过程中,业扩报装业务就是对电力客户提出的申请进行回复和实施。电力企业的业扩报装业务流程主要为:电力客户提交用电办理申请,对业扩报装现场进行全面勘察,就供电方案给电力客户相应答复,对电力工程设计范围进行资质审核,对设计图纸进行审查,对施工单位资质进行审查,对电力工程施工作业进行检查,进行工程竣工验收,与电力客户签订合同,安装电表。

但对于用于用电业扩报装申请的图文资料的识别现有技术存在如下不足:在当前的电力企业的业扩报装业务中,缺乏高效率、高准确度的图文资料识别方法,无法实现对多种业扩报装业务相关的图文资料的高效自动识别。

发明内容

针对当前的电力企业的业扩报装业务中,缺乏高效率、高准确度的图文资料识别方法,无法实现对多种业扩报装业务相关的图文资料的高效自动识别的问题,本发明提供适用于用电业扩报装申请的图文资料自动识别方法及系统,包括:

获取用电业扩报装申请的图文资料并进行切割,得到包含字符的图像块;

将所述包含字符的图像块输入到预先优化好的深度卷积神经网络字符识别模型,得到从所述包含字符的图像块中识别的字符;

其中,所述深度卷积神经网络字符识别模型利用包含字符的历史图像块和所述历史图像块对应的字符对神经网络进行优化训练得到。

优选的,所述深度卷积神经网络字符识别模型的优化,包括:

基于包含字符的历史图像块和所述历史图像块对应的字符构建样本集;

基于所述样本集,利用神经网络优化方法对神经网络中的参数进行优化训练和校验,得到优化好的深度卷积神经网络字符识别模型。

优选的,所述图像块中的字符,包括下述中的至少一种:中文、数字和字母。

优选的,所述利用神经网络优化方法对神经网络中的参数进行优化训练和校验,包括:

获取神经网络中每一个字符的权重和偏置的集合;

利用正则化方法对所述每个权重进行L2正则化处理,得到正则化处理后的权重;

利用指数衰减法设置权重和偏置更新幅度的学习率,得到设置好的适用于所述每个权重和偏置更新迭代至最优值的学习率;

基于所述每个权重和偏置的集合、正则化处理后的权重及设置好的适用于所述每个权重和偏置更新迭代至最优值的学习率;

利用BP算法将所述神经网络中每一个字符的权重和偏置的集合调整至适用于梯度下降法的范围,得到调整好的神经网络中每一个字符的权重和偏置;

再利用梯度下降法将所述调整好的神经网络中的每一个字符的权重和偏置更新迭代至最优值。

优选的,所述利用梯度下降法将所述调整好的神经网络中的每一个字符的权重和偏置更新迭代至最优值,按下式确定:

式中,θ

其中,按下式确定所述学习率η:

式中,η是每个参数更新迭代所使用的学习率,η

优选的,所述利用神经网络优化方法对神经网络中的参数进行优化,还包括:

利用交叉熵作为所述深度卷积神经网络字符识别模型输出和期望值之间的接近程度的评判依据。

优选的,所述利用神经网络优化方法对神经网络中的参数进行优化训练和校验,还包括:

利用基于模板的最近邻算法、全连接神经网络及未优化的深度卷积神经网络对所述神经网络中的参数进行优化校验。

优选的,所述获取用电业扩报装申请的图文资料并进行切割,得到包含字符的图像块,包括:

利用二值化方法对所述获取到的图文资料或历史图文资料进行处理,得到以像素点呈现的图文资料;

利用统计投影法将所述以像素点呈现的图文资料或历史图文资料的像素点进行水平方向投影,得到所述以像素点呈现的图文资料或历史图文资料的水平方向投影像素点统计图,根据所述以像素点呈现的图文资料或历史图文资料的水平方向投影像素点统计图,利用与所述图文资料或历史图文资料中待提取内容对应的像素点对图文资料或历史图文资料中的内容进行提取,得到提取后的以像素点显示的图文资料或以像素点显示的历史图文资料;

利用图像大小归一化方法对所述提取后的以像素点显示的图文资料或以像素点显示的历史图文资料进行切割,得到包含字符的图像块或历史包含字符的图像块。

适用于用电业扩报装申请的图文资料识别系统,包括:

图文资料处理模块,用于获取用电业扩报装申请的图文资料并进行切割,得到包含字符的图像块;

图文资料识别模块,用于将所述包含字符的图像块输入到预先优化好的深度卷积神经网络字符识别模型,得到从所述包含字符的图像块中识别的字符;

其中,所述深度卷积神经网络字符识别模型利用包含字符的历史图像块和所述历史图像块对应的字符对神经网络进行优化训练得到。

优选的,所述图文资料识别模块,包括:

样本集构建子模块,用于基于包含字符的历史图像块和所述历史图像块对应的字符构建样本集;

模型优化训练和校验子模块,用于基于所述样本集,利用神经网络优化方法对神经网络中的参数进行优化训练和校验,得到优化好的深度卷积神经网络字符识别模型。

与现有技术相比,本发明的有益效果为:

本发明提供适用于用电业扩报装申请的图文资料自动识别方法及系统,包括:获取用电业扩报装申请的图文资料并进行切割,得到包含字符的图像块;将所述包含字符的图像块输入到预先优化好的深度卷积神经网络字符识别模型,得到从所述包含字符的图像块中识别的字符;其中,所述深度卷积神经网络字符识别模型利用包含字符的历史图像块和所述历史图像块对应的字符对神经网络进行优化训练得到。利用神经网络优化方法提高了神经网络识别模型的识别准确率和识别精度,进而提高了字符识别速度,为用电业扩报装申请提供高效率的适用于用电业扩报装申请的图文资料自动识别方法及系统。

附图说明

图1为本发明的图文资料自动识别方法及系统示意图;

图2为水平方向投影直方图;

图3为利用投影统计法提取后的效果图;

图4为图像归一化效果图;

图5为深度卷积神经网络字符识别模型结构图;

图6为神经网络内部结构示意图;

图7为CNN训练过程图。

具体实施方式

针对电力营业厅低压业扩报装业务中的低压居民新装(增容)、低压非居民新装(增容)、更名、过户、低压销户、居民峰谷分时变更、暂拆及复装、移表、迁址、分户、并户等11项业务,其中,对低压居民新装(增容)、低压非居民新装(增容)、更名、过户、低压销户、居民峰谷分时变更、暂拆及复装、移表等8项业务及其他4项业务需要的业扩报装材料及其他相近业务所需要的业扩报装材料,本发明提供一种适用于用电业扩报装申请的图文资料自动识别方法及系统,如图1所示。

实施例1

本发明适用于用电业扩报装申请的图文资料识别方法,包括以下步骤:

步骤一:获取用电业扩报装申请的图文资料并进行切割,得到包含字符的图像块。

步骤二:将所述包含字符的图像块输入到预先优化好的深度卷积神经网络字符识别模型,得到从包含字符的图像块中识别的字符。

步骤一中包括:适用于用电业扩报装图文资料的获取及对获取到的适用于用电业扩报装的图文资料进行处理。

1.适用于用电业扩报装图文资料的获取

在本实施案例中,采用现有Windows Presentation Foundation框架实现界面功能,用户在人机交互界面输入业务报装需要的文字资料,部分证件使用外置高拍仪的方式获取适用于用电业扩报装的图像资料。

2.对获取到的适用于用电业扩报装的图文资料进行切割处理

根据第二步提取的业务报装数据,对图像中的字符进行切割与定位。图像数据在本实施案例中,可以通过设定拍摄窗口的方式获得图像资料的整个版面信息,为了减少图像资料的处理量和提取区域,将拍摄得到的图像做灰度化处理。

在本实施案例中,利用身份证图像作为样本,其中采用的ostu方法是一种常用的二值化方法,此方法是通过统计整个图像的直方图特性来实现全局阈值的自动选取,图像像素能够根据阈值被分成背景和目标两部分。

基于二值化处理后的身份证图像,通过投影统计法来提取身份证号码行内容。

首先对需要识别的身份证图像中的内容进行定位。

在对身份证图像中内容进行定位之后,再利用上述定位方法对整个身份证图像进行内容定位的遍历,然后将其黑色像素点往水平方向投影,如图2所示,然后统计每一行黑色像素点数目。

根据图2中的像素坐标确定最右侧的波柱对应的是身份证的号码行,再利用设置阈值来实现对身份证的号码行的提取,最终提取出的身份证号码如图3所示。

然后再重复上述方法对已经提取出来的身份证号码行中的每个字符进行提取,得到每个包含字符的图像块。

在本实施例中,通过利用图片大小归一化方法解决投影得到的字符图像宽度并不一致问题以及对神经网络的输入进行规范化处理。经上述处理后的字符图像宽高比例大概为3∶4,所以利用图片大小归一化方法将字符图像归一化为15×20大小。

在本实施案例中采用图片大小归一化方法中的双线性插值法来归一化图像大小,步骤如下:将原图高宽设定为height X×width Y,原图像素坐标用(x,y)表示,要变换为高宽height I×width J的目标图,目标图像素坐标用(i,j)表示,变换公式为:

式中,θ

gray(i,j)=gray(x-1,y)×s

式中,gray(i,j)表示图像在(i,j)点处的灰度值;si(i=1,2,3,4)表示对应点的对角点与点(x,y)确定的正方形的面积。通过图像归一化方法处理后的身份证号码效果如图4所示。

步骤二中,包括:样本集的构建和模型的优化训练和校验。

1.样本集的构建

获取历史用电业扩报装的图文资料,并对历史用电业扩报装的图文资料进行切割处理,得到历史包含字符的图像块。

利用历史包含字符的图像块和与历史包含字符的图像块对应的字符制作成样本集;

将样本集按照设定比率划分为训练集和测试集。

2.模型优化训练和校验

在利用深度卷积神经网络字符识别模型进行识别之前,需要对深度卷积神经网络字符识别模型进行训练。

采用训练集中的历史图像块作为深度卷积神经网络字符识别模型的输入,将历史图像块对应的字符作为深度卷积神经网络字符识别模型的输出进行训练;

基于测试集中的历史图像块作为深度卷积神经网络字符识别模型的输入,得到对历史图像块进行识别得到的字符;

基于对测试集中的历史图像块进行识别后得到的字符,对深度卷积神经网络字符识别模型的进行校验。

基于切割后得到的包含字符的图像块,利用深度卷积神经网络字符识别模型进行识别。

深度卷积神经网络是在图像识别方面使用较多且效果较好的深度前馈神经网络,因此采用卷积进行图像的特征计算,从而对图像块进行识别,深度卷积神经网络字符识别模型的结构如图5所示。

在本实施例中,首先利用使用5×5的卷积核对尺寸归一化为30×30的图像块进行卷积,卷积的步长为(1,1),进入卷积层进行处理过后进入BatchNorm层,之后再进入池化层,池化使用2×2大小的池化,步长为(2,2),池化采用最大池化的方法,深度卷积神经网络中总共有两层卷积层。

在本实施例中,由于输入图像块本身较小,所以仅利用两层卷积进行提取特征。第一层的卷积层使用16个5×5大小的卷积核进行特征提取,得到26×26×16的特征图,再经过2×2的池化,得到为13×13×16大小的二维特征图,第二次的卷积由于为使卷积后的特征图适合2×2的池化,使用了32个4×4大小的卷积核,再经过2×2的最大池化后,得到5×5×32大小的二维特征图,再经过三层全连接,全连接第二层使用1024大小,第三层为6392。最后通过SoftMax分类器(逻辑回归分类器)得到识别出最大可能的字符的序号,即识别出字符。

在利用深度卷积神经网路字符识别模型进行识别过程中,识别的难度主要在于:字符的类别数量较多,且字符图像的大小也仅为30×30,虽然中文字符的常用字符仅三千多个,但是一个识别模型必须能够识别所有的中文简体字,本实施例使用的识别模型分类输出为6392种。

另一方面,中文字符的形近字也是识别过程中难以解决的问题,例如“日”与“曰”在经过图像归一化后,差别较小。其次经过图像归一化方法处理后,由于中文字符中有的字符结构非常复杂,有的字符图像块已经接近为一团黑色,很难进行识别。另外,还有的数字字符与中文字符相近的字符也很难识别出来。

因此需要对深度卷积神经网络字符识别模型进行进一步的优化,在本实施例中,首先要进行网络结构搭建,搭建神经网络一般采用分层结构,输入层作为第一层神经网络,该层的每一个输入神经元对应特征向量中每一个特征的取值,同层节点彼此独立没有任何连接,按照传递方向每层节点只与后一层节点连接直至到输出层。传递是有方向性进行的,传递路径不可逆。在输入层和输出层之间的神经网络叫做隐藏层。网络中所有的神经元具有完全相同的结构,如图6所示。

利用BP算法和梯度下降法来优化神经网络中参数的取值。参数调优是使用神经网络时最为关键的步骤之一,优化策略的优劣直接影响了网络最终的识别性能。梯度下降法能将单个参数更新迭代到局部最优值,反向传播算法给出了一个高效的方式能在所有参数上使用梯度下降算法。用θ表示神经网络中的参数,J(θ)表示在参数为θ时网络模型在训练集上损失函数,则优化过程就是寻找一个参数θ,使得J(θ)最小。学习率用来控制每次参数更新的幅度,参数更新公式为:

式中,θ表示神经网络中的参数;η表示学习率;J(θ)表示在参数为θ时网络模型在训练集上损失函数。学习率是训练神经网络最重要的超参数,如果η过大,则有可能导致参数在极优值的两侧来回震荡移动,更有甚者会不收敛;如果η过小,虽然保证网络收敛,但牺牲了优化速度。因此η的选取不能过大也不能过小,所以在本实施例中使用指数衰减法来设置学习率:

式中,η是每一轮优化时所使用的学习率:η

利用正则化方法来解决神经网络过拟合问题,主要由于神经网络在训练时网络经常会发生过拟合现象,也就是神经网络“记住”了训练集中每一个随机噪声而忽略了根据趋势进行合理排除的能力。而正则化方法的思想是令每一个网络参数(权重和偏置)都能对预测产生一点影响,而不是只有其中几个网络参数起决定作用。在本实施例中,具体就是在优化时不是直接对J(θ)进行优化,而是对J(θ)+λR(w)进行优化。λ为参数惩罚系数,R(w)表示对网络参数的抑制惩罚,θ为神经网络参数集合(所有权重w和偏置b)。常用的惩罚函数R(w)有2种方式:L1正则化和L2正则化。在本实施例中,使用L2正则化,计算公式为:

式中,R(w)为惩罚函数;

利用softmax分类器也就是逻辑回归分类器优化神经网络的分类。因为神经网络应用于分类时一般不直接输出结果为哪类,而是输出一个一维数组向量,向量的长度为类别个数。判断每一个样例分类网络就输出一个数组,数组中的每一个元素对应一个类别的得分。如果某个样本属于A类,那么此时网络的输出数组对应于A的元素应该为1,数组其余元素均为0。但是这样的输出在意义上很难直观理解,所以可以利用逻辑回归分类器来优化分类。

当神经网络输出为y

式中,y′

采用交叉熵(cross entropy)评判输出向量和期望向量之间的接近程度从而优化神经网络识别准确率。在本实施例中,利用交叉熵刻画了2个概率分布的距离,给定2个概率分布p(x)和q(x),通过q(x)来表示p(x)的交叉熵为:

式中,H(p,q)为概率分布q(x)对概率分布p(x)的交叉熵;p(x)和q(x))为概率分布。以上公式的意义是通过概率分布q(x)来表达概率分布p(x)的困难程度。因为期望值是得到正确的结果,所以选取交叉熵作为神经网络的损失函数时,用p(x)表示样例正确的分类标注,用q(x)表示网络输出的预测值。交叉熵表示p(x)、q(x)越接近(即预测得越准确)。结合以上两个公式可以得到神经网络的损失函数为:

式中,H(p,y

实施例2

针对验证本发明中的算法识别性能,在本实施例中共设计3个实验对本发明中的深度卷积神经网络字符识别模型进行验证,其中包括:基于模板匹配法和kNN算法进行验证、基于全连接网络进行验证及基于字符识别的准确率进行验证。

1.基于模板匹配法和kNN算法进行验证

根据图像归一化方法处理后得到的字符在15×20大小区域中位置相对固定,可使用模版匹配法来结合kNN算法来进行识别。

kNN算法也叫最近邻法,算法的思想是,每个字符类各取n个有代表性的不同相态字符作为标准模版。待识别图片要进行识别时,将图片与模版里的每一张图片逐个像素点做灰度差值计算,求出2张图片的像素差值绝对之和。

在本实施案例中,在所有模版选取出前5张与待识别图像像素差值绝对值之和最小的图片,统计这5张图片属于哪一个字符类最多的即判断图片为该类,若图片所属类别样例数一样,则选排序在前的类别作为判断类别,如表1所示kNN模板匹配法识别结果。

表1

kNN模版匹配法识别的正确性很大程度上依赖于标准模版的规模。标准模版规模越大,识别正确率越高,但是因为每一次识别时图片都要与模版库里面所有的图片做比较,模版库规模越大,识别所需时间越长。

2.基于全连接网络进行验证

在本实施例中,待识别图片大小为15×20=300个像素点,因此输入层神经元为300个,输出为11类,所以输出层为11个神经元。搭建一个3层全连接神经网络(输入层+掩藏层+输出层),采用1.2节的优化策略,隐藏层数目与正确率的关系如表2所示。

表2

在本实施例中,搭建一个4层全连接神经网络,输入层和2个隐藏层神经元数目相同,每层都为300个,输出层神经元为11个,测试的正确率为99.40%。搭建一个5层的全连接神经网络(每层隐藏层神经元数目与输入层一致),测试集上测试正确率为99.38%,由此可判断多层全连接神经网络与3层全连接神经网络识别性能相当。

3.基于字符识别的准确率进行验证

在本实施例中,实验所用为7层卷积网络,不含输入层,使用了2个卷积层+池化层组合。第1层卷积层接收的输入层大小为15×20×1的原始文字灰度图片像素,第1个卷积层过滤器的尺寸为5×5,深度为32,使用全0填充,步长为1。第2层池化层,采用最大池化降采样,选择尺寸为2×2的过滤器,使用全0填充且移动步长为2。第3层是卷积层,选取边长为5,深度为64的过滤器,移动的步长为1,使用全0填充。第4层池化层结构和第2层池化层结构一致。使用前文优化策略训练的过程,如图7所示。

在本实施例中,经过1200轮迭代训练,CNN网络在测试集上的识别正确率能达到99.96%。实验看到BP全连接神经网络和卷积神经网络的识别正确率相近,为了进一步比较2种网络的识别性能,对他们分别初始化训练5次,比较全连接网络和CNN网络在5次训练中测试集上的识别正确率,如表3所示。

表3

在本实施例中,在识别用时上,识别4086张图片各模型用时如表4所示。

表4

在本实施例中,训练的策略主要为将600×6392个训练图像打乱为600个文件夹。第一种为完全随机的训练,每次随机选取一个文件夹内所有图像进行训练;第二种则将真实数据与制造的数据分开,依次从真实数据与制造数据中选取一个文件夹的数据进行训练,即一个真实数据的文件夹一个制造的数据文件夹再一个真实数据文件夹。训练的策略结合模型的策略交叉进行测试。

在两次训练的过程中,为了判断是否过收敛,每次以文件夹的所有训练数据为单位进行训练后,对所有的测试数据进行测试,判断对测试数据的识别准确率,所连续5次的识别率有所下降,判断为已经过收敛,取第一次准确率下降的前一次作为训练的最优效果。每次对一个文件夹的数据进行训练大约需要5小时,本次实验中对模型的训练周期差不多在3-4天,即训练好平均需要选取20个文件夹。测试的数据使用1000多张非训练数据的身份证的字符进行,字符图像总数有53209个,使用上述两种策略的较差训练结果如表5所示。

表5

在本实施例中,使用全局的池化策略虽然一方面可以让识别图像不需要归一化,对不同尺寸的图像直接进行识别,并加快训练速度,但是其在识别率上差略一个百分点,同时,使用真伪数据进行交替的训练方式确实会充分加强真实数据对模型的影响,从而对会对模型的正确率有一定的提升,通过如表6所示的测试结果的比较。

表6系统识别实验结果

在本实施例中,OCR系统中最优考虑的还是对识别的准确度,而对于字符图像大小不一可以使用归一化处理,因此最后使用真伪数据交替训练的方式对直接使用三层全连接的模型进行训练得到的参数,以期得到最好的识别结果。OCR系统的整体识别,使用200张身份证图像进行测试,为了方便结果的统计,在PC上使用终端的客户端调用服务器程序对身份证图像进行识别,客户端发送一个图像处理请求和识别的图像,返回图像识别的结果,在返回的识别结果中,包括:与身份证图像中完全一致的姓名、性别、民族、地址、身份证号、生日、签发机关及有效期等相关内容。

实施例3

基于同一发明构思本发明还提供了一种适用于用电业扩报装申请的图文资料识别系统,包括:图文资料处理模块和图文资料识别模块。

1.图文资料处理模块,用于获取用电业扩报装申请的图文资料并进行切割,得到包含字符的图像块。

在图文资料处理模块中包括:图文资料获取子模块和图文资料切割子模块。

图文资料获取子模块,用于采用现有Windows Presentation Foundation框架实现界面功能,用户在人机交互界面输入业务报装需要的文字资料,部分证件使用外置高拍仪的方式获取适用于用电业扩报装的图像资料。

根据图文资料获取子模块提取的业务报装数据,对图像中的字符进行切割与定位。图像数据在本实施案例中,可以通过设定拍摄窗口的方式获得图像资料的整个版面信息,为了减少图像资料的处理量和提取区域,将拍摄得到的图像做灰度化处理。

图文资料切割子模块,在本实施例中,利用身份证图像作为样本,其中采用的ostu方法是一种常用的二值化方法,此方法是通过统计整个图像的直方图特性来实现全局阈值的自动选取,图像像素能够根据阈值被分成背景和目标两部分。

基于二值化处理后的身份证图像,通过投影统计法来提取身份证号码行内容。

首先对需要识别的身份证图像中的内容进行定位。

在对身份证图像中内容进行定位之后,再利用上述定位方法对整个身份证图像进行内容定位的遍历,然后将其黑色像素点往水平方向投影,如图2所示,然后统计每一行黑色像素点数目。

根据图2中的像素坐标确定最右侧的波柱对应的是身份证的号码行,再利用设置阈值来实现对身份证的号码行的提取,最终提取出的身份证号码如图3所示。

然后再重复上述方法对已经提取出来的身份证号码行中的每个字符进行提取,得到每个包含字符的图像块。

在本实施例中,通过利用图片大小归一化方法解决投影得到的字符图像宽度并不一致问题以及对神经网络的输入进行规范化处理。经上述处理后的字符图像宽高比例大概为3∶4,所以利用图片大小归一化方法将字符图像归一化为15×20大小。

在本实施案例中采用图片大小归一化方法中的双线性插值法来归一化图像大小,步骤如下:将原图高宽设定为height X×width Y,原图像素坐标用(x,y)表示,要变换为高宽height I×width J的目标图,目标图像素坐标用(i,j)表示,变换公式为:

式中,θ

gray(i,j)=gray(x-1,y)×s

式中,gray(i,j)表示图像在(i,j)点处的灰度值;si(i=1,2,3,4)表示对应点的对角点与点(x,y)确定的正方形的面积。通过图像归一化方法处理后的身份证号码效果如图4所示。

2.图文资料识别模块,用于将所述包含字符的图像块输入到预先优化好的深度卷积神经网络字符识别模型,得到从所述包含字符的图像块中识别的字符;

在图文资料识别模块中,包括:样本集构建子模块及模型优化训练和校验子模块。

样本集构建子模块,用于获取历史用电业扩报装的图文资料,并对历史用电业扩报装的图文资料进行切割处理,得到历史包含字符的图像块。

利用历史包含字符的图像块和与历史包含字符的图像块对应的字符制作成样本集;

将样本集按照设定比率划分为训练集和测试集。

模型优化训练和校验子模块,用于利用深度卷积神经网络字符识别模型进行识别之前,需要对深度卷积神经网络字符识别模型进行训练。

采用训练集中的历史图像块作为深度卷积神经网络字符识别模型的输入,将历史图像块对应的字符作为深度卷积神经网络字符识别模型的输出进行训练;

基于测试集中的历史图像块作为深度卷积神经网络字符识别模型的输入,得到对历史图像块进行识别得到的字符;

基于对测试集中的历史图像块进行识别后得到的字符,对深度卷积神经网络字符识别模型的进行校验。

基于切割后得到的包含字符的图像块,利用深度卷积神经网络字符识别模型进行识别。

深度卷积神经网络是在图像识别方面使用较多且效果较好的深度前馈神经网络,因此采用卷积进行图像的特征计算,从而对图像块进行识别,深度卷积神经网络字符识别模型的结构如图5所示。

在本实施例中,首先利用使用5×5的卷积核对尺寸归一化为30×30的图像块进行卷积,卷积的步长为(1,1),进入卷积层进行处理过后进入BatchNorm层,之后再进入池化层,池化使用2×2大小的池化,步长为(2,2),池化采用最大池化的方法,深度卷积神经网络中总共有两层卷积层。

在本实施例中,由于输入图像块本身较小,所以仅利用两层卷积进行提取特征。第一层的卷积层使用16个5×5大小的卷积核进行特征提取,得到26×26×16的特征图,再经过2×2的池化,得到为13×13×16大小的二维特征图,第二次的卷积由于为使卷积后的特征图适合2×2的池化,使用了32个4×4大小的卷积核,再经过2×2的最大池化后,得到5×5×32大小的二维特征图,再经过三层全连接,全连接第二层使用1024大小,第三层为6392。最后通过SoftMax分类器(逻辑回归分类器)得到识别出最大可能的字符的序号,即识别出字符。

在利用深度卷积神经网路字符识别模型进行识别过程中,识别的难度主要在于:字符的类别数量较多,且字符图像的大小也仅为30×30,虽然中文字符的常用字符仅三千多个,但是一个识别模型必须能够识别所有的中文简体字,本实施例使用的识别模型分类输出为6392种。

另一方面,中文字符的形近字也是识别过程中难以解决的问题,例如“日”与“曰”在经过图像归一化后,差别较小。其次经过图像归一化方法处理后,由于中文字符中有的字符结构非常复杂,有的字符图像块已经接近为一团黑色,很难进行识别。另外,还有的数字字符与中文字符相近的字符也很难识别出来。

因此需要对深度卷积神经网络字符识别模型进行进一步的优化,在本实施例中,首先要进行网络结构搭建,搭建神经网络一般采用分层结构,输入层作为第一层神经网络,该层的每一个输入神经元对应特征向量中每一个特征的取值,同层节点彼此独立没有任何连接,按照传递方向每层节点只与后一层节点连接直至到输出层。传递是有方向性进行的,传递路径不可逆。在输入层和输出层之间的神经网络叫做隐藏层。网络中所有的神经元具有完全相同的结构,如图6所示。

利用BP算法和梯度下降法来优化神经网络中参数的取值。参数调优是使用神经网络时最为关键的步骤之一,优化策略的优劣直接影响了网络最终的识别性能。梯度下降法能将单个参数更新迭代到局部最优值,反向传播算法给出了一个高效的方式能在所有参数上使用梯度下降算法。用θ表示神经网络中的参数,J(θ)表示在参数为θ时网络模型在训练集上损失函数,则优化过程就是寻找一个参数θ,使得J(θ)最小。学习率用来控制每次参数更新的幅度,参数更新公式为:

式中,θ表示神经网络中的参数;η表示学习率;J(θ)表示在参数为θ时网络模型在训练集上损失函数。学习率是训练神经网络最重要的超参数,如果η过大,则有可能导致参数在极优值的两侧来回震荡移动,更有甚者会不收敛;如果η过小,虽然保证网络收敛,但牺牲了优化速度。因此η的选取不能过大也不能过小,所以在本实施例中使用指数衰减法来设置学习率:

式中,η是每一轮优化时所使用的学习率:η

利用正则化方法来解决神经网络过拟合问题,主要由于神经网络在训练时网络经常会发生过拟合现象,也就是神经网络“记住”了训练集中每一个随机噪声而忽略了根据趋势进行合理排除的能力。而正则化方法的思想是令每一个网络参数(权重和偏置)都能对预测产生一点影响,而不是只有其中几个网络参数起决定作用。在本实施例中,具体就是在优化时不是直接对J(θ)进行优化,而是对J(θ)+λR(w)进行优化。λ为参数惩罚系数,R(w)表示对网络参数的抑制惩罚,θ为神经网络参数集合(所有权重w和偏置b)。常用的惩罚函数R(w)有2种方式:L1正则化和L2正则化。在本实施例中,使用L2正则化,计算公式为:

式中,R(w)为惩罚函数;

利用softmax分类器也就是逻辑回归分类器优化神经网络的分类。因为神经网络应用于分类时一般不直接输出结果为哪类,而是输出一个一维数组向量,向量的长度为类别个数。判断每一个样例分类网络就输出一个数组,数组中的每一个元素对应一个类别的得分。如果某个样本属于A类,那么此时网络的输出数组对应于A的元素应该为1,数组其余元素均为0。但是这样的输出在意义上很难直观理解,所以可以利用逻辑回归分类器来优化分类。

当神经网络输出为y

式中,y′

采用交叉熵(cross entropy)评判输出向量和期望向量之间的接近程度从而优化神经网络识别准确率。在本实施例中,利用交叉熵刻画了2个概率分布的距离,给定2个概率分布p(x)和q(x),通过q(x)来表示p(x)的交叉熵为:

式中,H(p,q)为概率分布q(x)对概率分布p(x)的交叉熵;p(x)和q(x))为概率分布。以上公式的意义是通过概率分布q(x)来表达概率分布p(x)的困难程度。因为期望值是得到正确的结果,所以选取交叉熵作为神经网络的损失函数时,用p(x)表示样例正确的分类标注,用q(x)表示网络输出的预测值。交叉熵表示p(x)、q(x)越接近(即预测得越准确)。结合以上两个公式可以得到神经网络的损失函数为:

式中,H(p,y

显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

相关技术
  • 适用于用电业扩报装申请的图文资料自动识别方法及系统
  • 基于业扩报装稳定周期的用电生长曲线提取系统和方法
技术分类

06120112640262