掌桥专利:专业的专利平台
掌桥专利
首页

基于多尺度残差和注意力机制的发票文本识别方法及系统

文献发布时间:2023-06-19 19:27:02


基于多尺度残差和注意力机制的发票文本识别方法及系统

技术领域

本发明涉及计算机图像领域,更具体涉及基于多尺度残差和注意力机制的发票文本识别方法及系统。

背景技术

近年来,随着票据系统的快速发展,增值税发票是商业活动中的会计凭证和完税凭证,已经在各个领域中被广泛使用。目前,许多机构的财务报销主要依靠财务部门的相关人员进行整理、统计、录入和归档等,这些过程浪费了大量的人力、物力和时间,且可能出现信息录入错误的情况。光学字符识别是解决上述问题的关键技术,能快速准确地识别发票中的文本信息,可以有效地节约人力和物力成本,提高发票录入的效率,减少人为错误的发生,在发票的识别和录入过程中发挥着巨大的作用。

目前,文本识别的主要方法可分为传统的文本识别方法和深度学习方法。传统的文本识别方法主要有模板匹配算法、锚点定位方法和几何特征抽取方法等,这些方法可以从扫描之后的增值税图像进行信息的识别。然而,因为拍摄图片会在亮度、清晰度、模糊程度和噪声等因素上存在差别,传统的文本识别方法识别精度较差,在现实的应用中具有一定的局限性。由于深度学习方法具有更复杂的网络结构,已经被成功应用计算机视觉、自然语言处理和语音识别等复杂的任务中。相比于传统的文本识别方法,基于深度学习的文本识别方法具有更好的稳定性和泛化能力,且受到图片质量因素的影响较小,能从复杂的发票图像中准确地识别出文本信息。因此,基于深度学习的文本识别方法已经成为最新的研究趋势,但是仍存在以下不足:

(1)现有的深度学习方法使用单一尺度的卷积核从发票图像信息中提取特征,例如中国专利公开号CN111967471A公开的一种基于多尺度特征的场景文本识别方法,难以从发票图像中提取更全面的特征表示;此外,当网络过深时,在训练网络过程中容易出现梯度消失的问题;

(2)现有的文本识别方法仅考虑了单个字符的识别结果,未考虑前后字符之间的关系,忽略了发票文本中的上下文语义信息,导致文本识别的准确度不高。

发明内容

本发明所要解决的技术问题在于现有技术发票文本识别方法难以提取更全面的特征,容易出现梯度消失以及文本识别准确性不高的问题。

本发明通过以下技术手段实现解决上述技术问题的:基于多尺度残差和注意力机制的发票文本识别方法,包括以下步骤:

步骤1、对发票图像进行预处理,分割成单个字符图像;

步骤2、构建多尺度残差CNN网络,将单个字符图像输入到该网络中,使用卷积核大小不同的卷积层分别对图像数据分别进行卷积操作,然后进行最大池化操作,池化结果与输入向量进行拼接融合得到单个字符图像的表示向量;

步骤3、构建基于注意力机制的BiGRU网络,将每个样本中的单个字符图像的表示向量输入到该网络中,获取样本中的上下文语义信息并输入到文本识别模型中,得到每个样本的文本识别结果;

步骤4、训练上述多尺度残差CNN网络与基于注意力机制的BiGRU网络构成的文本识别网络,寻找最优的网络参数,得到最优的文本识别网络,利用最优的文本识别网络从发票图像中识别文本信息。

有益效果:本发明使用不同尺度大小的卷积核对图像数据分别进行卷积操作获取更全面的特征表示,引入了残差网络结构,缓解梯度消失的问题,并提出了基于注意力机制的BiGRU网络以获取上下文的语义关系,考虑了单个字符之间的上下文语义信息,使用注意力机制区分不同字符的相对重要性,有效提高文本识别的准确率,实现发票图像的文本识别。

进一步地,所述步骤1包括:

步骤1.1、使用图像采集设备收集发票的原始图像数据;

步骤1.2、对原始图像数据进行图像校正、灰度化处理和阈值分割去噪;

步骤1.3、将处理过的原始图像数据分割成单个字符图像,对单个字符图像进行标注,得到每个字符图像对应的真实标签,处理后的数据表示为D={(x

更进一步地,所述步骤2包括:

步骤2.1、构建多尺度残差CNN网络,该网络包括多个并行的卷积核大小不同的卷积层,以及分别与每个卷积层连接的池化层;将每个样本中的单个字符图像数据输入到多尺度残差CNN网络中,使用卷积核大小不同的卷积层分别对图像数据进行卷积操作,得到输出向量f

步骤2.2、卷积后的输出向量f

步骤2.3、重复步骤2.1和2.2,直至每个样本中的单个字符图像数据计算完毕,进而得到每个样本中单个字符图像的特征表示为{(f

更进一步地,所述步骤2.1中使用卷积核大小不同的卷积层分别对图像数据进行卷积操作,卷积操作的计算方式如公式(1):

其中,f

更进一步地,所述步骤3包括:

步骤3.1、初始化时间步q=1,当q=1时,初始化BiGRU网络的隐藏向量

步骤3.2、将每个样本中的单个字符图像的表示向量作为关键字key和值value,BiGRU网络对单个字符图像的表示向量进行注意力机制加权融合;

步骤3.3、经过注意力机制加权融合之后,计算BiGRU网络中第q个时间步的隐藏状态向量

步骤3.4、构建基于全连接层网络的文本识别模型,将

步骤3.5、执行q=q+1,当1≤q≤m时,重复步骤3.1-3.4,可得到第i个输入样本的m个单个字符图像的识别结果

更进一步地,所述步骤3.2中BiGRU网络对单个字符图像的表示向量进行注意力机制加权融合的计算方式如下:

其中,V,W和b为注意力机制中的可学习参数,e

更进一步地,所述步骤3.3包括:

其中,

更进一步地,所述步骤3.4中构建的基于全连接层网络的文本识别模型如公式(6)所示:

其中,W

更进一步地,所述步骤4包括:

步骤4.1、将交叉熵作为损失函数,使用随机梯度下降方法更新基于多尺度残差CNN网络与注意力机制BiGRU的文本识别网络中的可学习参数,得到损失函数达到最小值时的网络参数,将这些网络参数代入文本识别网络中得到优化的文本识别网络,损失函数如公式(7)所示:

其中,Loss为损失函数,W表示基于多尺度残差CNN与注意力机制BiGRU的文本识别网络中可学习的参数,λ为惩罚因子;

步骤4.2、使用步骤4.1训练好的基于多尺度残差CNN网络与注意力机制BiGRU的文本识别网络从发票图像中识别文本信息。

本发明还提供基于多尺度残差和注意力机制的发票文本识别系统,包括:

预处理部分,用于对发票图像进行预处理,分割成单个字符图像;

卷积池化部分,用于构建多尺度残差CNN网络,将单个字符图像输入到该网络中,使用卷积核大小不同的卷积层分别对图像数据分别进行卷积操作,然后进行最大池化操作,池化结果与输入向量进行拼接融合得到单个字符图像的表示向量;

文本识别部分,用于构建基于注意力机制的BiGRU网络,将每个样本中的单个字符图像的表示向量输入到该网络中,获取样本中的上下文语义信息并输入到文本识别模型中,得到每个样本的文本识别结果;

训练部分,用于训练上述多尺度残差CNN网络与基于注意力机制的BiGRU网络构成的文本识别网络,寻找最优的网络参数,得到最优的文本识别网络,利用最优的文本识别网络从发票图像中识别文本信息。

进一步地,所述预处理部分还用于:

步骤1.1、使用图像采集设备收集发票的原始图像数据;

步骤1.2、对原始图像数据进行图像校正、灰度化处理和阈值分割去噪;

步骤1.3、将处理过的原始图像数据分割成单个字符图像,对单个字符图像进行标注,得到每个字符图像对应的真实标签,处理后的数据表示为D={(x

更进一步地,所述卷积池化部分还用于:

步骤2.1、构建多尺度残差CNN网络,该网络包括多个并行的卷积核大小不同的卷积层,以及分别与每个卷积层连接的池化层;将每个样本中的单个字符图像数据输入到多尺度残差CNN网络中,使用卷积核大小不同的卷积层分别对图像数据进行卷积操作,得到输出向量f

步骤2.2、卷积后的输出向量f

步骤2.3、重复步骤2.1和2.2,直至每个样本中的单个字符图像数据计算完毕,进而得到每个样本中单个字符图像的特征表示为{(f

更进一步地,所述步骤2.1中使用卷积核大小不同的卷积层分别对图像数据进行卷积操作,卷积操作的计算方式如公式(1):

/>

其中,f

更进一步地,所述文本识别部分还用于:

步骤3.1、初始化时间步q=1,当q=1时,初始化BiGRU网络的隐藏向量

步骤3.2、将每个样本中的单个字符图像的表示向量作为关键字key和值value,BiGRU网络对单个字符图像的表示向量进行注意力机制加权融合;

步骤3.3、经过注意力机制加权融合之后,计算BiGRU网络中第q个时间步的隐藏状态向量

步骤3.4、构建基于全连接层网络的文本识别模型,将h

步骤3.5、执行q=q+1,当1≤q≤m时,重复步骤3.1-3.4,可得到第i个输入样本的m个单个字符图像的识别结果

更进一步地,所述步骤3.2中BiGRU网络对单个字符图像的表示向量进行注意力机制加权融合的计算方式如下:

其中,V,W和b为注意力机制中的可学习参数,e

更进一步地,所述步骤3.3包括:

其中,

更进一步地,所述步骤3.4中构建的基于全连接层网络的文本识别模型如公式(6)所示:

其中,W

更进一步地,所述训练部分还用于:

步骤4.1、将交叉熵作为损失函数,使用随机梯度下降方法更新基于多尺度残差CNN网络与注意力机制BiGRU的文本识别网络中的可学习参数,得到损失函数达到最小值时的网络参数,将这些网络参数代入文本识别网络中得到优化的文本识别网络,损失函数如公式(7)所示:

其中,Loss为损失函数,W表示基于多尺度残差CNN与注意力机制BiGRU的文本识别网络中可学习的参数,λ为惩罚因子;

步骤4.2、使用步骤4.1训练好的基于多尺度残差CNN网络与注意力机制BiGRU的文本识别网络从发票图像中识别文本信息。

本发明的优点在于:

(1)本发明使用不同尺度大小的卷积核对图像数据分别进行卷积操作获取更全面的特征表示,引入了残差网络结构,缓解梯度消失的问题,并提出了基于注意力机制的BiGRU网络以获取上下文的语义关系,考虑了单个字符之间的上下文语义信息,使用注意力机制区分不同字符的相对重要性,有效提高文本识别的准确率,实现发票图像的文本识别。

(2)本发明适用于多种场景下的发票文本识别,能够快速准确地从发票图像识别出文本信息,具有较高的应用价值。

附图说明

图1为本发明实施例1所公开的基于多尺度残差和注意力机制的发票文本识别方法的流程图;

图2为本发明实施例1所公开的基于多尺度残差和注意力机制的发票文本识别方法中多尺度残差CNN网络的结构示意图;

图3为本发明实施例1所公开的基于多尺度残差和注意力机制的发票文本识别方法中BiGRU网络结构示意图;

图4为本发明实施例1所公开的基于多尺度残差和注意力机制的发票文本识别方法中文本识别网络结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1所示,基于多尺度残差和注意力机制的发票文本识别方法,包括以下步骤:

步骤1、采集发票图像,对发票图像进行预处理,将发票图像分割成单个字符图像;

步骤1.1、使用图像采集设备收集发票的原始图像数据;

步骤1.2、为了提高发票图像的分辨率,对原始图像数据进行预处理,具体包括图像校正、灰度化处理和阈值分割去噪;

步骤1.3、将处理过的发票图像分割成单个字符图像,对单个字符图像进行数据增强处理,具体包括单个字符图像旋转和随机遮挡,然后对单个字符图像进行标注,得到每个字符图像对应的真实标签,处理后的数据可表示为D={(x

步骤2、如图2所示,构建多尺度残差CNN网络,将单个字符图像输入到该网络中,得到单个字符图像的表示向量;

步骤2.1、构建多尺度残差CNN网络,初始化网络参数。将每个样本中的单个字符图像数据输入到多尺度残差CNN网络中,使用不同大小的卷积核对图像数据进行卷积操作,本实施例中卷积核为3个,卷积核的大小分别3×3、5×5和7×7,卷积操作的计算方式如公式(1)所示:

其中,f

步骤2.2、对卷积后的输出向量f

步骤2.3、重复步骤2.1和2.2,直至每个样本中的单个字符图像数据计算完毕,进而可得到每个样本中单个字符图像的特征表示,可表示为{(f

步骤3、如图3所示,构建基于注意力机制的BiGRU网络,将每个样本中的单个字符图像的表示向量输入到网络中,获取样本中的上下文语义信息,进而得到每个样本的文本识别结果;

步骤3.1、初始化时间步q=1,当q=1时,初始化BiGRU的隐藏向量

步骤3.2、将每个样本中的单个字符图像的表示向量作为关键字key和值value,计算查询向量query与关键字key之间的相似度,根据相似度使用softmax计算每个字符图像的表示向量的重要性,计算方式如下:

/>

其中,V,W和b为注意力机制中的可学习参数,e

步骤3.3、经过注意力机制加权融合之后,将

其中,

步骤3.4、构建基于全连接层网络的文本识别模型,将

其中,W

步骤3.5、执行q=q+1,当1≤q≤m时,重复步骤3.1-3.4,可得到第i个输入样本的m个单个字符图像的识别结果

步骤4、如图4所示,训练基于多尺度残差CNN与注意力机制BiGRU的文本识别网络,寻找最优的网络参数,使用识别准确率评价指标评估模型的性能;

步骤4.1、将交叉熵作为基于多尺度残差CNN与注意力机制BiGRU的文本识别网络的损失函数,使用随机梯度下降方法更新基于多尺度残差CNN与注意力机制BiGRU的文本识别网络中的可学习参数,得到损失函数达到最小值时的网络参数,交叉熵损失函数如公式(7)所示:

其中,Loss为损失函数,W表示基于多尺度残差CNN与注意力机制BiGRU的文本识别网络中可学习的参数,λ为惩罚因子;

步骤4.2、使用步骤4.1训练好的基于多尺度残差CNN与注意力机制BiGRU的文本识别网络从发票图像中识别文本信息,并使用准确率评价指标评估模型的性能。

通过以上技术方案,本发明使用不同尺度大小的卷积核对图像数据分别进行卷积操作获取更全面的特征表示,引入了残差网络结构,缓解梯度消失的问题,高模型的稳定性和泛化性能。并提出了基于注意力机制的BiGRU网络以获取上下文的语义关系,考虑了单个字符之间的上下文语义信息,使用注意力机制区分不同字符的相对重要性,有效提高文本识别的准确率,实现发票图像的文本识别。

实施例2

基于实施例1,本发明实施例2还提供基于多尺度残差和注意力机制的发票文本识别系统,包括:

预处理部分,用于对发票图像进行预处理,分割成单个字符图像;

卷积池化部分,用于构建多尺度残差CNN网络,将单个字符图像输入到该网络中,使用卷积核大小不同的卷积层分别对图像数据分别进行卷积操作,然后进行最大池化操作,池化结果与输入向量进行拼接融合得到单个字符图像的表示向量;

文本识别部分,用于构建基于注意力机制的BiGRU网络,将每个样本中的单个字符图像的表示向量输入到该网络中,获取样本中的上下文语义信息并输入到文本识别模型中,得到每个样本的文本识别结果;

训练部分,用于训练上述多尺度残差CNN网络与基于注意力机制的BiGRU网络构成的文本识别网络,寻找最优的网络参数,得到最优的文本识别网络,利用最优的文本识别网络从发票图像中识别文本信息。

具体的,所述预处理部分还用于:

步骤1.1、使用图像采集设备收集发票的原始图像数据;

步骤1.2、对原始图像数据进行图像校正、灰度化处理和阈值分割去噪;

步骤1.3、将处理过的原始图像数据分割成单个字符图像,对单个字符图像进行标注,得到每个字符图像对应的真实标签,处理后的数据表示为D={(x

更具体的,所述卷积池化部分还用于:

步骤2.1、构建多尺度残差CNN网络,该网络包括多个并行的卷积核大小不同的卷积层,以及分别与每个卷积层连接的池化层;将每个样本中的单个字符图像数据输入到多尺度残差CNN网络中,使用卷积核大小不同的卷积层分别对图像数据进行卷积操作,得到输出向量f

步骤2.2、卷积后的输出向量f

步骤2.3、重复步骤2.1和2.2,直至每个样本中的单个字符图像数据计算完毕,进而得到每个样本中单个字符图像的特征表示为{(f

更具体的,所述步骤2.1中使用卷积核大小不同的卷积层分别对图像数据进行卷积操作,卷积操作的计算方式如公式(1):

其中,f

更具体的,所述文本识别部分还用于:

步骤3.1、初始化时间步q=1,当q=1时,初始化BiGRU网络的隐藏向量

步骤3.2、将每个样本中的单个字符图像的表示向量作为关键字key和值value,BiGRU网络对单个字符图像的表示向量进行注意力机制加权融合;

步骤3.3、经过注意力机制加权融合之后,计算BiGRU网络中第q个时间步的隐藏状态向量

步骤3.4、构建基于全连接层网络的文本识别模型,将

步骤3.5、执行q=q+1,当1≤q≤m时,重复步骤3.1-3.4,可得到第i个输入样本的m个单个字符图像的识别结果

更具体的,所述步骤3.2中BiGRU网络对单个字符图像的表示向量进行注意力机制加权融合的计算方式如下:

其中,V,W和b为注意力机制中的可学习参数,e

更具体的,所述步骤3.3包括:

其中,

更具体的,所述步骤3.4中构建的基于全连接层网络的文本识别模型如公式(6)所示:

/>

其中,W

更具体的,所述训练部分还用于:

步骤4.1、将交叉熵作为损失函数,使用随机梯度下降方法更新基于多尺度残差CNN网络与注意力机制BiGRU的文本识别网络中的可学习参数,得到损失函数达到最小值时的网络参数,将这些网络参数代入文本识别网络中得到优化的文本识别网络,损失函数如公式(7)所示:

其中,Loss为损失函数,W表示基于多尺度残差CNN与注意力机制BiGRU的文本识别网络中可学习的参数,λ为惩罚因子;

步骤4.2、使用步骤4.1训练好的基于多尺度残差CNN网络与注意力机制BiGRU的文本识别网络从发票图像中识别文本信息。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115917876