掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度神经网络的票据数量识别方法及系统

文献发布时间:2023-06-19 10:51:07


一种基于深度神经网络的票据数量识别方法及系统

技术领域

本发明涉及票据处理技术领域,并且更具体地,涉及一种基于深度神经网络的票据数量识别方法。

背景技术

票据数量识别方法,用于混拍票据识别系统初期的票据预判阶段。目前,市面上针对票据识别主要基于AlexNet、Fast-RCNN、OCR等技术识别图像中的票据信息,此类方法经过长期的使用与校验,拥有较好的稳定性与表现效果,但由于模型的固定性导致适用情况受限,无法根据实际情况进行相应调节。此外,票据识别系统通过引入目标检测操作进行票据分析,由于真实场景下拍摄的票据存在重叠、倾斜、分辨率低等问题,这将影响模型能够检测到的区域,从而降低模型效果。

因此,需要一种能够快速准确地对票据数量识别的方法,以能够辅助检测模型进行监测区域预判,提升检测正确率。

发明内容

本发明提出一种基于深度神经网络的票据数量识别方法及系统,以解决如何快速对图像的票据数量进行识别的问题。

为了解决上述问题,根据本发明的一个方面,提供了一种基于深度神经网络的票据数量识别方法,所述方法包括:

获取多组不同的混合票据中每组混合票据对应的混拍票据原始图像,并对获取的每个混拍票据原始图像进行预处理,以获取每个混拍票据原始图像对应的混拍票据处理图像;

基于深度神经网络构建一维卷积票据分类(One-dimensional ConvolutionalTicket Classification,OCTC)模型,并利用获取的每个混拍票据处理图像对所述OCTC模型进行训练,以确定OCTC最优模型;

获取待测的混拍票据原始图像,并对所述待测的混拍票据原始图像进行处理,以获取待测的混拍票据处理图像;

利用所述OCTC最优模型对所述待测的混拍票据处理图像进行票据数量识别,以获取票据数量识别结果。

优选地,其中所述混合票据的类型包括:增值税发票、火车票、定额票、营业执照、卷票、身份证、出租车票、机动车销售和航空行程单。

优选地,其中所述方法利用如下方式对混拍票据原始图像进行预处理,以获取与混拍票据原始图像对应的混拍票据处理图像,包括:

对混拍票据原始图像依次进行灰度化处理、二值化处理、归一化处理和二维图像映射一维数据处理,以获取与混拍票据原始图像对应的混拍票据处理图像。

优选地,其中所述归一化处理和二维图像映射一维数据处理,包括:

其中,X

优选地,其中所述一维卷积票据分类OCTC模型,包括:三个卷积层、三个最大池化层、两个全连接层和一个softmax层;其中,每层使用五种卷积核分别对输入数据进行计算,以获取卷积特征图像数据,各层卷积核的个数分别为[64,128,256];采用两层全连接神经网络的结构实现混拍票据数量的识别分类,两个全连接层的神经元个数为[512,128],利用第一个全连接层对卷积层计算得到的特征图数据进行线性整合,并利用ReLU激活函数进行非线性转换,利用第二个全连接层进行高维特征的计算;最后通过softmax层激活函数预测图像类别概率,并返回当前图片中的票据数量结果。

根据本发明的另一个方面,提供了一种基于深度神经网络的票据数量识别系统,所述系统包括:

第一数据处理单元,用于获取多组不同的混合票据中每组混合票据对应的混拍票据原始图像,并对获取的每个混拍票据原始图像进行预处理,以获取每个混拍票据原始图像对应的混拍票据处理图像;

最优模型确定单元,用于基于深度神经网络构建一维卷积票据分类OCTC模型,并利用获取的每个混拍票据处理图像对所述OCTC模型进行训练,以确定OCTC最优模型;

第二数据处理单元,用于获取待测的混拍票据原始图像,并对所述待测的混拍票据原始图像进行处理,以获取待测的混拍票据处理图像;

票据数量识别单元,用于利用所述OCTC最优模型对所述待测的混拍票据处理图像进行票据数量识别,以获取票据数量识别结果。

优选地,其中所述混合票据的类型包括:增值税发票、火车票、定额票、营业执照、卷票、身份证、出租车票、机动车销售和航空行程单。

优选地,其中所述第一数据处理单元和第二数据处理单元,利用如下方式对混拍票据原始图像进行预处理,以获取与混拍票据原始图像对应的混拍票据处理图像,包括:

对混拍票据原始图像依次进行灰度化处理、二值化处理、归一化处理和二维图像映射一维数据处理,以获取与混拍票据原始图像对应的混拍票据处理图像。

优选地,其中所述归一化处理和二维图像映射一维数据处理,包括:

其中,X

优选地,其中所述一维卷积票据分类OCTC模型,包括:三个卷积层、三个最大池化层、两个全连接层和一个softmax层;其中,每层使用五种卷积核分别对输入数据进行计算,以获取卷积特征图像数据,各层卷积核的个数分别为[64,128,256];采用两层全连接神经网络的结构实现混拍票据数量的识别分类,两个全连接层的神经元个数为[512,128],利用第一个全连接层对卷积层计算得到的特征图像数据进行线性整合,并利用ReLU激活函数进行非线性转换,利用第二个全连接层进行高维特征的计算;最后通过softmax层激活函数预测图像类别概率,并返回当前图片中的票据数量结果。

本发明提供了一种基于深度神经网络的票据数量识别方法及系统,将获取的二维的混拍票据原始图像依次进行灰度化处理、二值化处理、归一化处理和二维图像映射一维数据处理,在保留图像信息的同时极大的降低数据量,减少数据传输造成的时间浪费,提升用户体验;通过设计OCTC模型,引入一维卷积操作对图像数据进行特征抽取与图像类别计算,使用多个小尺寸卷积核增大模型感受野,保证实验效果的同时降低模型参数量,实现轻量化模型的效果,便于用户储存使用;本发明的方法能够使用户在上传图像的同时能够收到图像中票据数量的判断结果,提升了混拍票据识别系统的用户体验,同时帮助系统进行后续的票据目标检测与内容识别任务,实现系统的实时工作。

附图说明

通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:

图1为根据本发明实施方式的基于深度神经网络的票据数量识别方法100的流程图;

图2为根据本发明实施方式的基于深度神经网络的快速票据数量识别方法的流程图;

图3为根据本发明实施方式的获取的混拍票据原始图像的示意图;

图4为根据本发明实施方式的进行灰度化处理后得到的灰度图像的示意图;

图5为根据本发明实施方式的对灰度图像进行二值化处理得到的黑白图像的示意图;

图6为根据本发明实施方式的OCTC模型的结构图;

图7为根据本发明实施方式的多个小卷积核叠加实现扩大模型感受野的示例图;

图8为根据本发明实施方式的票据识别方法的结果输出的示意图;

图9为根据本发明实施方式的基于深度神经网络的票据数量识别装置的硬件结构示意图;

图10为根据本发明实施方式的基于深度神经网络的票据数量识别系统1000的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。

除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的基于深度神经网络的票据数量识别方法100的流程图。如图1所示,本发明实施方式提供的基于深度神经网络的票据数量识别方法,能够使用户在上传图像的同时能够收到图像中票据数量的判断结果,提升了混拍票据识别系统的用户体验,同时帮助系统进行后续的票据目标检测与内容识别任务,实现系统的实时工作。本发明实施方式提供的基于深度神经网络的票据数量识别方法100,从步骤101处开始,在步骤101获取多组不同的混合票据中每组混合票据对应的混拍票据原始图像,并对获取的每个混拍票据原始图像进行预处理,以获取每个混拍票据原始图像对应的混拍票据处理图像。

优选地,其中所述混合票据的类型包括:增值税发票、火车票、定额票、营业执照、卷票、身份证、出租车票、机动车销售和航空行程单。

优选地,其中所述方法利用如下方式对混拍票据原始图像进行预处理,以获取与混拍票据原始图像对应的混拍票据处理图像,包括:

对混拍票据原始图像依次进行灰度化处理、二值化处理、归一化处理和二维图像映射一维数据处理,以获取与混拍票据原始图像对应的混拍票据处理图像。

优选地,其中所述归一化处理和二维图像映射一维数据处理,包括:

其中,X

结合图2所示,在本发明的实施方式中,票据的类型包括增值税发票、火车票、定额票、营业执照、卷票、身份证、出租车票、机动车销售和航空行程单。获取混拍票据原始图像的方式包括但不限于基于移动端和/或PC端摄像头拍照、高清仪拍照、相册上传以及图库上传等方式。如图3所示,为采集到的混拍票据原始图像,该图像为高清数码图像。获取的图像的颜色通道为彩色或者灰度图像,发票图像中文字和表格信息清晰可见,发票区域占所采集图像的主要区域且方向为正方向向上。

图像预处理主要包括:彩色图像灰度化处理,灰度图像二值化处理,二维图像归一化处理,二维图像映射一维数据四个步骤。首先是彩色图像灰度化,我们对扫描后的图片进行灰度化处理,保留图像的亮度信息,最大程度还原其形态学特征,处理结果如图4所示;其次是灰度图像二值化处理,该操作对灰度图像进行二值化处理,凸显图像上的轮廓特征,同时使图像简单化便于机器的存储与传递,处理结果如图5所示;在此基础上,我们使用二维图像归一化处理操作,统一像素数据量纲,便于后续深度学习模型进行特征学习与参数训练,利用公式1对图像进行归一化处理;最后,我们通过二维图像映射一维数据处理将二维图像映射为一维数据,在保留图像信息的同时进一步压缩数据,实现数据的轻量化保存与计算,映射函数如公式2所示。

其中,X

本发明通过对原始彩色票据图像进行灰度化、二值化与归一化处理,能够最大化保留票据的光学、形状特征的同时统一量纲,实现图像的有效数据保存。在图像预处理的映射操作中,通过将处理后的二维图像数据映射到一维空间,进一步对二维图像进行简化处理,实现快速高效的数据存储与压缩,提高模型计算速度。

在步骤102,基于深度神经网络构建一维卷积票据分类OCTC模型,并利用获取的每个混拍票据处理图像对所述OCTC模型进行训练,以确定OCTC最优模型。

优选地,其中所述一维卷积票据分类OCTC模型,包括:三个卷积层、三个最大池化层、两个全连接层和一个softmax层;其中,每层使用五种卷积核分别对输入数据进行计算,以获取卷积特征图像数据,各层卷积核的个数分别为[64,128,256];采用两层全连接神经网络的结构实现混拍票据数量的识别分类,两个全连接层的神经元个数为[512,128],利用第一个全连接层对卷积层计算得到的特征图像数据进行线性整合,并利用ReLU激活函数进行非线性转换,利用第二个全连接层进行高维特征的计算;最后通过softmax层激活函数预测图像类别概率,并返回当前图片中的票据数量结果。

本发明的实施方式在票据数量识别过程中,基于OCTC模型,采用一维卷积核对票据一维数据进行特征提取,通过最大池化操作进行特征筛选,最后通过分类模型实现图像中票据数量的识别,模型结构如图6所示。其中,OCTC模型由三个卷积层(Conv1/2/3)、三个最大池化层、两个全连接层和一个softmax层组成。本发明采用一维卷积核对映射后的数据进行特征计算,OCTC模型使用五种卷积核分别对输入数据进行计算,各层卷积核个数分别为[64,128,256],卷积计算公式如式3所示;此外,我们引入公式5的ReLU激活函数处理特征图,便于模型的学习与计算。本发明分别从宽度和深度两个维度设计卷积层,以便于更好地进行特征挖掘:宽度方面指的是不同尺度卷积核,我们分别采用[2,3,4,5,7]五种卷积核计算不同感受野下的票据图像特征,其中[5,7]两种卷积核我们采用3->3和4->4两种小卷积核替换,在保证感受野不变的同时挖掘更多图像细节,感受野如图7所示;深度方面,我们设计了三层卷积层,一方面扩大了感受野,另一方面更能够对特征进行进一步高维度计算,实现特征的优化提取。

在此基础上,OCTC模型采用最大池化操作对多维度特征图进行筛选,实现多通道特征的筛选融合,降低模型计算量,实现模型快速计算。OCTC模型采用两层全连接神经网络的结构实现混拍票据数量识别分类,两层网络隐层神经元个数为[512,128],第一个全连接层对卷积层计算得到的特征进行线性整合并用ReLU激活函数进行非线性转换,再通过第二个全连接层进行高维特征计算,最后通过公式6所示的softmax激活函数预测图像类别概率,返回当前图片中的票据数量结果。

h

p

relu(x)=max(0,x) (式5)

其中,W为卷积核矩阵,卷积核大小为n,先对卷积核内数据进行线性变换再利用非线性激活函数g进行转换,得到卷积特征图;最大池化操作通过筛选同一位置不同通道中最大值作为当前特征图输出,实现特征筛选。式5为ReLU激活函数,x为当前隐层结果,通过与0比较取最大值作为最终输出结果。式6为图像类别概率预测,z

其中,模型的票据数量输出结果的类别分为两类,“single”表示混拍图像中仅有一张票据,“multiple”表示混拍图像中有多张票据,如图8所示。

本发明在票据数量识别时,进行卷积特征提取,识别票据图像中的结构化特征并通过最大池化实现多维度特征筛选,计算图像数据特征的同时,能够降低模型参数量并实现票据数量识别;通过全连接网络类别计算,对卷积层提取的图像特征进行加权计算,并通过softmax激活函数预测图像中票据数量,能够实现票据图像数量识别。

本发明的方法,将二维图像数据进行灰度二值化处理,通过归一化操作进行数据清洗最终映射为一维数据,在保留图像信息的同时极大的降低数据量,减少数据传输造成的时间浪费,提升用户体验。在此基础上,设计了OCTC模型,引入一维卷积操作对图像数据进行特征抽取与图像类别计算,使用多个小尺寸卷积核增大模型感受野,保证实验效果的同时降低模型参数量,实现轻量化模型的效果,便于用户储存使用。

在步骤103,获取待测的混拍票据原始图像,并对所述待测的混拍票据原始图像进行处理,以获取待测的混拍票据处理图像。

在步骤104,利用所述OCTC最优模型对所述待测的混拍票据处理图像进行票据数量识别,以获取票据数量识别结果。

在本发明的实施方式中,根据所确定的OCTC最优模型对所述待测的混拍票据处理图像进行票据数量识别,以获取票据数量识别结果。

图9为根据本发明实施方式的基于深度神经网络的票据数量识别装置的硬件结构示意图。如图9所示,票据数量识别装置包括:一个或多个处理器以及存储器,该设备还可以包括输入装置和输出装置。处理器、存储器、输入装置和输出装置可以通过总线或者其他方式连接,图9中以通过总线连接。

图10为根据本发明实施方式的基于深度神经网络的票据数量识别系统1000的结构示意图。如图10所示,本发明实施方式提供的基于深度神经网络的票据数量识别系统1000,包括:第一数据处理单元1001、最优模型确定单元1002、第二数据处理单元1003和票据数量识别单元1004。

优选地,所述第一数据处理单元1001,用于获取多组不同的混合票据中每组混合票据对应的混拍票据原始图像,并对获取的每个混拍票据原始图像进行预处理,以获取每个混拍票据原始图像对应的混拍票据处理图像。

优选地,其中所述混合票据的类型包括:增值税发票、火车票、定额票、营业执照、卷票、身份证、出租车票、机动车销售和航空行程单。

优选地,所述最优模型确定单元1002,用于基于深度神经网络构建一维卷积票据分类OCTC模型,并利用获取的每个混拍票据处理图像对所述OCTC模型进行训练,以确定OCTC最优模型。

优选地,其中所述一维卷积票据分类OCTC模型,包括:三个卷积层、三个最大池化层、两个全连接层和一个softmax层;其中,每层使用五种卷积核分别对输入数据进行计算,以获取卷积特征图像数据,各层卷积核的个数分别为[64,128,256];采用两层全连接神经网络的结构实现混拍票据数量的识别分类,两个全连接层的神经元个数为[512,128],利用第一个全连接层对卷积层计算得到的特征图像数据进行线性整合,并利用ReLU激活函数进行非线性转换,利用第二个全连接层进行高维特征的计算;最后通过softmax层激活函数预测图像类别概率,并返回当前图片中的票据数量结果。

优选地,所述第二数据处理单元1003,用于获取待测的混拍票据原始图像,并对所述待测的混拍票据原始图像进行处理,以获取待测的混拍票据处理图像。

优选地,其中所述第一数据处理单元和第二数据处理单元,利用如下方式对混拍票据原始图像进行预处理,以获取与混拍票据原始图像对应的混拍票据处理图像,包括:

对混拍票据原始图像依次进行灰度化处理、二值化处理、归一化处理和二维图像映射一维数据处理,以获取与混拍票据原始图像对应的混拍票据处理图像。

优选地,其中所述归一化处理和二维图像映射一维数据处理,包括:

其中,X

优选地,所述票据数量识别单元1004,用于利用所述OCTC最优模型对所述待测的混拍票据处理图像进行票据数量识别,以获取票据数量识别结果。

本发明的实施例的基于深度神经网络的票据数量识别系统1000与本发明的另一个实施例的基于深度神经网络的票据数量识别方法100相对应,在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 一种基于深度神经网络的票据数量识别方法及系统
  • 一种基于深度神经网络的光伏系统状态识别方法及系统
技术分类

06120112707018