掌桥专利:专业的专利平台
掌桥专利
首页

一种基于视觉识别的便携式票据自动扫描装置

文献发布时间:2024-04-18 19:58:26


一种基于视觉识别的便携式票据自动扫描装置

技术领域

本发明涉及办公设备技术领域,更具体的说是涉及一种基于视觉识别的便携式票据自动扫描装置。

背景技术

随着各行各业贸易交易的不断剧增,在财务处理过程中票据收纳以及数据录入工作逐渐变得繁重,且因为工作的特殊性,所完成的任务要求有极高的精准性。但目前市面上已有的票据扫描装置均存在设备笨重,无法灵活携带和不适用于不同工作场景等问题,并且市面上已有的票据扫描设备大部分采用定点安装式扫描,需要提供有线电源进行供电,数据传输方式依赖有线传输,使用场景极为受限。因此,传统财务票据扫描设备存在的时间和空间的局限性,使得其已不能满足新时期的需求。

因此,如何提高票据扫描装置的便携性、灵活性,使得其适用于不同工作场景是本领域技术人员亟需解决的问题。

发明内容

有鉴于此,本发明提供了一种基于视觉识别的便携式票据自动扫描装置,通过摄像机、握柄和底座的便携式结构设计,以及采用轻量化电路设计,集成多种功能模块为核心电路,满足日常工作携带要求,同时,运用轻量化图像识别算法搭配摄像模块进行票据扫描工作,通过微处理器以及通信模块,将扫描数据同外部设备进行无线传输,实现快速财务办公。

为了实现上述目的,本发明采用如下技术方案:

一种基于视觉识别的便携式票据自动扫描装置,包括摄像机、握柄和底座,所述摄像机固定在所述握柄顶部,所述底座固定在所述握柄底部;所述摄像机包括固定连接的摄像头和摄像头微控制器,所述握柄内设置有设备控制器,所述底座内设置有电池,所述设备控制器电连接所述摄像头微控制器和所述电池。

优选的,所述电池为可充电储能电池,所述底座侧面设置有充电口,所述充电口连接所述电池。

优选的,所述摄像头微控制器采用ESP32-CAM开发板,电连接所述摄像头,通过所述摄像头采集票据的扫描图像,并传输至所述设备控制器。

优选的,所述设备控制器包括STM32微控制器和通信模块;STM32微控制器采用轻量化图像识别算法对所述摄像头微控制器传输的扫描图像进行处理提取票据数据并生成数据表格;通信模块将数据表格传输至外部设备。

优选的,轻量化图像识别算法利用TensorFlow Lite for Microcontrollers图像检测算法来实现图像分析和票据财务信息的提取。

优选的,所述通讯模块采用蓝牙、无线联合传输技术,将蓝牙模组和无线WiFi模组组合使用。

优选的,STM32微控制器上部署有实时操作系统RT-Thread,采用实时操作系统RT-Thread作为物联网节点系统的子系统,简洁、迅速实现对硬件层的控制。便于开发者完成对产品的程序控制与开发,技术迭代低风险;确保图像处理任务能够按照预定的优先级和时间要求得到执行,从而实现更可靠的实时性能;支持多任务和多线程,可以在STM32微控制器上同时运行多个图像处理任务或其他任务,从而实现更高的系统复用性和可扩展性。

优选的,采用轻量化图像识别算法对所述摄像头微控制器传输的扫描图像进行处理的过程为:

步骤1:对扫描图像进行预处理;预处理包括依次进行灰度化、二值化、边缘检测、Blob分析、Hough变换和旋转校正;

步骤2:利用轻量化字符分割模型对预处理后的扫描图像进行轻量化的字符分割,获得语义分割结果;

步骤3:将语义分割结果输入到预训练模型中,提取票据数据;利用预训练模型,将语义分割结果与数据库中存储的票据模型进行匹配,匹配成功后提取票据数据;

步骤4:根据票据数据生成数据表格。

优选的,灰度化,将输入图像转换为灰色图像,能够轻松识别扫描图像中的不同形状并去除相关颜色信息;

二值化,将灰度图像转换为二值图像,二值化后的图像只包含两个值;

边缘检测,找出扫描图像中的所有边缘信息,识别扫描图像中的表格线;

Blob分析,对扫描图像中相同像素的连通域进行分析,将灰度突变的地方找出来,确定其范围、形状、大小,Blob分析之后的扫描图像是由直线组成的矩形框;

Hough变换和旋转校正,通过Hough变换转换扫描图像坐标,根据图像全局特征把扫描图像的边缘信息全都链接起来,得到扫描图像的倾斜角度,再根据倾斜角度进行旋转校正。

优选的,轻量化字符分割模型包括编码器、解码器、分割头和上采样层,编码器包括四个阶段,第一阶段为PFC策略,第二、三、四阶段均为双深度可分离卷积模块,并且每个阶段之间通过混合池化模块连接;解码器包括三个阶段,每个阶段均包括上采样层和双深度可分离卷积模块;

进行轻量化字符分割的过程为:

步骤21:利用PFC策略提取扫描图像的特征,获得第一编码特征图;

步骤22:第一编码特征图依次经过编码器第二阶段的混合池化模块和双深度可分离卷积模块,获得第二编码特征图;

步骤23:第二编码特征图依次经过编码器第三阶段的混合池化模块和双深度可分离卷积模块,获得第三编码特征图;

步骤24:第三编码特征图依次经过编码器第四阶段的混合池化模块和双深度可分离卷积模块,获得第四编码特征图;

步骤25:第四编码特征图依次经过解码器的第一阶段的上采样层和双深度可分离卷积模块,获得第一解码特征图,将第一解码特征图和第三编码特征图相加后,获得第二解码特征图;

步骤26:第二解码特征图依次经过解码器的第二阶段的上采样层和双深度可分离卷积模块,获得第三解码特征图,将第三解码特征图和第二编码特征图相加后,获得第四解码特征图;

步骤27:第四解码特征图依次经过解码器的第二阶段的上采样层和双深度可分离卷积模块,获得第五解码特征图,将第五解码特征图和第一编码特征图相加后,获得第六解码特征图;

步骤28:将第六解码特征图输入分割头,获得分割预测图;

步骤29:分割预测图经过上采样层,获得语义分割结果。

优选的,PFC策略包括三组3×3卷积层,在第一个卷积层后和第二个卷积层后进行特征相加,融合不同层的特征。

优选的,双深度可分离卷积模块包括两组3×3深度可分离孔洞卷积层,空洞率分别为2和4。

优选的,混合池化模块包括一组3×3卷积层和一组最大池化层。

优选的,预训练模块包括输入层、编码器、解码器和输出层;

输入层包括图像预处理层,对输入图像进行预处理,图像预处理层为一个经过语义分割的区域,尺寸固定为128×128;

编码器包括2D卷积层和MobileNetV2子网络,2D卷积层用于初始特征提取,输入为128×128×3,输出为64×64×32,激活函数采用ReLU函数,MobileNetV2子网络用于进一步的特征提取,输入为64×64×32,输出为32×32×512;

解码器包括Attention Mechanism层和Bi-LSTM层,Attention Mechanism层用于精确对齐编码器和解码器的特征,输入为编码器输出32×32×512,输出为加权特征图,Bi-LSTM层添加Dropout层,用于序列到序列的解码,输入为加权特征图,输出为T×512,T为时间步;

输出层包括Softmax层,Softmax层用于输出最终字符分类的概率,输入为T×512,输出为T×N,N为字符集大小。

优选的,将语义分割结果输入到预训练模型之前需要对预训练模型进行训练,在预训练模块的训练过程中,采用生成式对抗网络训练策略,使用一个判别器网络来尝试区分模型生成的文本和实际文本,从而进一步优化预训练模型;在一个大型的标注文本数据集上预训练编码器,并在少量的标注票据图像上进行微调;使用Warm Restart在不同的训练阶段重新提高学习率;在训练过程中,对Attention Mechanism层的输出进行可视化,以手动调整和优化模型;在解码器Bi-LSTM层添加Dropout层,防止过拟合;在模型训练完成后,进行模型剪枝,以去除不重要的连接和减少模型大小;为了进一步减少模型大小和提高运行速度,将浮点数权重量化为定点数。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于视觉识别的便携式票据自动扫描装置,采用摄像机、通信模块和STM32微控制器等多种模块进行产品集成设计,使得装置便于携带,通过摄像机中摄像头微控制器内的视觉识别模块将票据扫描图像传输至STM32微控制器,STM32微处理器采用轻量化图像识别算法对于扫描图像进行分析,进行数据库票据模型匹配,匹配成功后进行票据数据提取,并生成对应数据表格。通信模块通过WiFi和蓝牙可直接连接移动设备(例如:手机、笔记本电脑等),同时将所生成数据表格传输至移动设备,便于使用人员快速处理财务事务,实现对不同财务票据进行信息扫描、数据提取和云端数据同步,实现票据的快速扫描以及精准识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于视觉识别的便携式票据自动扫描装置结构示意图;

图2附图为本发明提供的摄像机和设备控制器连接结构示意图;

图3附图为本发明提供的ESP32开发板和STM32微控制器引脚连接结构示意图;

图4附图为本发明提供的ESP32-WROOM模组和STM32微控制器引脚连接结构示意图;

图5附图为本发明提供的对扫描图像进行预处理流程示意图;

图6附图为本发明提供的轻量化字符分割模型图像处理流程示意图;

图7附图为本发明提供的轻量化字符分割模型中编码器结构示意图;

图8附图为本发明提供的预训练模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

本发明实施例公开了一种基于视觉识别的便携式票据自动扫描装置,包括摄像机、握柄1和底座3,摄像机固定在握柄1顶部,底座3固定在握柄1底部;摄像机包括固定连接的摄像头21和摄像头微控制器22,握柄1内设置有设备控制器,底座3内设置有电池,设备控制器电连接摄像头微控制器22和电池。

进一步的,电池为可充电储能电池,底座侧面设置有充电口,充电口连接电池。

进一步的,摄像头微控制器22采用ESP32-CAM开发板,电连接摄像头21,通过摄像头21采集票据的扫描图像,并传输至设备控制器,摄像头21采用OV2680摄像头芯片,OV2680摄像头芯片和ESP32-CAM开发板中Minimum System Board模组通过I

进一步的,设备控制器包括STM32微控制器和通信模块;STM32微控制器采用轻量化图像识别算法对摄像头微控制器传输的扫描图像进行处理提取票据数据并生成数据表格;通信模块将数据表格传输至外部设备。STM32微控制器和ESP32-CAM开发板中MinimumSystem Board模组通过SPI协议通讯连接,和ESP32-CAM开发板中ESP32-WROOM模组通过UART协议通讯连接;摄像机和设备控制器的连接关系如图2所示。STM32微控制器和ESP32-CAM开发板的引脚连接关系如图3所示,STM32微控制器和ESP32-WROOM模组引脚连接关系如图4所示。本发明在STM32中设置STM32动态调整工作频率程序,在低负载时,降低处理器的工作频率可以减少功耗,并设计一个低功耗的待机模式,可以通过外部触发或预定的时序快速唤醒。

进一步的,通讯模块采用蓝牙、无线联合传输技术,将蓝牙模组和无线WiFi模组组合使用,可接入无线接口产品生态链,令使用者可连接装置的蓝牙或无线WiFi信号,适用于广泛的无线传输场景,实现实时接收票据财务信息,便于财务事务处理。

上述技术方案,打破传统财务事务处理的时间和空间局限性,通过摄像机、握柄和底座的便携式结构设计,以及采用轻量化电路设计,集成多种功能模块为核心电路,在保证日常使用装置均处在正常工作状态的前提下,满足日常工作携带要求,在舒适度、装置重量以及使用便捷度上进行了优化。通过设计内置电池为装置供电,采用充电储能电源作为装置电能供给方式,减少电池使用频率,符合绿色低碳理念,通过设置通讯模块令装置可无线传输扫描数据,可保证装置随时投入使用,便于使用者随时携带装置外出工作,满足新时期财务事务处理需求。本发明实现移动式财务票据扫描管理,具有使用场景灵活,携带方便,以及快速识别扫描等特点,可满足不同场景下财务票据的扫描需求。

实施例2

在一个具体实施例中,基于上述实施例1,STM32微控制器作为财务票据图像处理终端,轻量化图像识别算法利用TensorFlow Lite for Microcontrollers图像检测算法来实现图像分析和票据财务信息的提取。

进一步的,STM32微控制器上部署有实时操作系统RT-Thread,采用实时操作系统RT-Thread作为物联网节点系统的子系统,简洁、迅速实现对硬件层的控制。便于开发者完成对产品的程序控制与开发,技术迭代低风险;确保图像处理任务能够按照预定的优先级和时间要求得到执行,从而实现更可靠的实时性能;支持多任务和多线程,可以在STM32微控制器上同时运行多个图像处理任务或其他任务,从而实现更高的系统复用性和可扩展性。

集成TensorFlow Lite库到STM32微控制器环境中,并加载适用于财务票据识别的预训练模型,将扫描图像输入到模型中进行推理,以分析扫描图像并提取票据财务信息,如金额、日期和商家名称,将所采集相关票据财务信息发送至通信模块,由通信模块将票据财务信息发送至移动设备(例如:手机、笔记本电脑等),为财务数据分析和管理提供了便捷和高效的解决方案。使用TensorFlow Lite for Microcontrollers图像检测算法,从资源效率、推理速度、灵活易用方面全面提升,具有较小的存储占用和计算复杂性,通过优化技术和硬件加速,实现快速推理,高效且高质量满足日常财务票据扫描处理的需求。

进一步的,采用轻量化图像识别算法对摄像头微控制器传输的扫描图像进行处理的过程为:

S1:对扫描图像进行预处理;预处理包括依次进行灰度化、二值化、边缘检测、Blob分析、Hough变换和旋转校正,如图5所示;

灰度化,将输入图像转换为灰色图像,能够轻松识别扫描图像中的不同形状并去除相关颜色信息;二值化,将灰度图像转换为二值图像,二值化后的图像只包含两个值;边缘检测,找出扫描图像中的所有边缘信息,识别扫描图像中的表格线;Blob分析,对扫描图像中相同像素的连通域进行分析,将灰度突变的地方找出来,确定其范围、形状、大小,Blob分析之后的扫描图像是由直线组成的矩形框;Hough变换和旋转校正,通过Hough变换转换扫描图像坐标,根据图像全局特征把扫描图像的边缘信息全都链接起来,得到扫描图像的倾斜角度,再根据倾斜角度进行旋转校正;

S2:利用轻量化字符分割模型对预处理后的扫描图像进行轻量化的字符分割,获得语义分割结果,过程如图6所示;

轻量化字符分割模型是一个具有编码-解码结构的卷积神经网络,其中,编码结构由四个阶段构成,由于输入扫描图像通道数较小,含有语义信息较少,因此编码结构的第一阶段采用PFC策略充分提取特征,PFC策略是一种残差结构,包含了3个3×3标准卷积,在第一个卷积后和第二个卷积后进行特征相加,融合不同层的特征;对于编码的第二、第三、第四阶段,使用了双深度可分离卷积模块,该模块使用了连续两个3×3深度可分离空洞卷积,空洞率分别为2和4,深度可分离卷积在保证分割精度的同时减小了模型的参数,实现了快速推理,空洞卷积增大了网络的感受野,有利于捕捉更广阔的上下文信息,同时,每个编码阶段还包含了混合池化模块,混合池化模块包括一组3×3卷积层和一组最大池化层,用于下采样减小图像的分辨率;轻量化字符分割模型的各阶段结构如图7所示;

解码器逐渐聚合顶部的粗糙的语义特钲和底部的细粒度特征,以分割图像并使其具有清晰的边界,解码部分由三个阶段构成,首先利用反卷积进行上采样逐步恢复图像特征,再将经过双深度可分离卷积模块后的特征图与编码阶段对应的特征图相加;

最后,使用一个1×1卷积的分割来获取分割预测图,该预测图随后被上采样到与原图像一样的大小,以得到最终的语义分割结果;

S3:将语义分割结果输入到预训练模型中,提取票据数据;利用预训练模型,将语义分割结果与数据库中存储的票据模型进行匹配,匹配成功后提取票据数据;

S4:根据票据数据生成数据表格。

实施例3

在上述实施例1-2的基础上,在一个具体实施例中,预训练模块包括输入层、编码器、解码器和输出层,如图8所示;输入层包括图像预处理层,对输入图像进行预处理,图像预处理层为一个经过语义分割的区域,尺寸固定为128×128;编码器包括2D卷积层和MobileNetV2子网络,2D卷积层用于初始特征提取,输入为128×128×3,输出为64×64×32,激活函数采用ReLU函数,MobileNetV2子网络用于进一步的特征提取,输入为64×64×32,输出为32×32×512;解码器包括Attention Mechanism层和Bi-LSTM层,AttentionMechanism层用于精确对齐编码器和解码器的特征,输入为编码器输出32×32×512,输出为加权特征图,Bi-LSTM层添加Dropout层,用于序列到序列的解码,输入为加权特征图,输出为T×512,T为时间步;输出层包括Softmax层,Softmax层用于输出最终字符分类的概率,输入为T×512,输出为T×N,N为字符集大小。

进一步的,将语义分割结果输入到预训练模型之前对预训练模型进行训练,在预训练模块的训练过程中,采用生成式对抗网络(GAN)训练策略,使用一个判别器网络来尝试区分模型生成的文本和实际文本,从而进一步优化OCR模型;在一个大型的标注文本数据集(例如,IMDB评论或维基百科文本)上预训练编码器,并在少量的标注票据图像上进行微调;使用Warm Restart来在不同的训练阶段重新提高学习率;在训练过程中,对AttentionMechanism层的输出进行可视化,以手动调整和优化模型;在解码器Bi-LSTM层添加Dropout层,防止过拟合;在模型训练完成后,进行模型剪枝,以去除不重要的连接和减少模型大小;为了进一步减少模型大小和提高运行速度,将浮点数权重量化为定点数。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 基于机器视觉的环形生产线模台自动化识别装置及其识别方法
  • 一种基于物联网的便携式快递扫描装置
  • 基于视觉识别的自动称重配料装置及其自动称重配料方法
  • 一种电能表自动化检定系统视觉识别测试方法及装置
  • 一种自动识别并裁切扫描件中票据的方法
  • 一种基于扫描仪混扫的票据识别方法及系统
技术分类

06120116492289