掌桥专利:专业的专利平台
掌桥专利
首页

民航文档数据识别录入方法及系统

文献发布时间:2023-06-19 13:26:15


民航文档数据识别录入方法及系统

技术领域

本发明属于信息处理技术领域,特别是涉及一种民航文档数据识别录入方法及系统。

背景技术

民航全流程信息化是民航业发展的必经之路。随着我国民航业的快速发展,更有质量,更高效率的工作要求也随之而来。民航系统每年会进行大量的飞行工本数据录入操作,目前最常用的录入方式为人工录入,使得过程繁琐、耗时长、易出错且管理不方便;因此,如何将民航文档快速高效录入存储,实现一个民航文档数据识别录入方法及系统显得尤为重要。

本发明使用各类高清图像获取设备拍摄民航文档,对民航文档图像预处理操作后,通过连通域分析,获取对应连通域的外接矩形进行版面分析精确定位到信息区域;进一步通过对区域中的表格进行提取识别,基于表格坐标信息定位,用已训练好的检测和识别模型对表格框内的文字进行检测和识别;最后基于表格坐标和像素信息对表格进行还原,并将结果与已有信息进行匹配校正,最终将结构化信息实现录入。

发明内容

技术目的

本发明提供一种民航文档数据识别录入方法及系统;高效准确地录入民航文档,如飞行记录本等的信息,达到减轻人力成本,快捷信息录入的目的。

技术方案

本发明的第一目的是提供一种民航文档数据识别录入方法,包括如下步骤:

S1、获取民航文档的图像;

S2、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;

S3、连通域分析进行文本块分割;

S4、识别表格线;

S5、以识别出的表格线为基准,以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;

S6、还原表格;还原表格结构,并将S5中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中

S7、将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。

优选地,所述S1具体为:使用设备为扫描仪、手机、摄像机或各种高清图像获取设备对民航文档进行拍摄。

优选地,所述S3具体为:先将图像转化为二值图像,然后进行膨胀腐蚀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块。

优选地,所述S4具体为:通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线。

优选地,所述S6具体为:通过S4中得到的表格线交点坐标,利用XlsxWriter函数将交点间存在像素的点进行连接合并,将表格重新还原至EXCEL图表中。与此同时,对S5中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中。

本发明的第二目的是提供一种民航文档数据识别录入系统,包括:

图像获取模块、获取民航文档的图像;

图像预处理模块、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;

分割模块、连通域分析进行文本块分割;

表格线识别模块、识别表格线;

检测识别模块、以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;

表格还原模块、还原表格结构,并将识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中

结果输出模块、通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。

优选地,分割模块中:先将图像转化为二值图像、进行膨胀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块;

优选地,表格线识别模块中:通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线。

优选地,表格还原模块中:通过表格线识别模块得到的表格线交点坐标,利用XlsxWriter函数将交点间存在像素的点进行连接合并,将表格重新还原至EXCEL图表中。与此同时,对检测识别模块中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中。

本专利的第三发明目的是提供一种实现上述民航文档数据识别录入方法的信息数据处理终端。

本专利的第四发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的民航文档数据识别录入方法。

本发明的优点及积极效果为:

本发明能够高效准确地录入民航文档,如飞行记录本等的信息,达到减轻人力成本,快捷信息录入的目的。

附图说明

图1是本发明优选实施例中的流程图;

图2是本发明优选实施例中民航文档数据识别录入方法的中间结果图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并结合附图详细说明如下。

请参阅图1至图2:

请参阅图1,用各类高清图像获取设备扫描民航文档,对民航文档图像预处理操作后,通过连通域分析,获取对应连通域的外接矩形进行版面分析精确定位到信息区域;进一步通过对区域中的表格进行提取识别,基于表格坐标信息定位,用已训练好的检测和识别模型对表格框内的文字进行检测和识别;最后基于表格坐标和像素信息对表格进行还原,并将结果与已有信息进行匹配校正,最终将结构化信息实现录入。

包括以下几个步骤:

1)使用设备为扫描仪、手机、摄像机或各种高清图像获取设备对民航文档进行拍摄;

2)图像预处理,图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;

3)连通域分析进行文本块分割。将图像转化为二值图像、进行膨胀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块;

4)识别表格线;通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线

5)以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;

6)还原表格;还原表格结构,并将5)中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中

7)通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。

请参阅图2:民航文档数据识别录入方法的中间结果图,其中图2(a)为对飞行记录本进行表格识别后的二值化结果,从结果可以看出,本方法将图像中的表格进行了准确的识别,为后面表格内信息的结构化录入奠定了基础。图2(b)为飞行记录本版面分析结果,从结果可以看出,本方法将图像中的区域实现了较好的定位,再结合(a)中表格识别结果,可将民航文档数据实现准确高效的信息录入。

一种民航文档数据识别录入系统,包括:

图像获取模块、使用设备为扫描仪、手机、摄像机或各种高清图像获取设备对民航文档进行拍摄;

图像预处理模块、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;

分割模块、将图像转化为二值图像、进行膨胀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块;

表格线识别模块、识别表格线,通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线

检测识别模块、以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;

表格还原模块、还原表格结构,并将检测识别模块中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中

结果输出模块、通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。

上述技术方案包括图像采集定位技术、图像预处理技术、版面分析技术、表格识别技术、文字检测和识别技术、表格还原技术、信息结构化录入和管理等技术。

一种实现上述民航文档数据识别录入方法的信息数据处理终端。

一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的民航文档数据识别录入方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

相关技术
  • 民航文档数据识别录入方法及系统
  • 基于云模型及粗糙集的民航主数据识别方法及系统
技术分类

06120113677914