基于异构架构的表格文字结构化识别方法

文献发布时间：2023-06-19 19:20:08

技术领域

本发明属于FPGA图像处理领域，尤其涉及一种基于异构架构的表格文字结构化识别方法。

背景技术

表格文字结构化识别是指将纸质表格经扫描仪或相机等光学设备变为文字图像，从这些图像中提取文字信息，并建立文字间的结构关系，从中提取出我们所需的关键信息这一过程。这一任务的实现建立在OCR技术之上，通过OCR技术将图像信息转换为文字信息，但其特殊之处在于，表格中的文字包含特有的结构信息，如表头、单位、印章等不同属性，不同表项也有其相应的文字内容，表格文字结构化识别要求对表格格式进行结构化分析，包括文字的空间布局和逻辑布局，最终目标是提取图像中关键区域的文字内容。然而实际情况下的图像往往由于错综复杂的版面结构、错位的空间布局和复杂的成像环境等因素提高了结构化识别的困难度。另外，深度学习方法的快速发展推动了文本检测和OCR技术的发展，为结构化识别技术的发展奠定了基础，但同时，算法规模的剧增使效率成为问题，通过CPU+FPGA异构架构进行处理能够很好的解决这一问题，另一方面，HLS高层次综合工具的出现也为此提供了开发调试的便利。

发明内容

有鉴于此，本提供一种基于异构架构的表格文字结构化识别方法，对在自然环境下拍摄或经扫描仪扫描得到的图片中所含表格文字，对其图片经过规则5化、预处理、文本检测、字段提取、文字识别等步骤后结构化地提取其中重要文字信息，将表格文字图片转换为文字的方法，提高图像中提取文字信息的效率。

一种基于异构架构的表格文字结构化识别方法，所述方法包括：

步骤1：获取待处理的第一图片及图片对应的类型信息，并预先制作放置0所述第一图片的表格模板；

通过卷积神经网络模型对所述第一图片进行调整，调整至所述第一图片呈现水平可读状态，若当所述第一图片存在畸变时进行矫正；

步骤2：所述第一图片进行预处理，至少进行阴影去除、印章去除、图像增强、表格框线消除操作；

5步骤3：文本检测，通过卷积神经网络CNN方法检测到第一图片中的多个文字区域，判断任意两个所述文字区域的间距是否小于预设值，如是，相邻的所述文字区域进行拼接，如否，不做处理；

步骤4：所有所述文字区域通过循环神经网络模型进行字段提取，且提取前对循环神经网络进行预设文字内容的设置，输出多个第二图片；

步骤5：提取所有所述第二图片中的文字信息。

有益效果：

包含详细的识别流程，采用深度学习方法提高算法准确率和鲁棒性。通过深度学习方法将提取表格中重要文字这一过程转化为智能提取，将一个自然语言处理问题转换为图像处理问题。采用了CPU+FPGA的异构架构部署算法，FPGA部分负责算法中计算量最大的神经网络模型运算，CPU部分负责算法中其他简单处理和控制调度，并且，采用C/C++语言书写FPGA部分运行的算法，借用HLS工具进行FPGA部分调试开发，极大地缩短了开发周期和调试周期，对软件设计人员更为友好。由于FPGA与CPU相比具有更高的并发性，对本方法中涉及的深度学习方法使用Vivado的HLS工具进行开发，将其中涉及的深度学习步骤分配在FPGA上进行处理，其他部分通过CPU端进行处理，同时CPU端作为主机端负责整个流程的传输与调度。本发明采用并行流水线设计，充分利用了FPGA的并行特性，同时使用HLS工具进行开发，节省了开发周期和调试周期。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明方法总体流程图，其中灰框部分代表部署在FPGA上的部分，其余部分部署在CPU上；

图2为增值税发票类表格图片在规则化流程中进行模板对齐示意图；

图3为字段提取流程中循环神经网络模型示意图；

图4为增值税发票类表格图片结构化识别结果展示。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

本发明的基于异构架构的表格文字结构化识别方法，包括以下步骤：

步骤1：获取待处理的第一图片及图片对应的类型信息，并预先制作放述第一图片的表格模板。通过卷积神经网络模型对第一图片进行调整，调整至第一图片呈现水平可读状态，若当第一图片存在畸变时进行矫正，具体的，如，图片放在模板正中央，对矫正图片中表格的畸变，判断图片是否存在畸变时，如有，模板匹配有算法并进行矫正，表格模板规则化处理，器包括表格分类、表格旋转和表格模板对齐等步骤。表格分类指对图片中的所含表格进行分类，如增值税发票、出租车发票、医疗收据等的表格，旋转指将图片旋转至表格呈现水平可读状态，表格模板对图片通过传统图像处理方法进行处理，将图片与模板进行匹配，并对图片中表格的畸变进行矫正。

步骤2：第一图片进行预处理，至少进行阴影去除、印章去除、图像增强、表格框线消除操作；表格预处理，通过传统图像处理方法对表格进行快速预处理，提高后续步骤准确率，包括阴影去除、印章去除、表格框线提取、图像增强等预处理方法，部署在CPU中。

步骤3：文本检测，通过卷积神经网络CNN方法检测到第一图片中的多个文字区域，判断任意两个文字区域的间距如小于预设值，如是，(例如，5mm-10mm)，相邻的文字区域进行拼接，如否，不做处理；

步骤4：所有文字区域通过循环神经网络模型进行字段提取，且提取前对循环神经网络进行预设文字内容的设置(例如，发票税号，纳税人等文字)，输出多个第二图片；

步骤5：提取所有第二图片中的文字信息。

作为本案所提供的具体实施方式，原始图样在自然环境下拍摄或经扫描仪扫描得到的第一图片，第一图片包含表格文字，对第一图片中表格文字进行识别提取，剔除预设设置的文字信息。无的用信息，例如，发票的纸业的编号。

作为本案所提供的具体实施方式，卷积神经网络模型和循环神经网络模型深度学习模型算法均通过Vivado HLS(FPGA的开发工具)开发工具在FPGA上进行多个文字区域的识别和检测，其余的步骤均在CPU端开发部署。

作为本案所提供的具体实施方式，卷积神经网络模型对第一图片中表格分类和表格旋转，且按分类的方式进行处理，其中：

卷积神经网络模型处理第一图片的输出结果包括第一类和第二类，第一类表示为图片类别，如增值税发票、出租车发票、医疗收据等，第二类为图片旋转角度，卷积神经网络模型对第一图片的处理在FPGA(硬件，功能同CPU)上进行。

作为本案所提供的具体实施方式，步骤3中文本检测的步骤，包括：

将经过规则化和预处理后的表格文字图像输入卷积神经网络模型中得到文字区域，文字区域由一组四位坐标表示，每一组坐标分别代表一个文字区域(左上角)中指定位置的坐标及文字区域所对应的长和宽，卷积神经网络模型由包括至少CTPN、SegLink、TextBoxes、PSENet、Mask TextSpotter、CRAFT中的一种算法对第一图片训练，输出的结果进行合并及分割得到多个文字区域。

作为本案所提供的具体实施方式，，对所有坐标进行排序以形成坐标序列，坐标序列输入循环神经网络模型，筛选得到所有文字区域；

循环神经网络由一层双向LSTM结构加一层线性分类器构成，输出为一组结点分类结果，分别代表输入坐标序列每个结点的类别，根据类别筛选出坐标序列结点，筛选出对应的文字区域。提取所有第二图片中的文字信息包括使用EATEN、CRNN、CRAFT深度学习文字识别方法中的一种进行提取。

本实例选用常用PC机作为CPU端主机，环境为Ubuntu16.04操作系统，FPGA端采用JFM7VX690T开发套件，通过PCIe端口与主机端相连，测试图像为一张增值税发票类表格图片，结果为发票中所含发票代码、发票代码、销售方姓名、销售方识别等重要字段文字信息。

如图1所示总体流程图，本实例包含以下步骤：

步骤1：表格规则化，包括表格分类、表格旋转和表格模板对齐等步骤。表格分类和表格旋转通过卷积神经网络模型对图片进行分类，模型输出结果包含两部分，一部分代表图片类别，本实例输出类别为增值税发票类，另一部分代表图片旋转角度，如0度、90度、180度和270度，通过该角度旋转图片至水平可读状态，该部分模型部署在FPGA上。表格模板对齐通过传统图像处理方法，将图片与模板进行匹配，矫正图片中表格的畸变等情况，如图2所示模板匹配过程示意图，该部分部署在CPU中。

步骤2：表格预处理，通过传统图像处理方法对表格进行快速预处理，提高后续步骤准确率，包括阴影去除、印章去除、表格框线提取、图像增强等预处理方法，部署在CPU中。

步骤3：文本检测，将经过规则化和预处理后的表格文字图像输入文本检测模型中，得到结果由一组4位坐标表示，每一组坐标分别代表每一块文字区域左上角在图片中的坐标和文字区域的长和宽，文本检测模型由包括但不限于CTPN、SegLink、TextBoxes、PSENet、Mask TextSpotter、CRAFT等文本检测算法通过数据集训练得到，模型部署在FPGA上。再将模型输出的结果通过合并、分割等后处理得到最终检测结果。

步骤4：字段提取，将步骤3中得到最终文本检测结果根据坐标位置进行排序，得到一系列坐标序列，将其作为神经网络模型输入，所述的循环神经网络由一层双向LSTM结构加一层线性分类器构成，如图3所示模型示意图，输出为一组结点分类结果，分别代表输入坐标序列每个结点的类别，根据类别筛选出坐标序列结点，即筛选出每个文本检测区域，如图4展示了经筛选后的文本检测区域在原图上的图形化示意，该部分部署在FPGA上。

步骤5：对步骤4中提取的重要文字区域部分进行文字识别，文字识别方法包括但不仅限于EATEN、CRNN、CRAFT等深度学习文字识别方法，最终从表格文字图片中提取到具有逻辑性的文字结果，如图4中每个红色框下标识的文字即为表格文字结构化识别结果。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：潘妍;刘作龙;张洋;韩伟;余冠锋;程岳;
专利申请人：中国航空工业集团公司西安航空计算技术研究所;

上一篇：一种基于流式推送的业务促转营销方法与系统
下一篇：一种基于互联网的信息安全防护装置