掌桥专利:专业的专利平台
掌桥专利
首页

一种PDF文档图片的还原方法、装置和存储介质

文献发布时间:2023-06-19 19:28:50


一种PDF文档图片的还原方法、装置和存储介质

技术领域

本发明涉及图片还原技术领域,具体涉及一种PDF文档图片的还原方法、装置和存储介质。

背景技术

PDF是目前使用最广泛的文档格式之一,主要用于文档交换与打印等,无法与其他计算机程序进行交互。随着PDF在金融、科研、教育等领域的广泛应用,自动进行PDF文档识别从中提取有用数据,并将其重构为容易编辑的文档成为一个备受关注的问题。PDF文档主要由文本、图像、表格、公式等内容组成,其中,作为一种极高效的数据组织与展现方式,图片的识别和提取成为一个亟待解决的问题。此外,对于扫描版PDF和图片文档,文档中的图片内容对文档的还原也有着重要作用。然而,现有大多数文档还原系统通常会忽略这些图片信息,或者图片提取错误,从而造成内容的缺失。可见如何有效提取和还原PDF文档中的图片内容是现有技术的难题。

发明内容

本发明的目的在于克服上述技术不足,提供一种PDF文档图片的还原方法、装置和存储介质,解决现有技术中如何有效提取和还原PDF文档中的图片内容。

为达到上述技术目的,本发明的技术方案提供一种PDF文档图片的还原方法,包括以下步骤:

S 1、PDFMiner解析系统、融合图片检测与OCR技术的解析系统分别提取文档得到第一图片的坐标信息和第二图片的坐标信息;

S2、将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;

S3、将步骤S2处理后的图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除图片的坐标信息与非图片内容的坐标信息重合的图片;

S4、根据步骤S3处理后的图片的坐标信息从文档中提取出图片并插入文档中的对应位置。

进一步地,在步骤S1中,提取的所述文档包括PDF文档和图片文档。

进一步地,在步骤S1中,所述PDFMiner解析系统提取文档得到所述第一图片的坐标信息的规则为:PDFMiner系统抽取出文档中的所有元素,所述所有元素包括文本数据、线条数据和图片数据;若检测出提取的元素为图片数据,则提取出对应的数据得到所述第一图片的坐标数据。

进一步地,在步骤S1中,所述融合图片检测与OCR技术的解析系统提取文档得到所述第二图片的坐标信息的规则为:对文档中的图片进行检测,然后返回检测出的图片的坐标信息;同时,对文档中的字符进行识别,之后返回所有的字符和对应的坐标信息,之后抽取其中的图片的坐标信息得到所述第二图片的坐标信息。

进一步地,在步骤S3中,所述非图片内容的坐标信息包括文本的坐标信息、表格的坐标信息和公式的坐标信息。

进一步地,在步骤S4之前,还包括将步骤S3处理后的图片根据图片的坐标信息进行水平和纵向排版。使结果文件中图片间的相对位置尽量与原始文件保持一致。

进一步地,在步骤S4中,插入的所述文档为WORD文档。

此外,本发明还提出一种PDF文档图片的还原装置,包括:

PDFMiner解析系统,用于提取文档得到第一图片的坐标信息;

融合图片检测与OCR技术的解析系统,用于提取文档得到第二图片的坐标信息;

第一比对单元,用于将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;

第二比对单元,用于将图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除坐标信息与非图片内容的坐标信息重合的图片;

插入单元,用于根据处理后的图片的坐标信息提取出图片并插入文档中的对应位置。

进一步地,本发明还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述PDF文档图片的还原方法的步骤。

与现有技术相比,本发明的有益效果包括:PDFMiner解析系统、融合图片检测与OCR技术的解析系统分别提取文档得到第一图片的坐标信息和第二图片的坐标信息;将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;将步骤S2处理后的图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除图片的坐标信息与非图片内容的坐标信息重合的图片;根据步骤S3处理后的图片的坐标信息从文档中提取出图片并插入文档中的对应位置,根据PDFMiner抽取出的PDF元素信息和融合图片检测与OCR技术的解析系统检测出的图片信息对PDF以及图片中的图片内容进行提取,使得重排的文档中的图片内容具有更高的还原度。

附图说明

图1是本发明本具体实施方式提出的一种PDF文档图片的还原方法的流程图;

图2是本发明具体实施方式提出的一种PDF文档图片的还原装置的结构框图。

具体实施方式

结合图1,本具体实施方式提供一种PDF文档图片的还原方法,包括以下步骤:

S 1、PDFMiner解析系统、融合图片检测与OCR技术的解析系统分别提取文档得到第一图片的坐标信息和第二图片的坐标信息;提取的所述文档包括PDF文档和图片文档;在步骤S1中,还包括PDFMiner系统判断文件是否为可解析的PDF文档;对于可解析PDF文档,PDFMiner系统对文档中的内容进行解析,从而抽取出所有的PDF文档,对于不是可解析PDF的文档PDFMiner系统则不对其进行处理;利用PDFMiner系统对PDF文件进行解析,从而抽取出文件中的所有内容,如果可以从对应页面中解析出文本或者线条信息,则该文档为可解析的PDF文档;

所述PDFMiner解析系统提取文档得到所述第一图片的坐标信息的规则为:PDFMiner系统抽取出文档中的所有元素,所述所有元素包括文本数据、线条数据和图片数据;若检测出提取的元素为图片数据,则提取出对应的数据得到所述第一图片的坐标数据;

所述融合图片检测与OCR技术的解析系统提取文档得到所述第二图片的坐标信息的规则为:对文档中的图片进行检测,然后返回检测出的图片的坐标信息;同时,对文档中的字符进行识别,之后返回所有的字符和对应的坐标信息,之后抽取其中的图片的坐标信息得到所述第二图片的坐标信息;

S2、将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;

S3、将步骤S2处理后的图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除图片的坐标信息与非图片内容的坐标信息重合的图片;所述非图片内容的坐标信息包括文本的坐标信息、表格的坐标信息和公式的坐标信息;将处理后的图片根据图片的坐标信息进行水平和纵向排版;

S4、根据步骤S3处理后的图片的坐标信息从文档中提取出图片并插入文档中的对应位置。

需要说明的是,可解析版PDF指可以直接从里面复制粘贴出文本内容的PDF文件,这类文件可以利用一些python或者java的库从里面解析出文本、表格和图片的内容;扫描版PDF就是图片类型的PDF文件,整个PDF的内容是一个图片形式,需要利用OCR对PDF中的内容进行识别才可以获取里面的内容。

结合图2,本具体实施方式还提出一种PDF文档图片的还原装置,包括:

PDFMiner解析系统,用于提取文档得到第一图片的坐标信息;

融合图片检测与OCR技术的解析系统,用于提取文档得到第二图片的坐标信息;

第一比对单元,用于将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;

第二比对单元,用于将图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除坐标信息与非图片内容的坐标信息重合的图片;

插入单元,用于根据处理后的图片的坐标信息提取出图片并插入文档中的对应位置。

本具体实施方式还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述PDF文档图片的还原方法的步骤。

本发明根据PDFMiner系统抽取出的元素和融合图片检测与OCR技术的解析系统检测的图片信息对文档中的图片内容进行识别,然后利用提取出文档中的图片内容并插入目标文档中,使得重构后的内容与原始文档保持更高的一致性。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的方法进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1

本实施例提出一种PDF文档图片的还原方法,包括以下步骤:

S 1、PDFMiner解析系统、融合图片检测与OCR技术的解析系统分别提取文档得到第一图片的坐标信息和第二图片的坐标信息;提取的所述文档包括PDF文档和图片文档;所述PDF文档包括可解析PDF文档和PDF扫描件;PDFMiner系统判断文件是否为可解析的PDF文档;对于可解析PDF文档,PDFMiner系统对文档中的内容进行解析,从而抽取出所有的PDF文档,对于不是可解析PDF的文档PDFMiner系统则不对其进行处理;

需要说明的是,PDFMiner解析系统是一个基于PDFMiner库的PDF文件解析系统;

所述PDFMiner解析系统提取文档得到所述第一图片的坐标信息的规则为:PDFMiner系统抽取出文档中的所有元素,所述所有元素包括文本数据、线条数据和图片数据;若检测出提取的元素为图片数据,则提取出对应的数据得到所述第一图片的坐标数据;

所述融合图片检测与OCR技术的解析系统提取文档得到所述第二图片的坐标信息的规则为:对文档中的图片进行检测,然后返回检测出的图片的坐标信息;同时,对文档中的字符进行识别,之后返回所有的字符和对应的坐标信息,之后抽取其中的图片的坐标信息得到所述第二图片的坐标信息;

S2、在利用步骤S1获取文档中第一图片的坐标信息和第二图片的坐标信息后,我们在该步骤对所有的图片内容进行融合和去重操作,该操作直接比较检测出的所有图片之间坐标是否基本重合,如果图片之间坐标基本重合,则认为这两个图片为重复图片,将其中一个图片删除即可;具体地,将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;

S3、为了保证图片内容的准确性,在该步骤我们将进一步对图片进行过滤;在该步骤我们将检测出的图片的坐标信息与文档中非图片内容(例如文本、表格、公式等)的坐标信息进行比较,检查两者之间是否有重合,如果两者坐标之间有重合,则认为图片内容有误,删除该图片,具体地,将步骤S2处理后的图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除图片的坐标信息与非图片内容的坐标信息重合的图片;所述非图片内容的坐标信息包括文本的坐标信息、表格的坐标信息和公式的坐标信息;将处理后的图片根据图片的坐标信息进行水平和纵向排版;

S4、利用Image库对输入文档中的图片内容进行提取,在提取时,我们依照图片解析时得到的图片坐标信息从原始文件中截取对应位置的图片,从而提取出文档中所有的图片内容;根据步骤S3处理后的图片的坐标信息从文档中提取出图片并插入文档中的对应位置。

需要说明的是,融合图片检测与OCR技术的解析系统是一个融合了图片检测技术和OCR识别技术的系统。对于输入的文档,该系统可以利用图片检测模块对文档中的图片内容进行检测,从而返回所有图片的坐标位置信息;同时,该系统还会利用OCR识别技术对文档中所有的文本和线条进行检测和识别,从而返回所有的文本、线条及其对应的坐标信息。

本发明提供了一种文档中图片内容的提取和重构方法,可以自动检测和提取文档中的图片内容,然后依据图片的坐标信息将图片插入到DOCX文件中的对应位置,从而使目标文档中图片内容的排版尽量与原始文档保持一致。

以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

技术分类

06120115919033