掌桥专利:专业的专利平台
掌桥专利
首页

一种文档还原处理方法、装置、计算机存储介质及终端

文献发布时间:2023-06-19 12:22:51


一种文档还原处理方法、装置、计算机存储介质及终端

技术领域

本文涉及但不限于文档还原技术,尤指一种文档还原处理方法、装置、计算机存储介质及终端。

背景技术

目前,一些文档是以图像的方式存储的,为了对图像中包含的文字进行编辑存储,需要将包含文档的原始图像还原成可编辑的文档。

在将原始图像还原成可编辑文档时,如果原始图像包含印章,相关技术主要有以下两种处理方法:1、确定原始图像中包含的印章区域,将印章区域裁剪后,直接粘贴在由原始图像还原获得的文档中;2、对原始图像直接进行内容识别;图1为相关技术中采用粘贴印章区域获得的文档的示意图,如图1所示,印章区域与文档其他部分出现无法对齐的情况时,印章区域的图像会影响部分文字的显示;采用内容识别方式获得的文档中,印章与文字存在重叠的部分,印章上的部分文字会被识别成普通文本,印章还原效果差,文字上的印章被识别为文字,影响文字识别的准确率。

针对现有技术采用粘贴或内容识别获得的印章区域的文档还原质量较差的问题,尚未提出解决方案。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种文档还原处理方法、装置、计算机存储介质及终端,能够提升还原可编辑文档过程中印章区域的还原质量。

本发明实施例提供了一种文档还原处理方法,包括:

获取待处理图像,其中,所述待处理图像是原文档中待检测印章区域的图像;

根据颜色分量集提取所述待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;

提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;;

根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。

另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述文档还原处理方法。

再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,

处理器被配置为执行存储器中的计算机程序;

所述计算机程序被所述处理器执行时实现如上述文档还原处理方法。

还一方面,本发明实施例还提供一种文档还原处理装置,包括:获取单元、组成单元、提取单元和还原单元;其中,

获取单元用于:获取待处理图像,其中,所述待处理图像是原文档中待检测印章区域的图像;

组成单元用于:根据颜色分量集提取所述待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;

提取单元用于:提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;

还原单元用于:根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。

本发明实施例获取待处理图像;通过提取待处理图像中落入预设的颜色分量集范围的像素点组成待处理图像中文字部分所对应图像的第一二值图;提取待处理图像的第二二值图;根据待处理图像、第一二值图和第二二值图还原待检测印章区域中的印章图像与文字到新文档。通过对待检测印章区域中文字和印章图像的还原,提升了还原可编辑文档过程中印章区域的还原质量。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为相关技术中采用粘贴印章区域获得的文档的示意图;

图2为本发明实施例文档还原处理方法的流程图;

图3为本发明实施例文档还原处理装置的结构框图;

图4为本发明应用示例的方法流程图;

图5为本发明应用示例原始图像的示意图;

图6为本发明实施例确定印章的所在区域的示意图;

图7为本发明实施例裁剪获得的待处理图像的示意图;

图8为本发明应用示例第二二值化图的示意图;

图9为本发明应用示例第一二值化图的示意图;

图10为本发明应用示例第三二值化图的示意图;

图11为本发明应用示例获得的印章贴图的示意图;

图12为本发明应用示例待处理图像中的文字的图像的示意图;

图13为本发明应用示例将文字的图像粘贴至新文档的示意图;

图14为本发明应用示例文本检测的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图2为本发明实施例文档还原处理方法的流程图,如图2所示,包括:

步骤201、获取待处理图像,其中,待处理图像是原文档中待检测印章区域的图像;

步骤202、根据颜色分量集提取待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,第一二值图是待处理图像中文字部分所对应图像的二值图;

步骤203、提取待处理图像所对应的第二二值图,其中,第二二值图是包括文字部分的二值图和印章图像部分的二值图,即第二二值图是待处理图像中文字和印章图像部分共同组成的二值图;

本发明实施例中的第二二值图可以通过对待处理图像进行二值化处理获得,包括但不限于:通过自适应阈值二值化算法对待处理图像进行二值化处理。

步骤204、根据待处理图像、第一二值图和第二二值图还原待检测印章区域的印章图像与文字到新文档。

在一种可选的实例方式中,本发明实施例颜色分量集包括:预先存储的一种以上文档中写入的文字的字体颜色的颜色分量集;其中,一种以上文档包括以下一项或任意组合:标准的PDF文件、PDF扫描件、拍照获得的PDF文件、由可编辑文档转换获得的PDF文件;字体颜色包括一种以上不同格式的字体颜色。

本发明实施例中的颜色分量集合包括文字部分所对应像素点的颜色分量集范围,颜色分量集范围为至少一个,其中,颜色分量集范围是由待处理图像中文字部分的像素的HSV值组成的集合;处理场景不同、PDF的来源不同,颜色分量集合的范围不同;例如,PDF扫描件、PDF标准件、拍照生成的PDF,经过word或者PPT等其他软件转化后的PDF,都对应不同的颜色分量集范围;此外,字体的加粗、深浅、每英寸点数(DPI)、分辨率都对应不同的颜色分量集范围,不同的颜色分量集范围可能会有交叉,通过上述颜色分量集范围,可以实现对待处理图像中包括的文字部分的准确筛选。

本发明实施例基于上述颜色分量集,可以实现不同种类的原文档中包含的文字的像素点的识别。本发明实施例可以根据原文档的不同,可以选取对原文档中文字部分的像素点进行有效识别的颜色分量集。本发明实施例中的文档包括但不限于:WORD格式的文档、PDF文档、文本文档和PPT文档等;

本发明实施例通过提取待处理图像中落入预设的颜色分量集范围的像素组成待处理图像中文字部分所对应图像的第一二值图;提取待处理图像的第二二值图;根据待处理图像、第一二值图和第二二值图还原待检测印章区域中的印章图像与文字到新文档;本发明实施例通过颜色分量集范围的像素组成待处理图像中文字部分所对应图像的第一二值图,实现待处理图像中文字部分的识别;通过文字部分的区分识别,在对待处理图像中的印章进行处理时,避免了文字部分对印章还原造成干扰,基于印章图像还原质量的提升,提升了还原可编辑文档过程中印章区域的还原质量。

在一种可选的实例方式中,本发明实施例步骤201获取待处理图像包括:确定原文档中印章的所在区域;根据确定的原文档中的所在区域对原文档进行裁剪,获得待处理图像。

下面通过可选的实施例对上述处理进行说明,确定原文档中印章的所在区域可以包括:基于深度学习的多目标检测算法训练获得印章检测模型;通过训练获得的印章检测模型对原文档进行检测,确定印章的所在区域;在一种示例性实例中,印章的所在区域可以是包含印章的矩形区域。在一种示例性实例中,根据确定的原文档中的所在区域对原文档进行裁剪可以包括:根据印章的所在区域的坐标,参照相关技术对原文档中印章的所在区域进行裁剪。

本发明实施例基于上述处理,实现了待检测印章区域的确定和裁剪,为单独进行待检测印章区域的还原提供了基础。

在一种可选的实例方式中,本发明实施中的颜色分量集包括文字部分所对应像素点的范围,颜色分量集的范围为至少一个,颜色分量集合包括:色调饱和度和明度(HSV)颜色分量集合。

在一种可选的实例方式中,本发明实施例步骤202根据颜色分量集提取待处理图像中落入颜色分量集范围的像素点来组成第一二值图包括:生成待处理图像的HSV图像;将生成的HSV图像中HSV值落入颜色分量集范围内的像素点,确定待处理图像中包含的文字的像素点,其中,颜色分量集合包括:HSV颜色分量集合,HSV值是图像的三通道色调、饱和度和明度的值;将确定的待处理图像中包含的文字的像素点组成第一二值图。

下面以对HSV图像的生成方式进行示例说明,生成待处理图像的HSV图像包括:将待处理图像通过红绿蓝(RGB)转HSV的方法获得上述HSV图像,其中,HSV图像也可称作HSV颜色模型。

本发明实施例上述组成第一二值图的处理,获得了待处理图像中包含的文字的像素点的信息,为待检测印章区域的文字部分的还原提供基础。

在一种可选的实例方式中,本发明实施例将确定的待处理图像中包含的文字的像素点组成第一二值图包括:确定待处理图像中包含的文字部分的像素点的位置;将第二二值图中文字部分的像素点的位置的像素设置为255,除文字部分的像素点的位置以外的其他像素点的位置的像素设置为0,获得第一二值图。参见图9,通过设置第二二值图中文字的像素点的位置中的像素为255,将文字的像素点以白色像素显示,设置除文字的像素点的位置以外的其他位置的像素为0,将除文字以外的其他像素显示为黑色,获得了以白色像素显示文字的二值图。

上述步骤通过将第二二值图中文字的像素点的位置中的像素设置为255,除文字的像素点的位置以外的其他位置的像素设置为0,使二值化图中仅以像素为255的白色像素显示存在的文字的像素点,获得了待处理图像中包含的文字部分的二值图。

在一种可选的实例方式中,本发明实施例步骤204根据待处理图像、第一二值图和第二二值图还原待处理图像与文字到新文档之前包括:根据第一二值化图与第二二值化图中白色像素的数量确定印章属性分类,其中,印章属性分类是待处理图像中包含的印章的所属分类;根据待处理图像中的印章属性分类的判断结果对待处理图像、第一二值图和第二二值图进行处理。第二二值化图中白色像素指像素为255的像素。

本发明实施例对待处理图像中包含不同属性分类的印章分别采用相应的方式进行处理,提升了待处理图像中包含的文字和印章图像的处理质量。

在一种可选的实例方式中,本发明实施例根据第一二值化图与第二二值化图中白色像素的数量,确定待处理图像中的印章属性分类包括:

计算第一二值图中白色像素数量与第二二值图中白色像素数量的比值;在比值大于预设阈值的情况下,确定待处理图像的印章属性分类为黑白印章图像类别;在比值小于或等于预设阈值的情况下,确定待处理图像的印章属性分类为彩色印章图像类别。本发明实施例预设阈值可以是百分比阈值。

本发明实施例中的上述预设阈值,可以由本领域技术人员分别计算彩色印章和黑白印章的第一二值化图和第二二值化图中白色像素数量的比值后,根据经验设定一数值,例如、预设阈值可以是0.7~0.8内的一个值。基于彩色印章和黑白印章中第一二值图与第二二值图白色像素的数量的区别设置上述预设阈值,实现了待处理图像中的印章属性分类的确定。

在一种可选的实例方式中,本发明实施例根据判断印章属性分类的结果对待处理图像、第一二值图和第二二值图进行处理包括:在判断结果是印章属性分类为彩色印章图像的情况下,则将第二二值图中第一二值图的部分去除得到第三二值图,其中,第三二值图是待处理图像中印章图像部分所对应的二值图;根据待处理图像与第一二值图的对应关系得到新的文字部分的图像;其中,对应关系是相同位置的像素成一一对应的关系;根据待处理图像与第三二值图的对应关系得到印章图像部分的印章贴图,其中,印章图像部分的印章贴图是在印章图像部分以外的部分为透明的图像。

上述处理中,对应关系是待处理图像、第一二值图和第三二值图采用相同的像素坐标定义后,每一组相同的像素坐标的像素之间的一一对应的关系;将第二二值图中第一二值图的部分去除得到第三二值图包括:将第二二值化图与第一二值化图进行相减处理,获得第三二值化图,其中,第二二值化图与第一二值化图的相减处理包括:将第二二值化图与第一二值化图中相同位置的像素进行相减处理。

上述处理对印章属性分类为彩色印章图像的待处理图像,对图像中包含的文字部分和印章部分分别进行识别处理,避免文字部分内容对印章部分内容的还原处理造成干扰,也避免印章部分的内容对文字部分的还原造成影响,通过分别还原处理文字部分和印章部分,可以获得背景为透明的印章图像,提升了待处理图像的处理质量。

在一种可选的实例方式中,本发明实施例根据待处理图像与第三二值图的对应关系得到印章图像部分的印章贴图包括:转换第三二值图为第二四通道图像;对转换获得的第二四通道图像,将第二二值图中的像素为0的像素点的阿尔法通道设为255后获得彩色印章的印章图像部分的印章贴图。参见图10和图11,在转换第三二值图为第二四通道图像后,对图10所示的第二二值化图,通过设置像素为0的像素点(黑色像素,在图10中黑色的部分)的阿尔法通道为255,将第二四通道图像中除彩色印章外的背景部分处理为透明,获得了背景为透明彩色印章的印章图像部分的印章贴图。

本发明实施例中,四通道图(RGBA)是代表红色(Red)绿色(Green)蓝色(Blue)和Alpha的色彩空间;它其实是在RGB模型附加了额外的信息。alpha通道一般用作不透明度参数。如果一个像素的alpha通道数值为0%,那它就是完全透明的(也就是看不见的),而数值为100%则意味着一个完全不透明的像素(传统的数字图像)。alpha通道值可以用百分比、整数或者像RGB参数那样用0到1的实数表示。

本发明实施例通过将待处理图像中与第一二值图中像素为0的相同位置的像素设置为255;以图7、图9和图12作为示意图,本发明实施例将待处理图像7中,图9的第一二值图中像素为0(黑色像素)的像素点对应的位置的像素设置为255(设置为白色响度),将图7中的印章部分设置为白色,实现了印章部分的抠除,从而获得了图12所示的仅包含待处理图像中的文字部分的图像。对待处理图像中印章部分所对应的第三二值图转换为第二四通道图,通过设置第二二值图中的像素为0的像素点的阿尔法通道为255,将除彩色印章部分的像素处理为透明,获得了背景透明的彩色印章。

在一种可选的实例方式中,本发明实施例根据待处理图像与第一二值图的对应关系得到新的文字部分的图像包括:将待处理图像中与第一二值图中像素为255的相同位置处的像素保留,将待处理图像中与第一二值图中像素为0的相同位置处的像素设置为255,从而获得新的文字部分的图像。以图7、图9和图12作为示意图,将待处理图像中与第一二值图中像素为255的相同位置处的像素保留,即根据图9文字部分(白色像素)的位置保留了图7中文字部分的像素;将与第一二值图中像素为0的相同位置处的像素设置为255,即确定图9非文字部分(黑色像素)的位置,将图7中与图9中黑色像素的位置的像素设置为255,获得图12的文字部分的图像。

本发明实施例通过待处理图像和第一二值图进行处理,获得了包含彩色印章的待处理图像中文字部分的图像。

在一种可选的实例方式中,根据待处理图像中的印章属性分类的判断结果对待处理图像、第一二值图和第二二值图进行处理包括:在判断结果是印章属性分类为黑色印章图像的情况下,根据第二二值图得到包含待检测印章区域的文字部分和印章图像部分的印章贴图,其中,印章贴图是除黑色像素部分以外的其他部分为透明的图像;参见图7的待处理图像,本发明实施例对于黑色印章图像,除图中显示印章贴图为黑色像素部分外,其他部分是透明的。

本发明实施例对印章属性分类为黑色印章图像的待处理图像,通过获得除文字和印章(图7待处理图像中黑色像素)部分的其他部分为透明的图像,获得了包含待检测印章区域的文字部分和印章图像部分的印章贴图,即获得透明背景的同时获得了包含文字和黑色印章的图像。

在一种可选的实例方式中,本发明实施例根据待处理图像、第一二值图和第二二值图还原待检测印章区域的印章图像与文字到新文档包括:根据待处理图像的位置,将还原的待处理图像中的新的文字部分的图像和得到的印章图像部分的印章贴图粘贴至新文档中。

本发明实施例对判断结果是印章属性分类为彩色印章图像,根据待处理图像的位置,将还原的待处理图像中的新的文字部分的图像和得到的彩色印章的印章图像部分的印章贴图粘贴至新文档中,实现了包含彩色印章的待处理图像的还原处理。

在一种可选的实例方式中,本发明实施例根据待处理图像、第一二值图和第二二值图还原待检测印章区域的印章图像与文字到新文档包括:根据待处理图像的位置,将还原的包含待检测印章区域的文字部分和印章图像部分的印章贴图粘贴至新文档中。

本发明实施例对判断结果是印章属性分类为黑色印章图像,根据待处理图像的位置,将还原的待处理图像中的包含待检测印章区域的文字部分和印章图像部分的印章贴图粘贴至新文档中,实现了包含黑色印章的待处理图像的还原处理。

本发明实施例对处理获得的待处理图像中包含的文字和印章图像,根据待处理图像的位置还原至新文档中,实现了新文档中待处理图像部分的包含的文字和印章的还原。将还原的包含待检测印章区域的文字的印章贴图、待处理图像中的文字和得到的印章贴图粘贴至新文档的情况下,还原的位置根据相关技术中图像分析方法确定,在此不做赘述。

在一种可选的实施方式中,本发明实施例颜色分量集包括以下一项或任意组合:颜色分量范围为:H值小于或等于180;S值小于或等于155;V值小于或等于146;颜色分量范围为:H值小于或等于180;S值小于或等于93;V值大于或等于36,小于或等于100;颜色分量范围为:H值小于或等于180;S值大于或等于53,小于或等于124;V值大于或等于53,小于或等于224;颜色分量范围为:H值小于或等于180;S值大于或等于83,小于或等于94;V值大于或等于45,小于或等于71;颜色分量范围为:H值小于或等于180;S值大于或等于73,小于或等于154;V值大于或等于53,小于或等于150;颜色分量范围为:H值小于或等于180;S值大于或等于43,小于或等于124;V值大于或等于35,小于或等于45。

上述实施例中的颜色分量集仅是本发明实施例根据常规文档确定的颜色分量集,基于上述颜色分量集可以实现常规文档中文字的像素点的有效识别。

本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序被处理器执行时实现上述文档还原处理方法。

本发明实施例还提供一种终端,包括:存储器和处理器,存储器中保存有计算机程序;其中,

处理器被配置为执行存储器中的计算机程序;

计算机程序被处理器执行时实现如上述文档还原处理方法。

图3为本发明实施例文档还原处理装置的结构框图,如图3所示,包括:获取单元、组成单元、提取单元和还原单元;其中,

获取单元用于:获取待处理图像,其中,待处理图像是原文档中待检测印章区域的图像;

组成单元用于:根据颜色分量集提取待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,第一二值图是待处理图像中文字部分所对应图像的二值图;

提取单元用于:提取待处理图像所对应的第二二值图,其中,第二二值图是包括文字部分的二值图和印章图像部分的二值图;

还原单元用于:根据待处理图像、第一二值图和第二二值图还原待检测印章区域的印章图像与文字到新文档。

本发明实施例获取待处理图像,其中,待处理图像是原文档中待检测印章区域的图像;通过提取待处理图像中落入预设的颜色分量集范围的像素点组成待处理图像中文字部分所对应图像的第一二值图;提取待处理图像的第二二值图;根据待处理图像、第一二值图和第二二值图还原待检测印章区域中的印章图像与文字到新文档。通过对待检测印章区域中文字和印章图像的还原,提升了还原可编辑文档过程中印章区域的还原质量。

在一种可选的实施方式中,获取单元具体用于:确定原文档中印章的所在区域;根据确定的原文档中的所在区域对原文档进行裁剪,获得待处理图像。

在一种可选的实例方式中,本发明实施中的颜色分量集包括文字部分所对应像素点的范围,颜色分量集的范围为至少一个,其中,颜色分量集合包括:HSV颜色分量集合。

在一种可选的实施方式中,组成单元具体用于:生成待处理图像的HSV图像;将生成的HSV图像中HSV值落入颜色分量集范围内的像素点,确定待处理图像中包含的文字的像素点;将确定的待处理图像中包含的文字的像素点组成第一二值图。

在一种可选的实施方式中,组成单元用于将确定的待处理图像中包含的文字的像素点组成第一二值图包括:确定待处理图像中包含的文字的像素点的位置;将第二二值图中文字的像素点的位置中的像素设置为255,除文字的像素点以外的其他像素点的位置的像素设置为0,获得第一二值图。

在一种可选的实施方式中,本发明实施例文档还原处理装置还包括:判断单元和处理单元;其中,判断单元用于:判断待处理图像中的印章属性分类,其中,印章属性分类是待处理图像中包含的印章的所属分类;处理单元用于:根据待处理图像中的印章属性分类的判断结果对待处理图像、第一二值图和第二二值图进行处理。

在一种可选的实施方式中,本发明实施例处理单元用于:在判断结果是印章属性分类为彩色印章图像类别的情况下,将第二二值图中第一二值图的部分去除得到第三二值图,其中,第三二值图是待处理图像中印章部分所对应的二值图;根据待处理图像与第一二值图的对应关系得到新的文字部分的图像;根据待处理图像与第三二值图的对应关系得到印章图像部分的印章贴图,其中,印章贴图是除印章部分的其他部分为透明的图像。

在一种可选的实施方式中,本发明实施例处理单元用于:在判断结果是印章属性分类为黑色印章图像的情况下,根据第二二值图得到包含待检测印章区域的文字的印章贴图,其中,印章贴图是除黑色像素部分的其他部分为透明的图像。

在一种可选的实施方式中,本发明实施例还原单元具体用于:根据待处理图像的位置,将还原的待处理图像中的文字部分的图像和得到的印章贴图粘贴至新文档中。

在一种可选的实施方式中,本发明实施例还原单元具体用于:根据待处理图像的位置,将还原的包含待检测印章区域的文字的印章贴图粘贴至新文档中。

在一种可选的实施方式中,本发明实施例判断单元具体用于:根据第一二值化图与第二二值化图中白色像素的数量,确定待处理图像中的印章属性分类。

在一种可选的实施方式中,本发明实施例判断单元具体用于:计算第一二值图和第二二值图中白色像素数量的比值;第一二值图和第二二值图中白色像素数量的比值大于预设阈值的情况下,确定待处理图像的印章属性分类为黑白印章图像类别;第一二值化图和第二二值化图中白色像素数量的比值小于或等于预设阈值的情况下,确定待处理图像的印章属性分类为彩色印章图像类别。

在一种可选的实施方式中,本发明实施例处理单元用于:在判断结果是印章属性分类为黑色印章图像的情况下,根据第二二值图得到包含待检测印章区域的文字的印章贴图包括:在判断结果是印章属性分类为黑色印章图像的情况下,转换第二二值图转换为第一四通道图像;对转换获得的第一四通道图像,将第二二值图中的像素为0的像素点的阿尔法通道设为255后获得包含待检测印章区域的文字的印章贴图。

在一种可选的实施方式中,本发明实施例处理单元用于根据待处理图像与第三二值图的对应关系得到印章图像部分的印章贴图包括:转换第三二值图为第二四通道图像;对转换获得的第二四通道图像,将第二二值图中的像素为0的像素点的阿尔法通道设为255后获得彩色印章。

在一种可选的实施方式中,本发明实施例处理单元用于根据待处理图像与第一二值图的对应关系得到新的文字部分的图像包括:将待处理图像中与第一二值图中像素为255的相同位置的像素保留,与第一二值图中像素为0的相同位置的像素设置为255,获得新的文字部分的图像。

在一种可选的实施方式中,本发明实施例中的颜色分量集包括:预先存储的一种以上文档中写入的文字的字体颜色的颜色分量集;其中,一种以上文档包括以下一项或任意组合:标准的PDF文件、PDF扫描件、拍照获得的PDF文件、由可编辑文档转换获得的PDF文件;字体颜色包括一种以上不同格式的字体颜色。

在一种可选的实施方式中,本发明实施例中的颜色分量集包括以下一项或任意组合:颜色分量范围为:H值小于或等于180;S值小于或等于155;V值小于或等于146;颜色分量范围为:H值小于或等于180;S值小于或等于93;V值大于或等于36,小于或等于100;颜色分量范围为:H值小于或等于180;S值大于或等于53,小于或等于124;V值大于或等于53,小于或等于224;颜色分量范围为:H值小于或等于180;S值大于或等于83,小于或等于94;V值大于或等于45,小于或等于71;颜色分量范围为:H值小于或等于180;S值大于或等于73,小于或等于154;V值大于或等于53,小于或等于150;颜色分量范围为:H值小于或等于180;S值大于或等于43,小于或等于124;V值大于或等于35,小于或等于45。

以下通过应用示例对本发明实施例进行简要说明,应用示例仅用于陈述本发明,并不用于限定本发明的保护范围。

应用示例1

图4为本发明应用示例的方法流程图,如图4所示,包括:

步骤401、确定原始图像(原文档)中印章的所在区域;本应用示例可以利用基于深度学习的多目标检测算法训练印章检测模型,对原始图像进行检测,得到印章的矩形区域;

图5为本发明应用示例原始图像的示意图,如图5所示,在文档的右下角包含印章;图6为本发明应用示例确定印章的所在区域的示意图,如图6所示,通过矩形框标识确定的原文档中印章的所在区域。

步骤402、根据确定的原文档中印章的所在区域对原始图像进行裁剪,获得待处理图像,其中,待处理图像是原始图像中待检测印章区域的图像;即裁剪印章矩形区域图像image。

图7为本发明实施例裁剪获得的待处理图像的示意图,如图7所示,裁剪包含印章的矩形区域获得的待处理图像,除印章外,还包含位于待检测印章区域内的文字。

步骤403、生成待处理图像的HSV图像;即生成HSV(色调、饱和度和明度)图像(image_hsv);将印章区域的原始图像通过RGB转HSV的方法转成HSV图像;

步骤404、对待处理图像进行二值化处理,获得第二二值图;本发明实施例通过自适应阈值二值化算法,对印章区域原始图像(印章的所在区域的原文档)进行二值化处理;图8为本发明应用示例第二二值图的示意图,如图8所示,二值化处理后,包含颜色的区域显示为白色,空白区域显示为黑色。

步骤405、提取待处理图像中落入预设的颜色分量集范围的像素点,以组成第一二值图,其中,颜色分量集包括:HSV颜色分量集合,第一二值图是待处理图像中文字部分所对应图像的二值图。

上述处理统计颜色分量范围集,颜色分量范围集提取HSV图像中在颜色分量范围集内的像素点;在一种示例性实例中,本应用示例一个以上颜色分量范围集合可以通过以下处理获得:预先存储的一种以上文档;一种以上文档包括以下一项或任意组合:标准的PDF文件、PDF扫描件、拍照获得的PDF文件、由可编辑文档转换获得的PDF文件;将预先存储的一种以上文档转换为样本文档图像;对转换获得样本文档图像中包含的文字的颜色分量范围进行统计,获得颜色分量范围集合。

在一种示例性实例中,提取待处理图像中落入预设的颜色分量集范围的像素点,包括:将待处理图像中HSV值落入一个以上颜色分量范围集合内的像素点,确定为文字的像素点,其中,颜色分量集合包括:HSV颜色分量集合;例如、待处理图像的HSV图像中某个像素点的HSV值为H=15、S=120和V=30,假设颜色分量范围集合包括:0

本发明应用示例统计计算出来的常见文档文字的颜色分量范围,能把文字或与文字接近的噪点的像素提取到,排除了与文字相差较大的噪点,颜色分类集中提取文字像素得到文字像素区域(文字部分)的二值图,从而使得抠图更清晰;(本发明应用示例通过统计颜色分量范围集,根据颜色分量集,提取image_hsv在该颜色集内像素点;通过大量统计,统计出通用文档图像中文字像素点的HSV所处的HSV值的范围,将不同场景下文字HSV值的范围集合,分成相互互斥的HSV颜色范围,组合成文字HSV颜色分量集),在HSV图像中,根据满足颜色分量集的像素点,得到文字像素区域的二值图(对二值化mask图中满足颜色分量集的像素置为255,不满足的置为0);本应用示例提取待处理图像中落入预设的颜色分量集范围的像素点组成第一二值图,包括:确定待处理图像中包含的文字的像素点的文字像素位置;将第二二值图中文字的像素点的位置中的像素设置为255,除文字的像素点的位置以外的其他位置的像素设置为0,获得第一二值图。图9为本发明应用示例第一二值化图的示意图,如图9所示,通过设置第二二值图中文字的像素点的位置中的像素为255,将文字的像素点以白色像素显示,设置除文字的像素点的位置以外的其他位置的像素为0,将除文字以外的其他像素显示为黑色,获得了以白色像素显示文字的二值图。本应用示例通过上述整理将满足颜色分量集的像素置为255,不满足的置为0,获得了文字以白色像素(像素为255)显示的二值图。

步骤406、根据第一二值化图与第二二值化图中白色像素的数量,确定待处理图像中的印章属性分类,其中,印章属性分类是待处理图像中包含的印章的所属分类;本应用示例通过计算第二二值化图中白色像素总数与第一二值化图的白色像素总数的比值ratio;如果ratio大于0.7(经验值),判断待处理图像中的印章为黑色印章;反之,判断待处理图像中的印章为彩色印章,彩色印章可以是红色、蓝色等各种颜色的印章;

步骤407、根据确定的印章属性分类还原印章图像。

在一种示例性示例中,本应用示例根据确定的印章的所属分类进行印章还原,包括:印章区域图像中包含的印章为黑色印章的情况下,转换第一二值化图转换为第一四通道图像;对转换获得的第一四通道图像,将第二二值化图中的像素为0的像素点的阿尔法通道设为255后,获得包含待检测印章区域的文字的黑色印章的印章贴图。本应用示例通过上述处理可以获得印章背景部分为透明的黑色印章的印章贴图。

在一种示例性示例中,本应用示例对黑色印章处理时,印章区域像素置为[255,255,255](填白),通过对黑色印章区域用白色填充获得印章贴图,避免对黑色印章进行文本检测和文本识别时,因为文本检测和文本识别准确率低,影响文档还原效果。

获得黑色印章的印章贴图后,本应用示例可以根据待处理图像在原文档的位置,将还原获得的印章贴图粘贴到根据原文档还原的新文档中。

在一种示例性实例中,本应用示例根据确定的印章属性分类还原印章图像,包括:如果判断结果是印章属性分类为彩色印章图像,将第二二值图中第一二值图的部分去除得到第三二值图,其中,第三二值图是待处理图像中印章部分所对应的二值图;根据第一二值图获得待处理图像中的文字;根据待处理图像与第三二值图的对应关系得到印章图像部分的印章贴图,其中,印章贴图是除印章部分的其他部分为透明的图像。参见图7和图10,图10中白色像素为彩色印章图像的位置分布,图7中包含彩色印章图像的位置与图10中白色像素位置相对应,根据图10中白色像素的位置可以确定图7中彩色印章图像的位置。

在一种示例性实例中,本应用示例根据待处理图像与第三二值图的对应关系得到印章图像部分的印章贴图,包括:转换第三二值图为第二四通道图像;对转换获得的第二四通道图像,将第二二值图中的像素为0的像素点的阿尔法通道设为255后获得彩色印章的印章图像部分的印章贴图。

图10为本发明应用示例第三二值化图的示意图,如图10所示,第三二值化图中文字部分通过相减处理消失,第三二值化图中仅包含以白色像素显示的印章。图11为本发明应用示例获得的印章贴图的示意图,如图11所示,转换第三二值图为第二四通道图像后,通过设置第二二值化图中的像素为0的像素点的阿尔法通道为255,将第二四通道图像中除彩色印章外的背景部分处理为透明,获得了背景为透明彩色印章的印章图像部分的印章贴图,将该彩色印章的印章贴图粘贴至文档的情况下,文档的背景色等不会受到影响,还原获得的文档显示质量得到提升。在一种示例性实例中,印章区域图像中包含的印章为彩色印章的情况下,本应用示例根据第一二值图获得待处理图像中的文字,包括:对第一二值图进行文字识别,获得第一二值图中包含的文字。

在一种示例性实例中,本应用示例根据第一二值图获得待处理图像中的文字,包括:将待处理图像中与第一二值图中像素为255的相同位置的像素保留,与第一二值图中像素为0的相同位置的像素设置为255,获得仅包含待处理图像中的文字的图像。假设第一二值图中第一位置的像素为255、第二位置的像素为0,则本发明应用示例将待处理图像中第一位置的像素保留,将待处理图像中第二位置的像素设置为255;图12为本发明应用示例获得待处理图像中的文字的图像的示意图,如图12所示,第一二值化图中的印章部分被消除后,仅留文字部分。在一种示例性实例中,本应用示例利用待处理图像(image)和第一二值图(mask_word),将mask_word中像素为255的对应image中的像素保留,即保留文字区域的像素点信息,从而实现将印章范围内的文字还原到原始图像中,用来进行文本检测和文本识别),mask_word中像素为0的对应image中的像素置为255,得到扣除印章后的图像,即获得扣除印章后进包含文字的图像。

在一种示例性实例中,获得第二二值化图中包含的文字或仅包含文字的图像后,本应用示例方法还包括:获得第一二值化图中包含的文字或仅包含文字的图像粘贴至由原文档还原的新文档中。图13为本发明应用示例将文字的图像粘贴至文档的示意图,如图13所示,由原文档还原的新文档中,显示了仅包含文字的图像,该文字的图像与印章部分的图像相互分离,互不影响。

本发明应用示例,对原文档中除待检测印章的待处理图像以外的部分,采用相关技术中已有的文本识别方法进行处理;在文本识别过程包括:文本坐标的确定和文本内容的识别等。图14为本发明应用示例文本检测的示意图,如图14所示,通过相关技术实现了除待处理图像外的文本内容的识别。

本发明应用示例,对文本内容和待处理图像中的印章贴图的内容分别进行还原后,根据文本坐标和待处理图像的位置,将各部分内容还原至预设格式的文档中,获得新文档,新文档包括但不限于,WORD格式的文档、PDF文档、文本文档和PPT文档等。

应用示例2

以下以区分黑色印章和彩色印章后,进行的文档还原处理进行说明。

1)黑色印章:

利用mask(图8)生成印章透明图,包括:将image转成RGBA四通道图像image_rgba,对转换获得的image_rgba,将image_rgba中mask像素为0的像素点对应的像素的alpha通道设为255;image_rgba中mask像素为255的像素点保持不变;得到印章透明图;

通过上述方法得到印章透明图,在文档还原时,将印章透明图贴回到转换的pdf或docx文档中,可以保证还原文档的完整性。

对原始图像,将印章区域像素置为[255,255,255],即对黑色印章区域用白色填充,不进行文本检测和识别;以此避免了黑色印章区域做文本检测和文本识别时准确率低,影响文档还原效果;直接采用贴印章透明图的方式,可以提升文档还原质量;

2)彩色印章:

获得印章区域:将图8所示印章区域图像的二值图(mask)减去图9所示的文字区域的二值图mask_word(相减:相应位置的像素相减),得到图10所示的印章像素区域的二值图mask_signet;

利用图7所示的image和mask_word,将mask_word中像素为255的对应image中的像素保留(保留文字区域的像素点信息,作用是将印章范围内的文字还原到原始图像中,用来进行文本检测和文本识别),mask_word中像素为0的对应image中的像素置为255,得到图12所示的扣除印章后的图像;然后复制到原始图像对应的区域;

利用image和mask_signet,创建一个与image尺寸相同的RGBA图像dst_rgba,mask_signet中像素为255的像素,将image对应的像素点的RGB值赋值给dst_rgba,alpha通道置为0(不透明);非255的alpha通道置为255(透明),得到图11所示的印章的透明图像;本应用示例提取印章透明图,避免采用非透明图还原文档时,印章图像遮挡住印章区域的文本;在一种示例性实例中,印章透明图还可以在用户改变文档背景色时保证与背景一致。

“本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。”

相关技术
  • 一种文档还原处理方法、装置、计算机存储介质及终端
  • 一种文档图像处理方法、移动终端及计算机存储介质
技术分类

06120113269619