掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于文字识别技术领域,特别涉及一种基于OCR技术的辅助审计方法。

背景技术

随着数字化技术的发展,通过数字化技术手段开展线上审计工作可以大大提高审计人员的工作效率,在传统的审计工作流程中,审计人员需要编写审计记录、审计报告及其他审计相关工作资料,由于审计文本内容多为汉字,如果利用OCR文字识别技术将特定的审计信息整合自动生成相应的审计报表可大大缩减审计人员的工作量,提升审计工作效率。OCR(OpticalCharacter Recognition)光学字符识别是一种通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。典型的OCR技术路线主要分为输入,图像预处理,文字检测,文本识别,输出几个步骤,图像预处理通常是针对图像的成像问题进行修正。文字检测即检测文本的所在位置和范围及其布局,通常包括版面分析和文字行检测等。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文本识别技术为OCR识别中重要的一个环节,传统技术中采用模板匹配的方式进行分类,对于文字行,只能通过识别出每一个字符来确定最终文字行从内容。因此可以对文字行进行字符切分,以得到单个文字。这种方式中,过分割-动态规划是最常见的切分方法,由于单个字符可能会由于切分位置的原因产生多个识别结果,例如“如”字在切分不当时会被切分成“女_口”,因此需要对候选字符进行过分割,使其足够破碎,之后通过动态规划合并分割碎片,得到最优组合,这一过程需要人工设计损失函数。同时,传统技术通过识别每个单字符以实现全文的识别,这一过程导致了上下文信息的丢失,对于单个字符有较高的识别正确率,但整体条目识别正确率也难以保证。

发明内容

为了解决上述问题,本发明提供一种基于OCR技术的辅助审计方法,以解决采用传统的文字识别方法对审计文档中的单个汉字识别正确率不高的问题。

为实现上述目的,本发明提供了一种基于OCR技术的辅助审计方法,包括如下步骤:

获取待识别的审计文档图像;

对审计文档图像进行预处理,得到审计文档图像的预处理图像;

对预处理图像进行版面分析,得到预处理图像的多个文本行;

采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像;

对多个单个字符的切割图像进行特征提取与识别,得到识别结果;

将识别结果进行版面恢复,输出可编辑文档;

根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出。

根据本发明的一个具体实施例,审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,审计文档图像的文件类型包括JPG、PNG、PDF和CEB中的任一种。

根据本发明的一个具体实施例,对审计文档图像进行预处理,得到审计文档图像的预处理图像包括:

采用幂次交换法对审计文档图像进行二值化处理,得到二值化处理图像;

对二值化处理图像进行降噪和倾斜校正处理,得到审计文档图像的预处理图像。

根据本发明的一个具体实施例,采用行列识别抽象法对预处理图像进行版面分析,得到预处理图像的多个文本行包括:

对预处理图像中的文档进行分段处理,得到多个版面区域的文本块;

对多个版面区域的文本块进行分行处理,得到预处理图像的多个文本行;

计算多个文本行的纵坐标,根据纵坐标识别多个文本行的所属行。

根据本发明的一个具体实施例,采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像包括:

采用水平投影法对预处理图像中的多个文本行进行行切割,得到多个文本行的行图片;

判断行图片中的字符串是否为连续的汉字字符串,如果是,根据优化的汉字切割阈值对行图片中的字符串进行字切割,得到多个汉字切割图像;

否则,采用垂直投影法对所述行图片中的字符串进行字切割,得到多个单字符的切割图像。

根据本发明的一个具体实施例,判断行图片中的字符串是否为连续的汉字字符串的方法为:

计算多个行图片中的字符串的长宽比,当长宽比为整数时,则判断行图片中的字符串为连续的汉字字符串。

根据本发明的一个具体实施例,优化的汉字切割阈值为1:1。

根据本发明的一个具体实施例,对多个单个字符的切割图像进行特征提取与识别,得到识别结果包括:

采用核密度估计法对多个单个字符的切割图像进行特征提取,得到多个字符特征向量;

将多个字符特征向量与特征模板库中的字符相匹配,得到识别结果。

根据本发明的一个具体实施例,将识别结果进行版面恢复,输出可编辑文档包括:

将识别结果按照待识别的审计文档图像的版面进行排版,并输出可编辑文档,其中可编辑文档包括word格式文档和pdf格式文档。

根据本发明的一个具体实施例,根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出包括:

根据审计工作流程获取审计信息数据,并将审计信息数据存储到数据库中,其中审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;

根据当前审计工作流程导出相应的审计信息数据,对审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出。

与现有技术相比,本发明提供的基于OCR技术的辅助审计方法,考虑到企业特定的审计应用场景,将传统的文字识别方法与审计工作流程相融合,通过对传统的文字识别算法进行优化改进,提高了文字识别的准确率,极大方便了审计人员的审计工作,在减少人员工作量的同时提高了工作效率。

附图说明

图1是根据本发明一实施例提供的一种基于OCR技术的辅助审计方法流程图。

图2是根据本发明一实施例提供的对审计文档图像进行预处理的方法流程图。

图3是根据本发明一实施例提供的对预处理图像进行版面分析的方法流程图。

图4是根据本发明一实施例提供的字符切割方法流程图。

图5是根据本发明一实施例提供的对单个字符的割图像进行特征提取与识别的方法流程图。

图6是根据本发明一实施例提供的对可编辑文档进行结构化处理的方法流程图。

具体实施方式

为了使本领域技术人员更加清楚地理解本发明的概念和思想,以下结合具体实施例详细描述本发明。应理解,本文给出的实施例都只是本发明可能具有的所有实施例的一部分。本领域技术人员在阅读本申请的说明书以后,有能力对下述实施例的部分或整体作出改进、改造、或替换,这些改进、改造、或替换也都包含在本发明要求保护的范围内。

在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个事物,而是表示有关描述仅仅针对事物中的一个,事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系,而不能视作表示空间结构上的关系。例如,“A包括B”意在表示在逻辑上B属于A,而不表示在空间上B位于A的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“A包括B”意在表示B属于A,但是B不一定构成A的全部,A还可能包括C、D、E等其它元素。

在本文中,术语“实施例”、“本实施例”、“一实施例”、“一个实施例”并不表示有关描述仅仅适用于一个特定的实施例,而是表示这些描述还可能适用于另外一个或多个实施例中。本领域技术人员应理解,在本文中,任何针对某一个实施例所做的描述都可以与另外一个或多个实施例中的有关描述进行替代、组合、或者以其它方式结合,替代、组合、或者以其它方式结合所产生的新实施例是本领域技术人员能够容易想到的,属于本发明的保护范围。

实施例1

本发明的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施方式的实践了解到。结合图1-图5,本发明实施例提供的一种基于OCR技术的辅助审计方法,包括如下步骤:

S1:获取待识别的审计文档图像;

S2:对审计文档图像进行预处理,得到审计文档图像的预处理图像;

S3:对预处理图像进行版面分析,得到预处理图像的多个文本行;

S4:采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像;

S5:对多个单个字符的切割图像进行特征提取与识别,得到识别结果;

S6:将识别结果进行版面恢复,输出可编辑文档;

S7:根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出。

具体的,步骤S1获取待识别的审计文档图像,其中审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,审计文档图像的文件类型包括但不限于JPG、PNG、PDF和CEB。通常在进行OCR识别之前,第一步需要采集所要识别的图像,由于本发明实施例的应用场景主要是辅助审计工作,因此需要识别的图像为审计工作需要的相关材料,包括但不限于审计底稿、审计报告、审计附件和用于审计的过程文件,各文件材料的文件类型均支持JPG,PDF,CEB,本发明实施例通过拍照或扫描的方式将待识别的图像上传到OCR识别模块,以备后续进行识别操作。

具体的,步骤S2对审计文档图像进行预处理,得到审计文档图像的预处理图像还包括以下步骤:

S2-1:采用幂次交换法对审计文档图像进行二值化处理,得到二值化处理图像;

S2-2:对二值化处理图像进行降噪和倾斜校正处理,得到审计文档图像的预处理图像。

步骤S2-1中,图像的二值化处理就是将图像上的点的灰度值设置为0或255,其中0代表黑色,255代表白色,也就是将整个图像呈现出明显的只有黑和白的视觉效果。即将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。本发明实施例采用幂次交换法对审计文档图像进行二值化处理,幂次交换法的计算公式如下所示:

x→x

式中,x为矩阵M中的元素,x

本发明实施例中将r的取值设为2,然后将转换结果映射到[0,255]区间内,如此可将图像中的像素点的灰度值设置为0或255。

步骤S2-2中,由于在采集或拍摄文档图像的过程中,多少会受到一些随机的干扰,对后续的版面分析会造成一定的影响,为得到较为理想的文档图像,还需要对文档图像进行去噪处理和倾斜校正处理,通过对二值化处理图像进行降噪和倾斜校正处理,即可得到较为理想的预处理图像。

具体的,步骤S3采用行列识别抽象法对预处理图像进行版面分析,得到预处理图像的多个文本行,具体包括以下步骤:

S3-1:对预处理图像中的文档进行分段处理,得到多个版面区域的文本块;

S3-2:对多个版面区域的文本块进行分行处理,得到预处理图像的多个文本行;

S3-3:计算多个文本行的纵坐标,根据纵坐标识别多个文本行的所属行。

版面分析是文档图像的关键步骤,文档图像的版面分析包括图像版面分割和分割后的文本块属性确定,其中图像版面分割最为重要,鉴于本发明实施例的应用场景是利用OCR技术辅助审计工作流程中的审计相关工作材料进行识别,审计相关工作材料的主要文字应用为汉字,且均为标准的印刷体,由于需识别的文档材料来源广泛,样式复杂,无固定模板样式,并且针对审计材料的大多数场景中,行的作用大于列,识别出行即可进行结构化解析。因此本发明实施例采用行列识别抽象方法对预处理图像中的文档进行分段和分行处理,即首先将预处理图像中的文档划分为多个版面区域的文本块,再将多个版面区域中的文本块划分为文本行。最后通过计算多个文本行的纵坐标,并根据纵坐标识别多个文本行的所属行。

具体的,步骤S4采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像具体包括以下步骤:

S4-1:采用水平投影法对预处理图像中的多个文本行进行行切割,得到多个文本行的行图片;

S4-2:判断行图片中的字符串是否为连续的汉字字符串,如果是,根据优化的汉字切割阈值对行图片中的字符串进行字切割,得到多个汉字切割图像;否则,采用垂直投影法对行图片中的字符串进行字切割,得到多个单字符的切割图像,其中优化的汉字切割阈值为1:1。

其中判断多个行图片中的字符串是否为连续的汉字字符串的方法为:计算多个行图片中的字符串的长宽比,当长宽比为整数时,则判断行图片中的字符串为连续的汉字字符串。

所述水平投影法就是将预处理图像中的多个文本行进行水平投影,得到图像在垂直方向上的像素分布,若将水平投影的多个文本行视为若干条水平直线,在这些直线中,有些直线穿过文本区域,有些直线在文本行之间穿过,若直线穿过的区域有像素存在,则认为该区域为文本区域,若直线穿过的区域无像素存在,则认为该区域为非文本区域,将有像素存在的文本区域切割下来即可得到多个包含文本的行图片,在对文本行进行切割的过程中,需要定位文本行中的字符串的上边界和下边界,再根据上下边界对文本行进行切割。所述垂直投影法就是将水平投影法切割得到的行图片中的字符串进行垂直投影,得到图像在水平方向上的像素分布,同理将垂直投影的多个文本列视为若干条垂直直线,在这些直线中,有些直线穿过文本区域,有些直线在文本列之间穿过,若直线穿过的区域有像素存在,则认为该区域为文本区域,若直线穿过的区域无像素存在,则认为该区域为非文本区域,将有像素存在的文本区域切割下来即可得到单个字符的切割图像。通常在采用水平投影法对文本行进行水平投影后,直接采用垂直投影法对文本行中的字符串进行垂直投影,在此过程中,如果文本行中的字符串为不连续的汉字,例如两个汉字之间有英文,数字,标点等字符,由于不同字符的阈值也不同,导致切割后的汉字准确率不高,例如“如”字在切分时可能会被切割为“女_口”,最终导致汉字识别的准确率较低,考虑到本发明实施例的应用场景为审计文本材料的文字识别,其主要内容为汉字,且均为标准的印刷体,可以认为每个汉字的长宽比近似为1∶1,如果字符串为连续的汉字,则字符串的长宽比近似整数,因此可通过计算字符串的长宽比来判断字符串是否为连续的汉字,再根据优化的汉字阈值定位汉字边界后对单个汉字进行切割,如此可得到准确的切割结果。

具体的,步骤S5对多个单个字符的切割图像进行特征提取与识别,得到识别结果还包括以下步骤:

S5-1:采用核密度估计法对多个单个字符的切割图像进行特征提取,得到多个字符特征向量;

S5-2:将多个字符特征向量与特征模板库中的字符相匹配,得到识别结果。

所述核密度估计法近似为一种函数的平滑方式,根据大量的数据来估计某个值出现的概率(或密度)时做出的估算,其计算公式如下:

式中,

当h=1时,

h的选择对计算结果的影响较大,它主要影响结果的平滑性,如果K(x)是离散的,得到的计算结果也是离散的,如果K(x)是光滑连续的,则得到的计算结果也是比较光滑且连续的。通过该方法,可以过滤图层,即将单个字符的切割图像中的除了字符以外的背景区域和其他非字符图像扣除,留下有效的字符,通过对有效字符的检测和识别得到所有字符的特征向量,再将多个字符特征向量与特征模板库中存储的字符相匹配,得到识别结果。

具体的,步骤S6将识别结果进行版面恢复,输出可编辑文档包括:

将识别结果按照待识别的审计文档图像的版面进行排版,并输出可编辑文档,其中可编辑文档包括word格式文档和pdf格式文档。本发明实施例通过OCR识别分析模块,将原始的审计文档图片、PDF、CEB等文件输出成计算机可编辑的材料(例如word)并可以预览和下载。

具体的,步骤S7根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出还包括以下步骤:

S7-1:根据审计工作流程获取审计信息数据,并将审计信息数据存储到数据库中,其中审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;

S7-2:根据当前审计工作流程导出相应的审计信息数据,对审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出。

本发明实施例将输出的可编辑的审计文档与审计工作流程模型相融合,利用OCR技术自动获取审计信息数据并存储到数据库中用以支持数据的快速检索,在执行某一审计工作流程时,从数据库中调用相关审计信息数据(例如,在审计项目域中,从识别后的底稿中获取项目名称、项目类型、组织单位,实施单位和开展年度等信息),同时匹配当前的审计工作流程对获取的审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出,以辅助完成审计工作流程。

综上所述,本发明实施例提供的一种基于OCR技术的辅助审计方法,考虑到企业特定的审计应用场景,将传统的文字识别方法与审计工作流程相融合,通过对传统的文字识别算法进行优化改进,提高了文字识别的准确率,极大方便了审计人员的审计工作,在减少人员工作量的同时提高了工作效率。

实施例2

本发明实施例还提供了一种基于OCR技术的辅助审计系统,包括:用于获取待识别的审计文档图像的单元;用于对审计文档图像进行预处理,得到审计文档图像的预处理图像的单元;用于对预处理图像进行版面分析,得到预处理图像的多个文本行的单元;用于采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像的单元;用于对多个单个字符的切割图像进行特征提取与识别,得到识别结果的单元;用于将识别结果进行版面恢复,输出可编辑文档的单元;用于根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出的单元。

上述方案中,审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,审计文档图像的文件类型包括JPG、PNG、PDF和CEB中的任一种。

具体的,用于对审计文档图像进行预处理,得到审计文档图像的预处理图像的单元包括:用于采用幂次交换法对审计文档图像进行二值化处理,得到二值化处理图像的单元;用于对二值化处理图像进行降噪和倾斜校正处理,得到审计文档图像的预处理图像的单元。

进一步的,用于采用行列识别抽象法对预处理图像进行版面分析,得到预处理图像的多个文本行的单元包括:用于对预处理图像中的文档进行分段处理,得到多个版面区域的文本块的单元;用于对多个版面区域的文本块进行分行处理,得到预处理图像的多个文本行的单元;用于计算多个文本行的纵坐标,根据纵坐标识别多个文本行的所属行的单元。

进一步的,用于采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像的单元包括:用于采用水平投影法对预处理图像中的多个文本行进行行切割,得到多个文本行的行图片的单元;用于判断行图片中的字符串是否为连续的汉字字符串的单元,如果判断行图片中的字符串是连续的汉字字符串,根据优化的汉字切割阈值对行图片中的字符串进行字切割,得到多个汉字切割图像;否则,采用垂直投影法对所述行图片中的字符串进行字切割,得到多个单字符的切割图像。

进一步的,用于对多个单个字符的切割图像进行特征提取与识别,得到识别结果的单元包括:用于采用核密度估计法对多个单个字符的切割图像进行特征提取,得到多个字符特征向量的单元;用于将多个字符特征向量与特征模板库中的字符相匹配,得到识别结果的单元。

进一步的,用于将识别结果进行版面恢复,输出可编辑文档的单元包括:用于将识别结果按照待识别的审计文档图像的版面进行排版,并输出可编辑文档的单元,其中可编辑文档包括word格式文档和pdf格式文档。

再进一步的,用于根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出的单元包括:用于根据审计工作流程获取审计信息数据,并将审计信息数据存储到数据库中的单元,其中审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;用于根据当前审计工作流程导出相应的审计信息数据,对审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出的单元。

以上结合具体实施方式(包括实施例和实例)详细描述了本发明的概念、原理和思想。本领域技术人员应理解,本发明的实施方式不止上文给出的这几种形式,本领域技术人员在阅读本申请文件以后,可以对上述实施方式中的步骤、方法、装置、部件做出任何可能的改进、替换和等同形式,这些改进、替换和等同形式应视为落入在本发明的范围内。本发明的保护范围仅以权利要求书为准。

相关技术
  • 一种基于OCR技术的辅助审计方法
  • 一种基于摘要方式的机器辅助阅读审计方法及系统
技术分类

06120112809773