掌桥专利:专业的专利平台
掌桥专利
首页

一种识别证件的方法和装置

文献发布时间:2023-06-19 11:32:36


一种识别证件的方法和装置

技术领域

本申请涉及人工智能技术领域,尤其涉及一种识别证件的方法和装置。

背景技术

随着互联网技术的高速发展,越来越多的应用场景需要利用图像中的文本信息,尤其是读取证件中的文本信息。目前,流行的证件文本信息提取方法为基于深度学习的光学字符识别(Optical Character Recognition,OCR)技术,该技术具有准确率高、识别信息量大等优点,然而基于深度学习的OCR识别技术需要大量证件图像做训练,同时训练过程耗费大量人力、物力,有些甚至用速度换精度,速度超过10s以上。

计算机文字识别,俗称光学字符识别(Optical Character Recogn ition,OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。数年以后,HP将Tesseract贡献给开源软件业,让其重焕新生,直至2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。Tesseract目前已作为开源项目发布在Google Project,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。

发明内容

本申请的目的在于提供一种识别证件的方法,该方法只需要少量或极少量的模板图像,且无需训练,识别速度快、准确率高。

本申请提供的一种识别证件的方法,包括步骤:首先,确认目标图像与模板图像属于同一类证件图像;接着,在所述模板图像中截取区域子模板图像,将所述区域子模板与目标图像进行匹配达到查找目标图像中相应的区域,根据位置偏移参数截取目标图像中待识别区域图像;最后,对所述待识别区域图像进行光学识别并提取文本信息。

一种可选的实施方式中,所述确认目标图像与模板图像属于同一类证件图像包括步骤:采用SIFT特征点检测分析图像,然后基于FLANN的匹配器定位图片,来达到对比目标图像是否与模板图像属于同一类证件,如果是同一类证件图像则进入下一步处理,否则提示用户重新上传图片。

一种可选的实施方式中,所述确认目标图像与模板图像属于同一类证件图像之后还包括步骤:对目标图像进行图像预处理,包括但不限于图像矫正、图像归一化、直方图处理和灰度处理。

一种可选的实施方式中,通过flash服务器通过http请求接收所述目标图像。

一种可选的实施方式中,所述对所述待识别区域图像进行光学识别并提取文本信息之前还包括步骤:对待识别区域图像进行非局部平均去噪处理;进行固定阈值二值化处理;查找检测物体轮廓,并描边、绘制出图像轮廓;根据待识别文本长度过滤图像;使用Tesseract-OCR对待识别区域图像进行文本识别,完成文本信息的提取并返回给用户。

第二方面,本申请实施例还提供了一种识别证件的装置,该装置具体包括:

校验单元,用于确认目标图像与模板图像属于同一类证件图像;

截取单元,用于在所述模板图像中截取区域子模板图像,将所述区域子模板与目标图像进行匹配达到查找目标图像中相应的区域,根据位置偏移参数截取目标图像中待识别区域图像;

识别单元,用于对所述待识别区域图像进行光学识别并提取文本信息。

一种可选的实施方式中所述校验单元采用SIFT特征点检测分析图像,然后基于FLANN的匹配器定位图片,来达到对比目标图像是否与模板图像属于同一类证件,如果是同一类证件图像则进入下一步处理,否则提示用户重新上传图片。

一种可选的实施方式中,该装置还包括:

预处理单元,用于对目标图像进行图像预处理,包括但不限于图像矫正、图像归一化、直方图处理和灰度处理。

一种可选的实施方式中所述识别单元包括:

去噪子单元,对待识别区域图像进行非局部平均去噪处理;。

二值化处理子单元,用于进行固定阈值二值化处理;

轮廓处理子单元,用于查找检测物体轮廓,并描边、绘制出图像轮廓;

过滤单元,用于根据待识别文本长度过滤图像;

文本识别子单元,用于使用Tesseract-OCR对待识别区域图像进行文本识别,完成文本信息的提取并返回给用户。

第三方面,本申请实施例还提供了一种装置,该包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述装置执行如第一方面任一项所述的识别证件的方法。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以用这些附图获得其他的附图。

图1是是基于SIFT特征点图像匹配算法的框架流程图;

图2是寻找尺度空间的极值点示意图;

图3是DOG金字塔图;

图4是本申请实施例提供的一种识别证件的方法流程图;

图5是以营业执照证件图像为例,基于SIFT特征点检测的图像匹配算法进行的特征点匹配结果图,且图5中红色点为检测出的SIFT特征点,蓝色直线为匹配的对应点的连线;

图6是以营业执照证件图像为例,模板匹配图像效果图;

图7是以营业执照证件图像为例,“统一社会信用代码”区域子模板图;

图8是通过位置偏移参数精准截取的待识别文本区域(统一社会信用代码的编号)图;

图9是对各区域图像进行光学识别前图像处理后的效果图;

图10是本申请实施例提供的一种识别证件的装置框图;

图11是本申请实施例提供的一种识别证件的装置框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供的识别证件的方法以少量或极少量的图像作为模板图像并生产子区域模板,采用SIFT特征点匹配结合基于FLANN的匹配器进行目标图像校验以确定是否符合模板类,如果校验成功则对目标图像进行图像处理,包括归一化、图像矫正、直方图、灰度化等处理,然后使用子区域模板图像与目标图像进行匹配,匹配成功就截取待识别区域图像,最后针对待识别区域图像进行去噪、阈值二值化处理、描边、过滤等调用Tesseract库和字库就可以进行光学识别,成功提取出想要的证件图像文本信息。

首先需要说明的是,基于SIFT特征点检测的图像匹配算法是一种检测局部特征的算法,它是通过求一幅图中的特征点及其有关scale和orientation的描述子得到特征并进行图像特征点匹配。其算法思想为将一幅图像映射(变换)为一个局部特征向量集;特征向量具有平移、缩放、旋转不变性,同时对光照变化、仿射及投影变换也有一定不变性。SIFT算法的实质可以归为在不同尺度空间上查找特征点(关键点)的问题。该算法的框架图如图1所示,具体步骤如下:

(1)构建图像的尺度空间。这是一个初始化操作,目的是模拟图像数据的多尺度特征。若原始图像为I(x,y),则图像的尺度空间为L(x,y,σ),且

L(x,y,σ)=I(x,y)*G(x,y,σ)

其中*为卷积运算,G(x,y,σ)为尺度可变高斯函数(x,y)的空间坐标,是尺度坐标。σ大小决定图像的平滑程度,大尺度对应图像的概貌特征,小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率),反之,对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点,提出了高斯差分尺度空间(DOG scale-space)。利用不同尺度的高斯差分核与图像卷积生成。

D(x,y,σ)=[G(x,y,kσ)-G(x,y,σ)]*I(x,y)

=I(x,y,kσ)-I(x,y,σ)

(2)检测关键点。为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。如图2中所示,中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。如果一个点在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时,就认为该点是图像在该尺度下的一个特征点。同一组中的相邻尺度(由于k的取值关系,肯定是上下层)之间进行寻找,在极值比较的过程中,每一组图像的首末两层是无法进行极值比较的,为了满足尺度变化的连续性,我们在每一组图像的顶层继续用高斯模糊生成了3幅图像,高斯金字塔有每组S+3层图像。DOG金字塔每组有S+2层图像。如图3中所示,图中s=3。

由于DoG值对噪声和边缘较敏感,因此,在上面DoG尺度空间中检测到局部极值点还要经过进一步的检验才能精确定位为特征点。为了提高关键点的稳定性,需要对尺度空间DoG函数进行曲线拟合。利用DoG函数在尺度空间的Taylor展开式:

对上式求导,并令其为0,得到精确的位置,得

在已经检测到的特征点中,要去掉低对比度的特征点和不稳定的边缘响应点。去除低对比度的点:把上式代入其中,即在DoG Space的极值点处D(x)取值,只取前两项可得:

(3)描述关键点。对关键点附加详细的信息(局部特征)也就是所谓的描述器。为每个特征点计算一个方向,依照这个方向做进一步的计算,利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。特征点(x,y)处的梯度模值和方向公式分别为:

θ(x,y)=atan2((L(x,y+1))-L(x,y-1))/(L(x+1,y)-L(x,y-1)))

其中L所用的尺度为每个关键点各自所在的尺度。至此,图像的关键点已经检测完毕,每个关键点有三个信息:位置,所处尺度、方向,由此可以确定一个SIFT特征区域。

(4)匹配关键点。通过两方特征点(附带上特征向量的关键点)的两两比较找出相互匹配的若干对特征点,也就建立了景物间的对应关系。为了增强匹配的稳健性,对每个关键点使用4×4共16个种子点来描述,这样对于一个关键点就可以产生128个数据,即最终形成128维的SIFT特征向量。此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响,再继续将特征向量的长度归一化,则可以进一步去除光照变化的影响。

当两幅图像的SIFT特征向量生成后,下一步用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取图像1中的某个关键点,并找出其与图像2中欧式距离最近的前两个关键点,在这两个关键点中,如果最近的距离除以次近的距离少于某个比例阈值,则接受这一对匹配点。降低这个比例阈值,SIFT匹配点数目会减少,但更加稳定。此外,为了排除因为图像遮挡和背景混乱而产生的无匹配关系的关键点,本方法比较最近邻距离与次近邻距离,距离比率ratio小于某个阈值的认为是正确匹配。一般ratio取值在0.4~0.6之间最佳,小于0.4的很少有匹配点,大于0.6的则存在大量错误匹配点。也可按如下原则:当最近邻距离<200时ratio=0.6,反之ratio=0.4,ratio的取值策略能排分错误匹配点。

如图4所示,本申请实施例提供的一种识别证件的方法流程图,包括以下步骤:

401:确认目标图像与模板图像属于同一类证件图像。

用户上传目标图像时,通过flash服务器使用API接口获取目标图像。为实现校验目标图像是否符合模板类,可以使用基于SIFT特征点检测的图像匹配算法,首先采用SIFT特征点检测分析图像,然后基于FLANN的匹配器定位图片,来达到对比目标图像是否与模板图像属于同一类证件,如果是同一类证件图像则进入下一步处理,否则提示用户重新上传图片,这样有利于提高识别率,也有助于节省不必要的开支。基于稀疏模板图像结合SIFT特征点检测方法去校验目标图像是否为同类证件,相比基于深度学习训练分类易于实现、计算开销小,在很多现实任务中展现出强大的性能,同时也解决了涉隐私类证件图像的难采集问题,此外SIFT特征点检测具有对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。

402:在所述模板图像中截取区域子模板图像,将所述区域子模板与目标图像进行匹配达到查找目标图像中相应的区域,根据位置偏移参数截取目标图像中待识别区域图像。

为实现图像模板匹配,本方法使用Python和OpenCV对图像进行模板匹配和识别,模板匹配是在图像中寻找和识别模板的一种简单的方法。针对步骤d中灰度处理后的图像,OpenCV使用matchTemplate()方法在图像中查找并匹配图像模板中的内容,并设置阈值,匹配完成后在原始图像中使用灰度图像的坐标对原始图像进行标记,然后使用相同的坐标在原始图像中进行还原并输出。为了精准截取待识别的文本区域,模板图像匹配成功后,需要调整位置偏移参数,然后通过位置偏移参数实现待识别文本区域的精准截图。

以营业执照证件图像为例,如图5中所示为基于SIFT特征点检测的图像匹配算法进行的特征点匹配结果,图中红色点为检测出的SIFT特征点,蓝色直线为匹配的对应点的连线。

403:对所述待识别区域图像进行光学识别并提取文本信息。

一种可选的方式是使用Tesseract-OCR库和相应字库实现文本提取。具体包括步骤如下:

(1)首先对待识别区域图像进行非局部平均去噪处理,该方法使用自然图像中普遍存在的冗余信息来去噪声,利用了整幅图像来进行去噪,以图像块为单位在图像中寻找相似区域,再对这些区域求平均,能够比较好地去掉图像中存在的高斯噪声。该方法虽然消耗一定时间要消耗更多的时间,但是去噪效果很好。

(2)进行固定阈值二值化处理。图像的二值化就是将图像上的像素点的灰度值设置为0或255,这样将使整个图像呈现出明显的黑白效果,图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓。

(2)查找检测物体轮廓,并描边、绘制出图像轮廓,以识别营业执照图像中“统一社会信用代码”为例,经过上三步处理后的图像如图6所示。

(3)根据待识别文本长度过滤图像,可以有效检测目标区域,提高文本识别的准确率。

(4)最后,将处理好的待识别区域图像,使用Tesseract库中image_to_string方法,将图像上的Tesseract OCR运行结果返回到字符串,并通过API接口返回给用户。

依然以营业执照证件图像为例,匹配图像效果如图7中所示,“统一社会信用代码”区域子模板如图8所示,通过位置偏移参数精准截取的待识别文本区域(统一社会信用代码的编号)如图9所示。

如图10所示,本申请实施例还公开了一种识别证件的装置,该装置具体包括:

校验单元1001,用于确认目标图像与模板图像属于同一类证件图像。

一实施方式中校验单元采用SIFT特征点检测分析图像,然后基于FLANN的匹配器定位图片,来达到对比目标图像是否与模板图像属于同一类证件,如果是同一类证件图像则进入下一步处理,否则提示用户重新上传图片。

截取单元1002,用于在所述模板图像中截取区域子模板图像,将所述区域子模板与目标图像进行匹配达到查找目标图像中相应的区域,根据位置偏移参数截取目标图像中待识别区域图像。

识别单元1003,用于对所述待识别区域图像进行光学识别并提取文本信息。

一实施方式中,如图11所示,该装置还包括:

预处理单元1004,用于对目标图像进行图像预处理,包括但不限于图像矫正、图像归一化、直方图处理和灰度处理。

一实施方式中识别单元还可以进一步包括:

去噪子单元,对待识别区域图像进行非局部平均去噪处理;。

二值化处理子单元,用于进行固定阈值二值化处理;

轮廓处理子单元,用于查找检测物体轮廓,并描边、绘制出图像轮廓;

过滤单元,用于根据待识别文本长度过滤图像;

文本识别子单元,用于使用Tesseract-OCR对待识别区域图像进行文本识别,完成文本信息的提取并返回给用户。

本申请实施例还公开一种装置,包括:存储器和至少一个处理器,存储器中存储有指令,存储器和所述至少一个处理器通过线路互连;至少一个处理器调用所述存储器中的所述指令,以使得所述装置执行如权利要求图4所述的识别证件的方法。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 证件类型识别模板的生成方法、证件识别方法及装置
  • 一种基于身份证件的人脸识别方法及人脸识别装置
技术分类

06120112965024