掌桥专利:专业的专利平台
掌桥专利
首页

图像识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:32:36


图像识别方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域,尤其涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

随着成像技术的发展和成熟,视觉数据在各种领域中日益普及,并呈爆炸性增长。图像是最常见的视觉数据,如何对图像进行处理和分析,从中发现有价值的信息和知识,是当今智能时代最重要的命题之一。

现有技术中,有采用OCR(Optical Character Recognition,光学字符识别)识别模型识别图像的方法,然而OCR识别仅能识别图像中的文字信息,不能有效提取图像中的结构化数据。

因此,针对上述问题,亟待提出一种能够有效识别图像中的结构化数据的图像处理方法。

发明内容

本申请提供一种图像识别方法、装置、电子设备及存储介质,以实现对待识别图像中所包含内容的结构化识别。

第一方面,本申请实施例提供了一种图像识别方法,该方法包括:

识别待识别图像中的字符区域的参考坐标和字符内容;

根据所述参考坐标和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域;

根据所述目标区域所属类别和所述目标区域内的字符内容,生成结构化识别结果。

第二方面,本申请实施例还提供了一种图像识别装置,该装置包括:

识别模块,用于识别待识别图像中的字符区域的参考坐标和字符内容;

目标区域确定模块,用于根据所述参考坐标和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域;

结果生成模块,用于根据所述目标区域所属类别和所述目标区域内的字符内容,生成结构化识别结果。

第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面实施例所提供的任意一种图像识别方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所提供的任意一种图像识别方法。

本申请实施例通过在识别待识别图像中的字符区域的参考坐标和字符内容之后,根据参考坐标和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域,最后根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果;通过上述技术方案,根据参考坐标和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域,并进一步根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果,实现了对待识别图像中所包含内容的结构化识别。

附图说明

图1是本申请实施例一提供的一种图像识别方法的流程图;

图2是本申请实施例二提供的一种图像识别方法的流程图;

图3是本申请实施例二提供的一种机动车行驶证的示意图;

图4是本申请实施例二提供的一种行驶证的边界区域的示意图;

图5是本申请实施例二提供的一种行驶证的目标区域的示意图;

图6是本申请实施例三提供的一种图像识别方法的流程图;

图7是本申请实施例四提供的一种图像识别方法的流程图;

图8是本申请实施例五提供的一种图像识别装置的示意图;

图9是本申请实施例六提供的一种电子设备的示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种图像识别方法的流程图。本申请实施例可适用于对识别待识别图像进行结构化识别的情况。该方法可以由一种图像识别装置来执行,该装置可以由软件和/或硬件的方式实现,并具体配置于电子设备中,该电子设备可以是移动终端或固定终端。其中,该移动终端可以是手机终端,该固定终端可以是执行本申请图像识别方法的后台管理服务器。

参见图1,本申请实施例提供的图像识别方法,包括:

S110、识别待识别图像中的字符区域的参考坐标和字符内容。

其中,待识别图像可以是摄像头或手机终端拍摄的图像,或者待识别图像还可以是预先存储的图像。

本实施例中,待识别图像可以是身份证、驾驶证、行驶证、银行卡、增值税发票、火车票和个人简历等具备一定排版规律的图像。

参考坐标是指能够唯一确定字符区域的参考坐标,该参考坐标可以由多个坐标组成,如假定字符区域是矩形结构,则需要至少3个参考坐标;或者,该参考坐标还可以是由字符区域的长、宽和参照点确定。其中,参照点可以是中心点或字符区域至少两个边界线的交点。例如,字符区域为矩形结构时,参照点可以是矩形的一个顶点、或中心点。

字符内容是指字符区域内的字符内容,该字符内容可以是字母、数字、文字、符号以及它们的组合等中的至少一种,例如姓名、出生日期、电话和住址等。

本实施中,可以根据需求选取合适的识别方法来识别待识别图像中的字符区域的参考坐标和字符内容。本申请对参照坐标和字符内容的识别方式不做任何限定。

可选地,可以采用深度神经网络模型来获取待识别图像中的字符区域的参考坐标和字符内容;或者,还可以采用OCR识别方法来获取待识别图像中的字符区域的参考坐标和字符内容。

可选地,若本申请使用手机终端来对图像进行识别,则可以选用MobileNet V3(MobileNet的版本3)卷积神经网络,来识别待识别图像中的字符区域的参考坐标和字符内容。其中,MobileNet V3作为一种轻量级网络架构,特别适用于存储空间和功耗受限的移动终端、嵌入式设备和边缘计算设备等使用。

S120、根据参考坐标和所述待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域。

其中,待识别图像的排版结构是指待识别图像固有的排版结构,如身份证、银行卡和行驶证等,都具有一定的排版结构特征。例如,待识别图像有无标题字段、整个图像区域划分为几个部分、每个部分里面又有多少行、每一行里又有多少个字符区域、或各字符区域的占比等。

目标区域用于表征待识别图像中的类别信息。以待识别图像为行驶证为例,类别信息可以包括号牌号码、车辆类型、住址、使用性质、品牌型号、车辆识别代号、发动机号码、注册日期和发证日期等信息中的至少一种。

可以理解的是,若仅根据待识别图像的排版结构对待识别图像进行区域划分,所得的字符区域将无法适应待识别图像存在的倾斜和畸变等情况,缺乏一定的自适应性。

本实施例中,在排版结构的基础上,引入参考坐标,通过参考坐标和待识别图像的排版结构一同来确定目标区域,与直接根据排版结构确定目标区域相比,通过参考坐标和待识别图像的排版结构确定的目标区域更加准确。例如,在对身份证进行识别时,当身份证图像向右倾斜时,若不将参考坐标和待识别图像的排版结构结合起来,直接进行识别时很有可能将“姓名”确定为“男”的类别,从而得出姓名是“男”的错误结论。

S130、根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果。

其中,目标区域所属类别和目标区域内的字符内容一一对应,可以根据目标区域所属类别,表征目标区域内的字符内容的对应类别,如“姓名”类别与“个人姓名”字符内容对应。

结构化识别结果由待识别图像中目标区域所属类别和目标区域内的字符内容共同组成。以身份证的图像识别为例,身份证的结构化识别结果包括:姓名及其对应的个人名字、出生及其对应的个人出生日期和住址及其对应的个人详细住址等。

本申请实施例通过在识别待识别图像中的字符区域的参考坐标和字符内容之后,根据参考坐标和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域,最后根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果;通过上述技术方案,根据参考坐标和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域,并进一步根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果,实现了对待识别图像中所包含内容的结构化识别。

实施例二

图2为本申请实施例二提供的一种图像识别方法的流程图,本实施例是在上述实施例的基础上,对上述方案的优化。

进一步地,将操作“根据所述参考坐标和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域”,细化为“根据所述参考坐标,确定所述待识别图像的边界区域;根据所述边界区域和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域”,以完善目标区域的确定过程。

其中与上述实施例相同或相应的术语的解释在此不再赘述。

参见图2,本实施例提供的图像识别方法,包括:

S210、识别待识别图像中的字符区域的参考坐标和字符内容。

S220、根据参考坐标,确定待识别图像的边界区域。

本实施例中,通过确定待识别图像的边界区域,可以进一步为目标区域的确定奠定基础。可以理解的是,目标区域是由各边界区域进行框定形成的。

可选地,可以根据图像中所有的字符区域的参考坐标,通过外接多边形,来确定待识别图像的边界区域,其中,上述外接多边形可以是最小外接矩形。

或者可选地,为了简化边界区域的确定过程,所述根据所述参考坐标,确定所述待识别图像的边界区域,包括:确定所述待识别图像中的标识字段,并将所述标识字段之外的其他字符内容所属字符区域的参考坐标作为候选坐标;按照设定坐标维度对所述候选坐标进行排序,并根据排序结果,确定所述待识别图像的边界区域;其中,所述设定坐标维度包括与文字方向相同的横向维度和/或与所述文字方向垂直的纵向维度。

其中,标识字段是指待识别图像中的标题字段,用于对图像中的内容进行概括。

候选坐标是指将参考坐标中包含标识字段的参考坐标去除后的剩余坐标。

可选地,可以采用模糊匹配的方法来确定待识别图像的标识字段,当然还可以采用其他的识别方法来确定待识别图像的标识字段,具体的识别方法可以根据实际需求进行确定。

参见图3,图3为机动车行驶证的示意图,机动车行驶证又可简称为行驶证。在行驶证的主页上,存在“×××行驶证”的标题,以及在标题的下面还有多个字段以及相应的类别,如字段1、字段2、...、字段10。其中,图3中的字段所属的矩形框区域也即本申请中的字符区域。

本实施例中,即可以通过与文字方向相同的横向维度来确定待识别图像的边界区域;也可以通过与文字方向垂直的纵向维度来确定待识别图像的边界区域;还可以通过纵向维度和横向维度一起来确定待识别图像的边界区域。

可以理解的是,通常标识字段作为图像中最容易识别的部分,在区域划分的时候,可以先将标识字段所在的字符区域进行排除,在将标识字段所在的字符区域进行排除之后,可以从与文字方向相关的纵向维度、横向维度、纵向和横向组合维度中的任意一种坐标维度来对候选坐标进行排序,从而根据排序结果来确定待识别图像的边界区域,具体的坐标维度的选取可以根据需求进行确定。

本实施例中,考虑到待识别图像的排版结构一般都是从左到右,自上而下的排版结构,因此,在一开始确定待识别图像的边界区域时,可以根据与文字方向垂直的纵向维度来确定待识别图像的边界区域。

具体地,所述按照设定坐标维度对所述候选坐标进行排序,并根据排序结果,确定所述待识别图像的边界区域,包括:按照纵向维度对所述候选坐标进行排序,并根据排序结果中纵向维度坐标值的最值,确定纵向边界;直接根据纵向边界和待识别区域的横向边缘所限定区域作为所述待识别图像的边界区域。

进一步地,为了避免由于图像畸变或倾斜导致部分字符内容在边界区域之外的情况,导致边界区域准确度降低,可选地,还可以引入边界区域阈值,对比边界区域确定过程进行更新。

具体地,所述按照设定坐标维度对所述候选坐标进行排序,并根据排序结果,确定所述待识别图像的边界区域,包括:按照纵向维度对所述候选坐标进行排序,并根据排序结果中纵向维度坐标值的最值,确定纵向边界;根据所述纵向边界和纵向边界阈值,更新所述纵向边界;根据更新后的纵向边界,确定所述待识别图像的边界区域。

其中,纵向边界包括上边界和下边界。

本实施例中,可以在纵向维度上,根据排序结果中确定出的坐标值最大点和坐标值最小点,以最小点来确定图像的下边界,以最大点来确定图像的上边界。

纵向边界阈值是指确定出的纵向边界需要满足的纵向边界要求,该纵向边界要求可以根据待识别图像的排版结果进行预先设定,且同时可以为纵向边界确定上边界纵向阈值和下边界纵向阈值。例如,上边界纵向阈值可以是不超过待识别图像的90%的高度要求,下边界纵向阈值可以是不低于待识别图像的10%的高度要求。

可选地,可以根据需求为待识别图像中的文字区域确定纵向边界。典型地,可以为待识别图像中所有的文字区域确定纵向边界,而纵向边界阈值的选取可以根据具体的待识别图像的排版结构进行选取。

本实施例中,若确定出的上边界超过上边界纵向阈值,则可以将上边界纵向阈值作为最终的纵向边界,来对纵向边界进行更新,若确定出的上边界没有超过上边界纵向阈值,则不进行更新;若确定出的下边界低于下边界纵向阈值,则可以将下边界纵向阈值作为最终的纵向边界,来对纵向边界进行更新,若确定出的下边界不低于下边界纵向阈值,则不进行更新。

可以理解的是,通过纵向边界阈值来对纵向边界进行更新,避免了边界区域确定过程中不必要的误差。

示例性地,继续以机动车行驶证为例,参见图4所示的虚线为行驶证的边界区域的示意图,在图4中,可以看到上下两条虚线,也即为本申请中的上边界和下边界。

可以理解的是,通过选取与文字方向垂直的纵向维度来对候选坐标进行排序,使得边界区域的确定更加合理,纵向分割字符区域具有一定的自适应性,能够应对待识别图像的小角度倾斜和正向投影。

S230、根据边界区域和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域。

本实施例中,若待识别图像的边界区域内有若干行数,则可以对应将边界区域内的图像按行进行等分。

可选地,若排版结构显示待识别图像的边界区域内各行尺寸不一致,则可以按照预先确定的各行尺寸比例对边界区域内的图像进行划分。

示例性地,继续以机动车行驶证为例,参见图5,所示的行驶证的目标区域的示意图。在图5中,示出了经过区域划分之后得到的7个目标区域,见图中的阴影部分。

可选地,还可以继续根据待识别图像的排版结构,进一步对目标区域进行区域划分,直至将待识别图像按照排版结构进行全部划分完毕。

例如,在图5中,第一行的目标区域中还有2个类别及其对应的字段,因此,还可以根据上述目标区域的划分方法来对第一行的目标区域进行再次区域划分,如按横向维度,将第一行的目标区域划分为左右两个目标区域,待第一行的目标区域划分完毕后,可以继续对后面的第二行的目标区域进行划分,直至将待识别图像按照排版结构进行全部划分完毕。

可以理解的是,通过排版结构,对待识别图像经层层区域划分之后,可以得到最小的结构化文本数据,包括类别以及对应的字符内容,从而据此可以生成正确的结构化识别结果。

S240、根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果。

本申请实施例在上述实施例的基础上,在通过根据所述参考坐标,确定所述待识别图像的边界区域之后,根据所述边界区域和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域,完善了目标区域的确定过程;通过上述技术方案,通过边界区域和待识别图像的排版结构来对目标区域进行划分,使得目标区域的确定更加合理,保证了结构化识别结果的准确度。

实施例三

图6为本申请实施例三提供的一种图像识别方法的流程图,本实施例是在上述实施例的基础上,对上述方案的优化。

进一步地,将操作“根据所述目标区域所属类别和所述目标区域内的字符内容,生成结构化识别结果”,细化为“对所述目标区域内的字符内容进行修正;根据所述目标区域所属类别和所述目标区域内的字符修正结果,生成结构化识别结果”,以提高结构化识别结果的精度。

其中与上述实施例相同或相应的术语的解释在此不再赘述。

参见图6,本实施例提供的图像识别方法,包括:

S310、识别待识别图像中的字符区域的参考坐标和字符内容。

S320、根据参考坐标和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域。

S330、对目标区域内的字符内容进行修正。

可选地,可以采用统一的修正方式对目标区域内的字符内容进行修正。

可以理解的是,统一的修正方法更加简单,便于实施。

或者可选地,为了合理地对目标区域内的字符内容进行修正,所述对所述目标区域内的字符内容进行修正,包括:根据所述目标区域内的字符内容的内容格式,确定目标修正方式;根据所述目标修正方式,对所述目标区域内的字符内容进行修正。

其中,内容格式是指字符内容本身具有的特点,包括是否是纯文字、字母或数字等,以及字符内容所属类别的特点。以身份证图像识别为例,在对身份证中的地址信息进行修正时,可以根据行政区划,对地址进行修正。显然,每个省下面都有固定的市县,如将地址中的某个字识别错误时,很容易就可以确定上述地址是有误的,从而可以根据已有的正确的行政区划,对上述地址进行修正。

可以理解的是,相比于统一的修正方法,根据目标区域内的字符内容的内容格式,确定出的目标修正方式,可以针对待识别图像中的字符内容进行合适以及合理地修正,所得的修正结果精度更高。

可选地,所述根据所述目标修正方式,对所述目标区域内的字符内容进行修正,包括下述至少一种:若所述内容格式为文字类,则根据字典库对所述文字类的字符内容进行修正;若所述内容格式为日期类,则根据当前年份对所述日期类的字符内容进行修正;若所述内容格式为地域类,则根据行政区划对所述地域类的字符内容进行修正。

其中,字典库可以是根据图像识别需求确定的字典库,该字典库可以包括但不限于多种专业数据库和或基于历史识别数据所构建的历史数据库等。其中,历史数据可以是从历史的图像识别过程中保存的数据。典型地,可以将图像识别过程中识别错误频次达到一定次数的字符内容作为历史数据进行保存。

在一个可选实施例中,可以在字典库中存储正确词语。相应的,将字符内容进行分词,并将各分词结果与字典库中的正确词语进行比对;采用相似度较高(例如最高)的正确词语,对相应的分词结果进行修正。

在另一可选实施例中,还可以在字典库中存储正确词语,以及各正确词语对应的错误词语。相应的,将字符内容进行分词,并将各分词结果与字典库中的错误词语进行比对;选取相似度较高(例如最高)的错误词语作为目标错误词语;采用目标错误词语对应的正确词语,对相应的分词结果进行修正。

示例性地,若某一字符内容为专业类别,则可以根据专业分类数据库对上述字符内容进行修正。若某一字符内容为乘车时间,则可以根据当前年份对上述乘车时间进行修正,例如,在车站进站口对火车票进行识别时,可以根据当天日期所属的年份对乘车时间中的年份进行修正,此外,也可以对月份和日期进行修正,如月份不可能出现“20”。若某一字符内容为个人住址,则可以根据行政区划对个人住址进行修正。

本实施例中,若某一字符内容的内容格式同时满足文字类和地域类,则可以同时采用字典库和行政区划的修正方式,对目标区域内的字符内容进行修正。

可以理解是,通过对文字类、日期类以及地域类的修正方法进行明确,根据字典库对文字类的字符内容进行修正,根据当前年份对日期类的字符内容进行修正,根据行政区划对地域类的字符内容进行修正,实现了对待识别图像中的文字、日期以及地域的合理修正,使得最终生成的结构化识别结果更加准确。

S340、根据目标区域所属类别和目标区域内的字符修正结果,生成结构化识别结果。

本申请实施例在上述实施例的基础上,通过对目标区域内的字符内容进行修正,并根据目标区域所属类别和目标区域内的字符修正结果,生成结构化识别结果,完善了结构化识别结果的确定过程;通过上述技术方案,在生成结构化识别结果之前先对目标区域内的字符内容进行修正,使得最终得到的结构化识别结果更加准确。

实施例四

图7为本申请实施例四提供的一种图像识别方法的流程图,本实施例是在上述各实施例的基础上,提供的一种优选实施方式,以实现对行驶证图像的结构化识别。

参见图7,本实施例提供的一种图像识别方法,包括:

S401、识别行驶证图像中的字符区域的参考坐标和字符内容。

具体地,使用轻量级移动端深度学习模型获取行驶证图像中所有字符区域的参考坐标和字符内容,再根据参考坐标和字符内容对字段进行分类。其中,上述轻量级移动端深度学习模型为基于MobileNet V3的深度卷积神经网络,由大量标注的行驶证数据集进行训练得到。

S402、确定行驶证图像中的标识字段,并将标识字段之外的其他字符内容所属字符区域的参考坐标作为候选坐标。

可选地,可以通过模糊匹配筛选行驶证的名称。

本实施例中,若标识字段匹配失败,则可以确定图像识别失败,直接进行返回。

S403、按照纵向维度对候选坐标进行排序,并根据排序结果中纵向维度坐标值的最值,确定纵向边界。

本实施例中,若候选坐标不存在,则可以根据预设的边界阈值来确定纵向边界。

S404、若纵向边界超出预设的纵向边界阈值,则对纵向边界进行更新。

其中,纵向边界包括上边界和下边界;纵向边界阈值包括上边界纵向阈值和下边界纵向阈值。

本实施例中,将上边界纵向阈值设置为不超过待识别图像的90%的高度要求,将下边界纵向阈值设置为不低于待识别图像的10%的高度要求。

具体地,若确定出的上边界超过上边界纵向阈值,则可以将上边界纵向阈值作为最终的纵向边界,来对纵向边界进行更新,若确定出的上边界没有超过上边界纵向阈值,则不进行更新;若确定出的下边界低于下边界纵向阈值,则可以将下边界纵向阈值作为最终的纵向边界,来对纵向边界进行更新,若确定出的下边界不低于下边界纵向阈值,则不进行更新。

可以理解的是,通过纵向边界阈值来对纵向边界进行更新,避免了边界区域确定过程中不必要的误差。

S405、根据更新后的纵向边界,确定行驶证图像的边界区域。

本实施例中,确定的行驶证图像的边界区域的示意图可以参见实施例二中的附图4。其中,两条虚线代表了行驶证图像的上边界和下边界。

S406、根据边界区域和行驶证图像的排版结构,对行驶证图像进行区域划分,得到目标区域。

本实施例中,可以对行驶证图像进行第一次区域划分。图5示例性给出了根据边界区域和行驶证图像的排版结构,将行驶证等分为7个目标区域的初始划分结果。

进一步地,还可以根据行驶证图像的排版结构,对上述7个目标区域进行进一步划分,直至将行驶证图像按照排版结构进行全部划分完毕。

S407、若目标区域内的字符内容的内容格式为文字类,则根据字典库对文字类的字符内容进行修正。

本实施例中,可以根据大量收集的行驶证图像数据,构建行驶证专用字典,通过行驶证专用字典,采用模糊匹配的方式,对识别得到的字符内容进行修正。

例如,行驶证中的发动机识别码由英文字符和数字固定组成,对于发动机识别码的识别,就可以采用专用字典进行比对修正。

S408、若目标区域内的字符内容的内容格式为日期类,则根据当前年份对日期类的字符内容进行修正。

S409、若目标区域内的字符内容的内容格式为地域类,则根据行政区划对地域类的字符内容进行修正。

S410、根据目标区域所属类别和目标区域内的字符修正结果,生成结构化识别结果。

本申请实施例通过参考坐标和行驶证图像的排版结构,对行驶证图像进行区域划分,以得到目标区域,最终根据目标区域所属类别和目标区域内的字符修正结果,实现了对行驶证图像的结构化识别,从行驶证图像中提取出了有价值的结构化数据,可以应用于实际生活中;此外,本申请实施例所提供的图像识别方法,实施起来简单易行,具有较强的普适性,不存在图像识别过程中存在的计算能力不足、难以处理图像的倾斜、正向投影和变形等问题。

实施例五

图8是本申请实施例五提供的一种图像识别装置的结构示意图。参见图8所示的一种图像识别装置,该装置包括:识别模块510、目标区域确定模块520和结果生成模块530。

识别模块510,用于识别待识别图像中的字符区域的参考坐标和字符内容;

目标区域确定模块520,用于根据所述参考坐标和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域;

结果生成模块530,用于根据所述目标区域所属类别和所述目标区域内的字符内容,生成结构化识别结果。

本申请实施例通过在识别待识别图像中的字符区域的参考坐标和字符内容之后,根据参考坐标和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域,最后根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果;通过上述技术方案,根据参考坐标和待识别图像的排版结构,对待识别图像进行区域划分,得到目标区域,并进一步根据目标区域所属类别和目标区域内的字符内容,生成结构化识别结果,实现了对待识别图像中所包含内容的结构化识别。

进一步地,目标区域确定模块520,包括:

边界区域确定子模块,用于根据所述参考坐标,确定所述待识别图像的边界区域;

目标区域确定子模块,用于根据所述边界区域和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域。

进一步地,边界区域确定子模块,包括:

候选坐标确定单元,用于确定所述待识别图像中的标识字段,并将所述标识字段之外的其他字符内容所属字符区域的参考坐标作为候选坐标;

边界区域确定单元,用于按照设定坐标维度对所述候选坐标进行排序,并根据排序结果,确定所述待识别图像的边界区域;其中,所述设定坐标维度包括与文字方向相同的横向维度和/或与所述文字方向垂直的纵向维度。

进一步地,边界区域确定单元,包括:

纵向边界确定子单元,用于按照纵向维度对所述候选坐标进行排序,并根据排序结果中纵向维度坐标值的最值,确定纵向边界;

纵向边界更新子单元,用于根据所述纵向边界和纵向边界阈值,更新所述纵向边界;

边界区域确定子单元,用于根据更新后的纵向边界,确定所述待识别图像的边界区域

进一步地,结果生成模块530,包括:

修正子模块,用于对所述目标区域内的字符内容进行修正;

结果生成子模块,用于根据所述目标区域所属类别和所述目标区域内的字符修正结果,生成结构化识别结果。

进一步地,修正子模块,包括:

修正方式确定单元,用于根据所述目标区域内的字符内容的内容格式,确定目标修正方式;

字符内容修正单元,用于根据所述目标修正方式,对所述目标区域内的字符内容进行修正。

进一步地,字符内容修正单元,包括下述至少一种:

文字修正子单元,用于若所述内容格式为文字类,则根据字典库对所述文字类的字符内容进行修正;

日期修正子单元,用于若所述内容格式为日期类,则根据当前年份对所述日期类的字符内容进行修正;

地域修正子单元,用于若所述内容格式为地域类,则根据行政区划对所述地域类的字符内容进行修正。

本申请实施例所提供的图像识别装置可执行本申请任意实施例所提供的图像识别方法,具备执行方法相应的功能模块和有益效果。

实施例六

图9为本申请实施例六提供的一种电子设备的结构示意图,如图9所示,该设备包括处理器610、存储器620、输入装置630和输出装置640。

设备中处理器610的数量可以是一个或多个,图9中以一个处理器610为例;设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接,图9中以通过总线连接为例。

其中,输入装置630,用于接收待识别图像。

输出装置640,用于输出结构化识别结果。

处理器610可以根据输入装置630输入的待识别图像,识别待识别图像中的字符区域的参考坐标和字符内容;还可以根据所述参考坐标和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域;还可以根据所述目标区域所属类别和所述目标区域内的字符内容,生成结构化识别结果;还可以向输出装置640传输结构化识别结果。

存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的图像识别方法对应的程序指令/模块(例如,图像识别装置中的识别模块510、目标区域确定模块520和结果生成模块530)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的图像识别方法。

存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等(如上述实施例中的待识别图像、参考坐标、字符内容、目标区域和结构化识别结果等)。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

实施例七

本申请实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种图像识别方法,该方法包括:

识别待识别图像中的字符区域的参考坐标和字符内容;

根据所述参考坐标和所述待识别图像的排版结构,对所述待识别图像进行区域划分,得到目标区域;

根据所述目标区域所属类别和所述目标区域内的字符内容,生成结构化识别结果。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是,上述图像识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。

注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

相关技术
  • 一种图像识别方法、图像识别装置、电子设备和存储介质
  • 图像识别方法、装置、电子设备及存储介质
技术分类

06120112965176