掌桥专利:专业的专利平台
掌桥专利
首页

一种图片识别方法及装置

文献发布时间:2023-06-19 09:55:50


一种图片识别方法及装置

技术领域

本申请涉及智能识别领域,具体涉及一种图片识别方法及装置。

背景技术

目前,针对简单的卡式单证识别可以达到很高的准确率,针对页式纸质证件的图片识别,通常是按照图片中的排版或文字格式进行分割,这种分割方式对于图片的版式要求较高,对于版式字段不固定的图片识别准确率较低,也不能根据页式单证中图片中的倾斜等问题,进行灵活配置分割方式。

因此,如何准确识别纸质图片中的图片信息成为亟待解决的问题。

发明内容

本申请提供一种图片识别方法及装置,能够准确识别纸质图片中的图片信息。

第一方面,本申请的一些实施例提供一种图片分割方法,所述图片分割方法包括:确认待分割图片的类型,其中,所述待分割图片的类型至少是通过分析所述待分割图片中的版式字段的特征得到的;根据所述待分割图片的类型,配置分割锚点,其中,所述分割锚点是基于所述待分割图片包括的共有字段中确定的;根据所述分割锚点对所述待分割图片进行分割。

因此,本申请实施例通过根据待分割图片版式字段的类型配置相应的分割锚点,从而能够根据图片的实际排版情况自动配置相应的分割锚点,提高分割图片的灵活性,从而提高分割和识别图片的准确性。

结合第一方面,在本申请的至少一种实施方式中,所述版式字段包括多个参考字段与所述多个参考字段中各参考字段分别对应的目标字段;所述确认待分割图片的类型,包括:确认所述待分割图片属于第一类图片,其中,所述第一类图片包括:所述目标字段与相应的所述参考字段之间的位置固定;根据所述待分割图片的类型,配置分割锚点,包括:基于所述参考字段确定所述第一类图片的分割锚点。

因此,本申请实施例通过确认待分割图片属于第一类图片,基于第一类图片中的参考字段确定分割锚点,能够找到目标字段与相应的参考字段之间位置固定的待分割图片的分割锚点。

结合第一方面,在另一种实施方式中,所述版式字段包括,多个参考字段与所述多个参考字段中各参考字段分别对应的目标字段;所述确认待分割图片的类型,包括:确认所述待分割图片属于第二类图片,其中,所述第二类图片包括:所述目标字段与相应的所述参考字段之间的位置不固定;所述根据所述待分割图片的类型,配置分割锚点,包括:基于确定的目标字段,获取所述第二类图片的分割锚点。

因此,本申请实施例通过获取所述第二类图片的分割锚点,能够识别出目标字段与参考字段之间的位置不固定的第二类图片,将目标字段作为获取分割锚点的参考,从而能够在图片中的目标字段出现歪斜的情况下,准确的找到分割锚点,从而准确的分割和识别图片。

结合第一方面,在另一种实施方式中,所述基于目标字段,获取所述第二类图片的分割锚点,包括:从多张图片包括的多种目标字段中,获取所述共有目标字段;根据所述共有目标字段确定所述第二类图片的分割锚点。

因此,本申请实施例通过获取确定的目标字段,能够从图片中的多种目标字段找到不可缺少的目标字段,作为分割锚点,从而能够消除因目标字段的不统一,而导致分割锚点不准确,图片不能识别完全。

结合第一方面,在另一种实施方式中,所述确认待分割图片的类型,包括:确认所述待分割图片属于第三类图片,其中,所述第三类图片是通过所述待分割图片是否存在折线确定的;所述根据所述待分割图片的类型,配置分割锚点,包括:根据距离所述折线最近的目标字段确定所述第三类图片的折线分割锚点;所述根据所述分割锚点对所述待分割图片进行分割,包括:根据所述折线分割锚点将所述第三类图片分割成至少两个子图片。

因此,本申请实施例通过根据距离折线最近的目标字段确定第三类图片的折线分割锚点,能够对存在折线图片的整张版面进行拆分,从而能够在图片中有折线的情况下,提高分割和识别准确率。

结合第一方面,在另一种实施方式中,所述确认待分割图片的类型,包括:根据所述版式字段的特征确认所述子图片的类型;所述根据所述待分割图片的类型,配置分割锚点,包括:根据所述子图片的类型,配置子图片的版式分割锚点;所述根据所述分割锚点对所述待分割图片进行分割,包括:根据所述版式分割锚点对所述子图片进行分割。

因此,本申请实施例通过根据所述子图片的类型,配置子图片的版式分割锚点,能够在分割完成第三类图片的时候,再确认子图片的类型,根据类型再次配置分割锚点,从而能够提高分割和识别的准确率。

结合第一方面,在另一种实施方式中,所述待分割图片为纸质图片。

第二方面,一种图片信息提取方法,包括:采用如第一方面及其各实施例任一项所述的图片分割方法对待分割图片进行分割,得到分割图片;提取所述分割图片中的图片信息。

第三方面,一种图片识别方法,包括:

采用如第一方面及其各实施例任一项所述的图片分割方法对待分割图片进行分割,得到分割图片;提取所述分割图片中的图片信息;识别所述图片信息。

第四方面,一种图片分割装置,所述图片分割装置包括:分类模块,被配置为确认待分割图片的类型,其中,所述待分割图片的类型至少是通过分析所述待分割图片中的版式字段的特征得到的;锚点设置模块,被配置为根据所述待分割图片的类型,配置分割锚点,其中,所述分割锚点是基于所述待分割图片包括的共有字段确定的;分割模块,被配置为根据所述分割锚点对所述待分割图片进行分割。

结合第四方面,在一种实施方式中,所述版式字段包括多个参考字段与所述多个参考字段中各参考字段分别对应的目标字段;所述分类模块具体被配置为:确认所述待分割图片属于第一类图片,其中,所述第一类图片包括:所述目标字段与相应的所述参考字段之间的位置固定;所述锚点设置模块具体被配置为:基于所述参考字段确定所述第一类图片的分割锚点。

结合第四方面,在另一种实施方式中,所述版式字段包括,多个参考字段与所述多个参考字段中各参考字段分别对应的目标字段;所述分类模块具体被配置为:确认所述待分割图片属于第二类图片,其中,所述第二类图片包括:所述目标字段与相应的所述参考字段之间的位置不固定;所述锚点设置模块具体被配置为:基于确定的目标字段,获取所述第二类图片的分割锚点。

结合第四方面,在另一种实施方式中,所述锚点设置模块具体被配置为:基于目标字段,获取所述第二类图片的分割锚点,包括:从多张图片包括的多种目标字段中,获取共有目标字段;根据所述共有目标字段确定所述第二类图片的分割锚点。

结合第四方面,在另一种实施方式中,所述分类模块具体被配置为:确认所述待分割图片属于第三类图片,其中,所述第三类图片是通过分析所述待分割图片中的版式字段的特征和所述待分割图片是否存在折线确定的;所述锚点设置模块具体被配置为:根据距离所述折线最近的所述目标字段确定所述第三类图片的折线分割锚点;所述分割模块具体配置为:根据所述折线分割锚点将所述第三类图片分割成至少两个子图片。

结合第四方面,在另一种实施方式中,所述分类模块具体被配置为:根据所述版式字段的特征确认所述子图片的类型;所述锚点设置模块具体被配置为:根据所述子图片的类型,配置子图片的版式分割锚点,其中,所述根据所述分割锚点对所述待分割图片进行分割,包括:根据所述版式分割锚点对所述子图片进行分割。

结合第四方面,在另一种实施方式中,所述待分割图片为纸质图片。

第五方面,一种图片信息提取装置,包括:采用如第四方面及其各实施例任一项所述的图片分割装置对待分割图片进行分割,得到分割图片;提取模块,被配置为提取所述分割图片中的图片信息。

第六方面,一种图片识别装置,包括:采用如第四方面及其各实施例任一项所述的图片分割装置对待分割图片进行分割,得到分割图片;采用如第五方面所述的图片信息提取装置,提取所述分割图片中的图片信息;识别模块,被配置为识别所述图片信息。

第七方面,一种电子设备,包括:处理器、存储器和总线,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现第一方面、第二方面和第三方面以及所有实施方式中任一所述的方法。

第八方面,一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现第一方面、第二方面和第三方面以及所有实施方式中任一所述的方法。

附图说明

图1是本申请实施例示出的一种场景图;

图2是本申请实施例示出的一种图片识别方法的实施流程;

图3是本申请实施例示出的第一类图片示意图;

图4是本申请实施例示出的第二类图片示意图;

图5是本申请实施例示出的第三类图片示意图;

图6是本申请实施例示出的第二类图片具体实施例图;

图7是本申请实施例示出的一种图片识别装置内部模块图;

图8是本申请实施例示出的一种电子设备内部模块图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护范围。

下面将结合附图,对本申请实施例中的技术方案进行描述。

在本申请实施例中,本申请实施例可以应用于多种场景,以图1所示为例,该场景中包含有摄像头110,纸质文件120,待分割图片130和服务器140,摄像头对纸质文件进行拍照,获得待分割图片,服务器获取待分割图片,使用本申请实施例中所述的图片识别方法进行识别。上述只选择本申请实施例的其中一个应用场景进行说明,对应用场景不构成限制。本申请实施例不限于此。

相关方案中,针对简单的卡式单证识别可以达到很高的准确率,针对页式纸质证件的图片识别,通常是按照图片中的排版或文字格式进行分割,这种分割方式对于图片的版式要求较高,对于版式字段不固定的图片识别准确率较低,也不能根据页式单证中图片中的对折、折角、倾斜等问题,进行灵活配置分割方式。因此,如何准确识别纸质图片中的图片信息成为亟待解决的问题。

鉴于上述情况,本申请实施例提供一种图片识别方法及装置,通过确认待分割图片的类型,其中,所述待分割图片的类型至少是通过分析所述待分割图片中的版式字段的特征得到的;根据所述待分割图片的类型,配置分割锚点,其中,所述分割锚点是基于所述待分割图片的共有字段中选择;根据所述分割锚点对所述待分割图片进行分割;提取分割图片中的图片信息;识别所述图片信息,能够准确识别纸质图片中的图片信息。

下面结合图2,详细描述图片识别方法的具体实施例,如图2所示的步骤,包括:

210,确认待分割图片的类型。

服务器确认待分割图片的类型,其中,所述待分割图片的类型至少是通过分析所述待分割图片中的版式字段的特征得到的。

本申请实施例的版式字段的特征是待分割图片中存在的字段的排版特征,版式字段包括多个参考字段与多个参考字段中各参考字段分别对应的目标字段。作为一个示例,参考字段是在待分割图片中采用印刷方式固定的印刷字段,目标字段是在待分割图片中相应于各参考字段的内容所打印的打印字段。例如,图3中拍摄图片上的“姓名、性别和专业”是印刷的参考字段,而相应于姓名参考字段打印的“张三”、相应于性别参考字段打印的“男”和相应于专业参考字段打印的“自动化”是打印上去的目标字段。

在本申请的一些实施例中待分割图片的类型是通过分析待分割图片中的版式字段的特征得到的,在本申请的另一些实施例中待分割图片的类型是通过分析待分割图片中的版式字段的特征以及待分割图片是否存在折线等特征确认的,具体实施例如下所述。

在一种实施例中,服务器确认所述待分割图片属于第一类图片,其中,所述第一类图片包括:所述目标字段与相应的所述参考字段之间的位置固定。

服务器在获取到待分割图片之后,确认目标字段与相应的参考字段之间的位置固定(即目标字段相应于对应的参考字段不存在错行、歪斜等情况),这一类图片属于第一类图片。如图3所示,参考字段姓名、性别和专业,分别与目标字段张三、男和自动化分别整齐对应,没有出现错行或者歪斜的情况。

在一种实施例中,服务器确认所述待分割图片属于第二类图片,其中,所述第二类图片包括:所述目标字段与相应的所述参考字段之间的位置不固定。

服务器在获取到待分割图片之后,确认目标字段与相应的参考字段之间的位置不固定(即,目标字段相应于参考字段所在的行存在错行、歪斜等情况),这一类图片属于第二类图片。如图4所示,参考字段包括姓名、性别和专业这三个字段,相应于三个参考字段的目标字段分别为“张三、男和自动化”,且图4的每个目标字段与其对应的参考字段之间均存在位置不固定的情况(即目标字段相对于相应的参考字段存在字体歪斜),不是整齐对应,这一类目标字段与相应的参考字段之间位置不固定的,属于第二类图片。

在一种实施例中,服务器确认所述待分割图片属于第三类图片,其中,所述第三类图片是通过分析所述待分割图片中的版式字段的特征和所述待分割图片是否存在折线确定的。

服务器在获取到待分割图片之后,确认待分割图片的目标字段与相应的参考字段之间的位置不固定,并且存在折线,这一类图片属于第三类图片。如图5所示,整体版面出现了倾斜的字段(例如,倾斜的字段1、字段2、字段3……字段10),并且出现了如L1、L2、L3和L4所示的折痕,这一类图片被确认为第三类图片。

需要说明的是,本申请实施例的参考字段为排版相对规则整齐的字段(例如,固有模板上的模板字段),而目标字段与相应的参考字段相比排版不规则(例如,在固有模板上模板字段后添加的打印字段或者手写体的文字等)。本申请的一些实施例并不具体限定参考字段和目标字段在纸质载体上的固定方式。在本申请的一些实施例中,参考字段属于图片版面印刷上的印刷字段,目标字段属于相应于各参考字段而打印的打印字段。例如图3所示的姓名、性别和专业;目标字段是图片版面打印上的字段,例如图3所示的张三、男和自动化;参考字段与目标字段之间的位置关系可以是固定的,不存在错行或歪斜,也可以是不固定的,存在错行或歪斜。

上文描述了服务器确认待分割图片类型的过程,下文将描述根据待分割图片的类型,配置分割锚点的过程。

220,根据待分割图片的类型,配置分割锚点。

根据所述待分割图片的类型,配置分割锚点,其中,所述分割锚点是基于所述待分割图片的共有字段中选择。

在服务器配置分割锚点的过程中,无论待分割图片被确认为上述哪一种类型,分割锚点都是基于待分割图片中共有字段来选择的。

在本申请实施例中,共有字段是在同一类型的每一张待分割图片都会出现的字段,例如:户口本纸质图片中的身份证号字段、姓名字段等,若选择的分割锚点不属于共有字段,则会造成部分图片无法分割的情况。

在一种实施例中,所述确认待分割图片的类型,包括:确认所述待分割图片属于第一类图片,其中,所述第一类图片包括:所述目标字段与相应的所述参考字段之间的位置固定;根据所述待分割图片的类型,配置分割锚点,包括:基于所述参考字段确定所述第一类图片的分割锚点。

在服务器确认待分割图片属于第一类图片的情况下,直接将参考字段确定为第一类图片的分割锚点,或者将参考字段下面标注的横线作为分割第一类图片的分割锚点,例如:如图3所示的版式中,将参考字段“性别”或“性别”下面的横线作为分割锚点。

因此,本申请实施例通过确认待分割图片属于第一类图片,基于第一类图片中的参考字段确定分割锚点,能够找到目标字段与相应的参考字段之间位置固定的待分割图片的分割锚点。

在一种实施例中,所述确认待分割图片的类型,包括:确认所述待分割图片属于第二类图片,其中,所述第二类图片包括:所述目标字段与相应的所述参考字段之间的位置不固定;所述根据所述待分割图片的类型,配置分割锚点,包括:基于确定的目标字段,获取所述第二类图片的分割锚点。

在一种实施例中,确定的目标字段是通过如下方法确定的:从多张图片包括的多种目标字段中,获取所述确定的目标字段,其中,所述多张图片中的各张图片,均包括相同的所述参考字段,所述确定的目标字段存在于所述多张图片中的各张图片,所述多张图片均属于作数第二类图片。

在服务器确认待分割图片属于第二类图片的情况下,由于目标字段与相应的参考字段之间的位置不固定,所以不能直接将参考字段作为分割锚点,在此实施例中,先从包含相同参考字段的多张图片中,筛选出每张图片都存在的目标字段,再从筛选出的目标字段中确定分割锚点。例如:如图6所示,图6展示的是户口本登记页中的信息,其中,姓名、性别、民族、出生日期等属于排版规则的多个参考字段,而“张X、男、汉族、X年X月X日”属于与各参考字段对应的可能存在不规则排版的目标字段(之所以成为目标字段是由于分割图片后,信息提取和识别均需要目标字段的内容),为了保证目标信息提取不存在遗漏本申请的实施例对于这类图片的分割锚点是从多个目标字段中统计确定的。另外,由于目标字段输入的随机性和不规则性,会存在某些参考字段无对应目标字段的情况,因此本申请的实施例还通过从多张同类图片(例如,常驻人口登记卡类图片)中确定共有的目标字段作为锚点选择的依据。图6中将“130******”和“X年X月X日”分别作为水平和竖直方向上的分割锚点,无论整张版面打印情况如何,都不会导致信息的遗漏,若选择不是确定目标字段的“无宗教信仰”为分割锚点(例如:存在5张常驻人口登记卡类图片,其中有3张图片没有无宗教信仰,所以就不能使用该字段为分割锚点),在有些没存在这一栏目标信息的图片,就会导致信息的遗漏。服务器在找到确认的目标字段后,在这些目标字段中选择靠近中间位置的确认目标字段,作为分割锚点。

因此,本申请实施例通过确认所述待分割图片属于第二类图片,基于确定的目标字段,获取所述第二类图片的分割锚点,能够识别出目标字段与参考字段之间的位置不固定的第二类图片,将目标字段作为获取分割锚点的参考,从而能够在图片中的目标字段出现歪斜的情况下,准确的找到分割锚点,从而准确的分割和识别图片,通过获取确定的目标字段,能够从图片中的多种目标字段找到不可缺少的目标字段,作为分割锚点,从而能够消除因目标字段的不统一,而导致分割锚点不准确,图片不能识别完全。

在一种实施例中,所述确认待分割图片的类型,包括:确认所述待分割图片属于第三类图片,其中,所述第三类图片是通过分析所述待分割图片中的版式字段的特征和所述待分割图片是否存在折线确定的;所述根据所述待分割图片的类型,配置分割锚点,包括:根据距离所述折线最近的所述目标字段确定所述第三类图片的折线分割锚点。

服务器在确认待分割图片的类型属于第三类图片的情况下,将折线附近的目标字段确定为分割锚点。如图5所示,L1、L2、L3和L4是整张版面的折线,以在折线上的字段3、字段4和字段10为分割锚点,将整张版面分割成第一部分、第二部分、第三部分和第四部分。

因此,本申请实施例通过确认待分割图片属于第三类图片,根据距离折线最近的目标字段确定第三类图片的折线分割锚点,能够对存在折线图片的整张版面进行拆分,从而能够在图片中有折线的情况下,提高分割和识别准确率。

上文描述了根据待分割图片的类型,配置分割锚点的实施例,下文将描述根据分割锚点对待分割图片进行分割的实施例。

230,根据分割锚点对待分割图片进行分割。

服务器在确认待分割图片的类型并配置完成分割锚点之后,按照分割锚点对待分割图片进行分割。

在一种实施例中,所述根据所述分割锚点对所述待分割图片进行分割,包括:在所述待分割图片属于第三类图片的情况下,根据所述折线分割锚点将所述第三类图片分割成至少两个子图片;

所述确认待分割图片的类型,包括:根据所述版式字段的特征确认所述子图片的类型;根据所述子图片的类型,配置子图片的版式分割锚点,其中,所述根据所述分割锚点对所述待分割图片进行分割,还包括:根据所述版式分割锚点对所述子图片进行分割。

在待分割图片属于第三类图片的情况下,按照折线分割锚点,将第三类图片分割成至少两个子图片,在判断子图片属于第一类图片、第二类图片还是第三类图片,根据子图片的类型,按照上述方法配置子图片的版式分割锚点,根据版式分割锚点对子图片再进行分割。

因此,本申请实施例通过在所述待分割图片属于第三类图片的情况下,根据所述折线分割锚点将所述第三类图片分割成至少两个子图片,根据所述子图片的类型,配置子图片的版式分割锚点,能够在分割完成第三类图片的时候,再确认子图片的类型,根据类型再次配置分割锚点,从而能够提高分割和识别的准确率。

上文描述了服务器根据分割锚点对待分割图片进行分割的过程,下文将描述提取分割图片中的图片信息和识别图片信息的步骤。

240,提取分割图片中的图片信息。

采用上述步骤210至230的方法对待分割图片进行分割,得到分割图片后,提取所述分割图片中的图片信息。

250,识别图片信息。

采用上述步骤210至230的方法对待分割图片进行分割,得到分割图片后,进行步骤240提取所述分割图片中的图片信息,再进行步骤250对图片信息进行识别,得到图片内容。

上文详细描述了图片分割方法、图片信息提取方法和图片识别方法,下面将结合图7描述图片分割装置、图片信息提取装置和图片识别装置。

如图7所示,一种图片分割装置包括:分类模块710、锚点设置模块720,分割模块730。

在一种实施方式中,一种图片分割装置,所述图片分割装置包括:分类模块,被配置为确认待分割图片的类型,其中,所述待分割图片的类型至少是通过分析所述待分割图片中的版式字段的特征得到的;锚点设置模块,被配置为根据所述待分割图片的类型,配置分割锚点,其中,所述分割锚点是基于所述待分割图片包括的共有字段确定的;分割模块,被配置为根据所述分割锚点对所述待分割图片进行分割。

在一种实施方式中,所述版式字段包括多个参考字段与所述多个参考字段中各参考字段分别对应的目标字段;所述分类模块具体被配置为:确认所述待分割图片属于第一类图片,其中,所述第一类图片包括:所述目标字段与相应的所述参考字段之间的位置固定;所述锚点设置模块具体被配置为:基于所述参考字段确定所述第一类图片的分割锚点。

在另一种实施方式中,所述版式字段包括,多个参考字段与所述多个参考字段中各参考字段分别对应的目标字段;所述分类模块具体被配置为:确认所述待分割图片属于第二类图片,其中,所述第二类图片包括:所述目标字段与相应的所述参考字段之间的位置不固定;所述锚点设置模块具体被配置为:基于确定的目标字段,获取所述第二类图片的分割锚点。

在另一种实施方式中,所述锚点设置模块具体被配置为:基于目标字段,获取所述第二类图片的分割锚点,包括:从多张图片包括的多种目标字段中,获取共有目标字段;根据所述共有目标字段确定所述第二类图片的分割锚点。

在另一种实施方式中,所述分类模块具体被配置为:确认所述待分割图片属于第三类图片,其中,所述第三类图片是通过分析所述待分割图片中的版式字段的特征和所述待分割图片是否存在折线确定的;所述锚点设置模块具体被配置为:根据距离所述折线最近的所述目标字段确定所述第三类图片的折线分割锚点;所述分割模块具体配置为:根据所述折线分割锚点将所述第三类图片分割成至少两个子图片。

在另一种实施方式中,所述分类模块具体被配置为:根据所述版式字段的特征确认所述子图片的类型;所述锚点设置模块具体被配置为:根据所述子图片的类型,配置子图片的版式分割锚点,其中,所述根据所述分割锚点对所述待分割图片进行分割,包括:根据所述版式分割锚点对所述子图片进行分割。

在另一种实施方式中,所述待分割图片为纸质图片。在本申请实施例中,图7所示的分类模块710、锚点设置模块720,分割模块730能够实现图1至图6方法实施例中涉及图片分割方法中的各个过程。图7中的各个模块的操作和/或功能,分别为了实现图1至图6中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

如图7所示,一种图片信息提取装置,包括:图片分割装置和提取模块740。

在一种实施例中,采用图片分割装置对待分割图片进行分割,得到分割图片;提取模块,被配置为提取所述分割图片中的图片信息。

在本申请实施例中,图7所示的分类模块710、锚点设置模块720,分割模块730,提取模块740,能够实现图1至图6方法实施例中涉及图片信息提取方法中的各个过程。图7中的各个模块的操作和/或功能,分别为了实现图1至图6中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

如图7所示,一种图片识别装置,包括:图片信息提取装置和识别模块750。

在一种实施例中,采用图片分割装置对待分割图片进行分割,得到分割图片;采用图片信息提取装置,提取所述分割图片中的图片信息;识别模块750,被配置为识别所述图片信息。

在本申请实施例中,图7所示的分类模块710、锚点设置模块720,分割模块730,提取模块740和识别模块750,能够实现图1至图6方法实施例中的图片识别方法中的各个过程。图7中的各个模块的操作和/或功能,分别为了实现图1至图6中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

如图8所示,本申请实施例还提出了,一种电子设备,包括:处理器810、存储器820和总线830,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

其中,总线用于实现这些组件直接的连接通信。其中,本申请实施例中处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,可以执行上述实施例中所述的方法。

可以理解,图8所示的结构仅为示意,还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

上文详细描述了一种图片识别方法的实施步骤以及一种图片识别装置的内部模块,下面将结合图3至图6描述一种图片识别方法的具体实施例。

图片分割、提取和识别方法中,使用定位模型对待分割图片中的分割锚点进行定位,对于任意一张图片,都能通过分割锚点进行版面分割,本申请利用了目标检测算法,可以精确的定位到图片中锚点信息。

以图6中的第二类图片-常住人口登记卡为例,由于第二类图片中的目标字段的打印方式错综复杂,如果不对整张版面进行分割,要得到准确的版面分析结果显得十分困难,但通过将常住人口登记卡进行版面分割,分析各分割后的版面以得到整张图片的版面分析结果就显得十分容易,因此对于常住人口登记卡版面分析来讲,最重要的是获得任意常住人口登记卡图片的分割锚点。

faster-rcnn是经典的目标检测算法,它可以精确的实现目标分类及定位目标位置信息,本申请实施方式以faster-rcnn算法为基础,将常住人口登记卡中的参考字段标注为三类,出生日期以及身份证号分别标注为birthday和identification,其它参考字段标注为text,通过训练大量的标注数据,即可得到相应的定位模型,对于任意一张常住人口登记卡图片,可由训练好的定位模型准确的定位到常住人口登记卡图片中的分割锚点。

在一种具体实施方式中,如图3所示,在提前训练好模型之后,服务器获取到待分割图片,确认目标字段与相应的参考字段之间的位置固定,不存在错行、歪斜等情况,判断待分割图片属于第一类图片,将第一类图片输入训练完成的定位模型,为了获取需要的目标字段“张三、男”,设定“性别”为分割锚点,设定一个纵向临界值作为分割,识别所有小于纵向临界值的目标字段集合,便可得到需要的目标字段。

上述识别第一类图片的方法,优点在于图片参考字段一般是固定不变的,不存在因参考字段不存在导致分割锚点检测不到的情况。

在一种具体实施方式中,如图4所示,服务器获取到待分割图片,确认目标字段与相应的参考字段之间的位置不固定,存在错行、歪斜等情况,判断待分割图片属于第二类图片,将第二类图片输入训练完成的定位模型,为了获取需要的目标字段“张三、男”,设定“自动化”为分割锚点,设定一个纵向临界值作为分割,识别所有小于纵向临界值的目标字段集合,便可得到需要的目标字段。

上述识别第二类图片的方法,优点在于选择的分割锚点可以根据打印的情况不同而随之变动,无论打印的情况如何变化,都能通过设定好的分割锚点定位到需要的目标字段。

可选的,上述对于纸质图片识别方法的分析,如果满足图片属于第一类图片的情况下,优先选择第一类图片的识别方法。

在一种具体实施方式中,如图6所示,服务器获取到待分割图片,确认目标字段与相应的参考字段之间的位置不固定,存在错行、歪斜等情况,判断待分割图片属于如图6所示的第二类图片,由于目标字段打印情况错综复杂,需要选择合适的目标字段作为分割锚点来分割版面,为获得图中右上角“与户主关系”、“性别”、“民族”、“出生日期”对应的目标字段信息,若以参考字段“出生日期”作为锚点,很可能导致目标字段“X年X月X日”漏检,从而得不到期望得到的目标字段,若以目标字段“X年X月X日”(确定竖直方向阈值)和目标字段“130******”(确定水平方向阈值)作为锚点,无论目标字段的打印情况如何,都不会导致信息遗漏。以图6为例,确定竖直方向分割锚点看起来可以选择“无宗教信仰”,但通过分析大量的数据发现,很多图片宗教信息一栏信息是不存在的,但“出生日期”每张户口本都会存在,因此,会导致右上角信息无法获得的情况。对于第二类图片,选择合适的锚点信息来分割版面对于版面分析显得十分重要,需要训练大量的图片数据信息,以确定相应的分割锚点。对第二类图片进行分割、提取、识别后,重新组合成完整的图片,得到相应的图片信息。

在一种具体的实施方式中,如图5所示,服务器获取到待分割图片,确认目标字段与相应的参考字段之间的位置不固定,存在错行、歪斜,并且存在折线的情况,判断待分割图片属于如图5所示的第三类图片。

服务器在确认待分割图片的类型属于第三类图片的情况下,将折线附近的目标字段确定为分割锚点。如图5所示,L1、L2、L3和L4是整张版面的折线,以L1和L2为基础将字段3和字段10作为分割锚点,将整张版面分割成上半部分和下半部分,以L3和L4为基础将字段4作为分割锚点,将整张版面分割成左半部分和右半部分,将整张版面分割成第一部分、第二部分、第三部分和第四部分,其中,L1、L2、L3和L4是以随左右半部分图片的倾斜角变动而变动,这极大增加了版面分割的准确性,如若分割线是水平或竖直不变的,左半部分上下分割线若直接选取过字段3的水平直线L5作为上线分割线,则会导致字段10被错误的分到图片的上半部分,这不是我们期望的分割结果,因此求取准确的版面分割线对于对折图片十分重要。服务器将继续判断每个部分的类型,例如:第一、四部分属于第二类图片,第二、三部分属于第一类图片,接着按照上述方法对每部分进行识别,识别完成后,在组合成原有的版式。对于以上第三类图片的版面分割是以把图片分为4部分为举例说明的,在实际情况中,可以根据需求将图片分为n(n>=2)份。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 图片识别模型训练和图片识别方法、装置和存储介质
  • 一种基于图片挖掘技术的高效相似图片识别方法
技术分类

06120112356627