掌桥专利:专业的专利平台
掌桥专利
首页

一种图像识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:32:36


一种图像识别方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域,尤其涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

现如今,随着人工智能的快速发展,通过对包含题目信息的图像进行题目搜索,从而得到专业的解答,已成为一种流行的学习方式。

目前基于图像进行题目的搜索的方法,主要为基于目标检测的方法,利用矩形框将图像中包含的每道题目进行框选,根据框选结果对图像中包含的多道题目进行裁剪,得到包含单个题目信息的题目区域,根据裁剪出的题目区域进行字符识别,根据识别内容进行搜索,获得精准的搜索结果。

但是,获取的图像包含的题目内容往往存在着倾斜和扭曲的现象,通过现有技术得到的题目区域难以将每道题目的边界准确的区分开,尤其在图像中包含多个题目区域时,题目框选的区域容易出现交叠的现象,根据框选结果对图像进行裁剪就会包含其他题目信息,从而导致单个题目识别结果的前、后或者中间出现干扰文本,无法得到准确的识别结果,搜索的准确率比较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种图像识别方法、装置、电子设备及存储介质。

第一方面,本公开实施例提供了一种图像识别方法,包括:

获取目标图像,所述目标图像中包含一个或多个目标对象;

根据所述目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图;

根据所述目标检测框和所述图像分割结果图,对所述目标图像进行裁剪,得到与所述目标对象对应的目标区域;

利用光学字符识别算法确定所述目标区域中所述目标对象的内容,得到识别结果。

可选地,所述根据所述目标检测框和所述图像分割结果图,对所述目标图像进行裁剪,得到与所述目标对象对应的目标区域,包括:

根据所述目标检测框对所述目标图像进行裁剪,得到第一目标图像;

根据所述图像分割结果图,确定所述图像分割结果图中分割出来的所述目标对象的最大连通区域;

根据所述最大连通区域的轮廓的像素点,得到所述轮廓的最小倾斜矩阵;

根据所述最小倾斜矩阵的倾斜角度将所述第一目标图像转正;

根据所述最小倾斜矩阵的宽和高对所述转正后的第一目标图像进行裁剪,得到与所述目标对象对应的目标区域。

可选地,在所述根据所述目标图像,利用预先训练完成的图像分割模型得到与所述目标对象对应的目标检测框以及与所述目标检测框对应的图像分割结果图之前,还包括:

将所述目标图像输入到预先训练完成的角度分类模型中,得到所述目标图像的角度分类结果,根据所述角度分类结果将所述目标图像进行旋转;

根据所述旋转后的目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图。

可选地,所述图像分割模型包括目标检测层和图像分割层,所述目标检测层用于对所述目标图像进行特征提取和目标检测,得到目标特征信息和目标检测框,所述图像分割层用于根据所述目标特征信息以及所述目标检测框,得到所述图像分割结果图。

可选地,所述图像分割层用于根据所述目标特征信息以及所述目标检测框,得到所述图像分割结果图,包括:

所述图像分割层用于确定所述目标特征信息中与所述目标检测框对应的第一目标特征信息,计算所述第一目标特征信息中的每个像素点的概率值,根据所述每个像素点的概率值,得到所述图像分割结果图。

可选地,所述获取目标图像之前,所述方法还包括生成图像分割模型,包括:

获取第一样本图像以及所述第一样本图像中包含目标对象的第一目标检测框;

根据所述第一样本图像和所述第一目标检测框,对所述图像分割模型中的目标检测层进行模型训练,得到第一目标检测层;

获取第二样本图像以及所述第二样本图像中包含目标对象的第二目标分割图;

根据所述第二样本图像和所述第二目标分割图,对所述图像分割模型中的第一目标检测层和图像分割层进行模型训练。

可选地,所述根据所述第一样本图像和所述第一目标检测框,对所述图像分割模型中的目标检测层进行模型训练,得到第一目标检测层,包括:

将所述第一样本图像输入到所述图像分割模型中的目标检测层,得到第一预测目标检测框;

根据所述第一预测目标检测框和所述第一目标检测框,确定第一损失函数;

根据所述第一损失函数,更新所述目标检测层的参数,得到第一目标检测层。

可选地,所述根据所述第二样本图像和所述第二目标分割图,对所述图像分割模型中的第一目标检测层和图像分割层进行模型训练,包括:

将所述第二样本图像输入到所述第一目标检测层,得到与所述第二样本图像对应的第二特征信息和第二预测目标检测框;

将所述第二特征信息和所述第二预测目标检测框输入到所述图像分割模型中的所述图像分割层,得到第二预测目标分割图;

根据所述第二特征信息、所述第二预测目标检测框、所述第二预测目标分割图和所述第二目标分割图,确定第二损失函数;

根据所述第二损失函数,更新所述第一目标检测层的参数和所述图像分割层的参数。

第二方面,本公开实施例提供了一种图像识别装置,所述装置包括:

获取模块,用于获取目标图像,所述目标图像中包含一个或多个目标对象。

图像分割模块,用于根据所述目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图。

图像裁剪模块,用于根据所述目标检测框和所述图像分割结果图,对所述目标图像进行裁剪,得到与所述目标对象对应的目标区域。

图像识别模块,用于利用光学字符识别算法确定所述目标区域中所述目标对象的内容,得到识别结果。

第三方面,本公开实施例提供了一种电子设备,所述电子设备包括存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述的方法。

第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。

本公开实施例提供一种图像识别方法、装置、电子设备及存储介质,通过获取目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与目标检测框对应的图像分割结果图,根据目标检测框和图像分割结果图,对目标图像进行裁剪,得到与目标对象对应的目标区域,利用光学字符识别算法确定目标区域中目标对象的内容,得到识别结果,将目标检测算法和图像分割算法相结合,对目标图像进行裁剪,能够准确的将每道题目的边界区分开,得到包含单个题目的目标区域,有效的减少每个题目的目标区域出现重叠的现象,从而对目标区域进行精准的识别,避免对单个题目进行识别时出现干扰的文本,有效的提高了图像识别的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的目标检测算法网络结构图;

图2为本公开实施例提供的基于目标检测算法的框选结果示意图;

图3为本公开实施例提供的应用场景示意图;

图4为本公开实施例提供的一种图像分割模型训练方法的示意图;

图5为本公开实施例提供的图像分割模型网络结构图;

图6为本公开实施例提供的一种图像分割模型训练方法的示意图;

图7为本公开实施例提供的一种图像识别方法的流程图;

图8为本公开实施例提供的一种图像识别方法的流程图;

图9为本公开实施例提供的一种图像识别方法的示意图;

图10为本公开实施例提供的一种图像识别方法的框选结果示意图;

图11为本公开实施例提供的一种图像识别装置的结构示意图;

图12为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。

现有目标检测算法主要为单阶段目标检测方法,比如实时目标检测算法(YouOnly Look Once/Yolo),可快速定位目标,但难以准确的分割出题目边界,在实际获取到的图像中的题目内容很容易存在倾斜和扭曲的现象,基于Yolo的目标检测方法,输出坐标为矩形框,矩形框将题目区域框选,难以将题目边界明显区分开,在图像中包含多个题目区域时,题目框选的区域容易出现交叠,从而导致单个题目识别结果的前、后或者中间出现干扰文本,降低题目识别的准确率。因此,现有的目标检测算法,难以得到单个题目区域,导致搜索结果准确率较低。

当前Yolo系列检测算法是速度和精度最均衡的目标检测网络,已由YoloV1进化到YoloV5。其速度最快可达140 FPS。图1为本公开实施例提供的目标检测算法网络结构图,Yolo网络结构100如图1所示,包括输入层110、主干层120、采样层130和输出层140,其中,输入层110对输入网络的数据进行数据增强(Mosaic)和自适应锚框计算等处理,并将处理后的特征图输入到主干层120进行切片操作和卷积网络结构处理(采用Focus结构和CSP结构),采样层130对主干层120输出的特征图进行上采样和下采样,输出层140计算输出的检测结果的准确率,输出检测结果框。

以图1的网络结构为例,经过输入层110、主干层120和采样层130,得到3个不同尺度的特征,假设输入图像宽高为512,则输出的特征大小分别为64、32、16,3个不同尺度的特征的通道数分别为256、512、1024。3个不同尺度的特征,经过输出层140中的卷积层最终得到3个尺度上的所有可能的检测结果,其中检测结果中的输出框包含概率信息和坐标信息,坐标用(x,y,w,h)表征,分别为矩形框的中心点坐标、宽和高。所有检测结果一起经过输出层140中的非极大值抑制(NMS)之后,得到准确率最高的检测结果框。

但是,由于受网络设计的限制,Yolo检测模型的输出坐标为正矩形,在拍照场景中,很容易出现题目倾斜的情况。如果用正矩形框来表征检测出的单个题目信息,多个题目之间会有交叠,如图2所示,每道题目的框选存在重叠现象,裁剪出的包含每道题目的题目区域中也会包含其他题目信息,例如图2中题目B框选的内容中包含C的信息。光学字符识别算法(OCR)的识别结果也会包含其他题目的文本,当其他题目文本占比较大时,极有可能影响对当前题目的识别结果。

具体的,一种图像识别方法可以由终端或服务器来执行。具体的,终端或服务器可以通过图像分割模型对目标图像中的目标对象进行目标检测和图像分割。图像分割模型的训练方法的执行主体和图像识别方法的执行主体可以相同,也可以不同。

例如,在一种应用场景中,如图3所示,服务器320对图像分割模型进行训练。终端310从服务器320获取训练完成的图像分割模型,终端310通过该训练完成的图像分割模型对目标图像中的目标对象进行目标检测和图像分割。该目标图像可以是终端310拍摄获得的。或者,该目标图像是终端310从其他设备中获取的。再或者,该目标图像是终端310对预设图像进行图像处理后得到的图像,该预设图像可以是终端310拍摄获得的,或者该预设图像可以是终端310从其他设备中获取的。此处,并不对其他设备做具体限定。

在另一种应用场景中,服务器320对图像分割模型进行训练。进一步,服务器320通过训练完成的图像分割模型对目标图像中的目标对象进行目标检测和图像分割。服务器320获取目标图像的方式可以类似于如上所述的终端310获取目标图像的方式,此处不再赘述。

在又一种应用场景中,终端310对图像分割模型进行训练。进一步,终端310通过训练完成的图像分割模型对目标图像中的目标对象进行目标检测和图像分割。

可以理解的是,本公开实施例提供的图像分割模型训练方法、图像识别方法并不限于如上所述的几种可能场景。由于训练完成的图像分割模型可应用在下述图像识别方法中,因此,在介绍图像识别方法之前,下面可以先介绍一下图像分割模型训练方法。

下面以服务器320训练图像分割模型为例,介绍一种图像分割模型训练方法,即图像分割模型的训练过程。可以理解的是,该图像分割模型训练方法同样适用于终端310训练图像分割模型的场景中。

图4为本公开实施例提供的一种图像分割模型训练方法的示意图。所述图像分割模型包括目标检测层和图像分割层,如图5所示图像分割模型网络结构500,所述目标检测层包含如图5中所示的输入层110、主干层120、采样层130和输出层140,也即上述Yolo目标检测算法的网络结构,用于对所述目标图像进行特征提取和目标检测,得到目标特征信息和目标检测框,所述图像分割层包括分割层150,用于根据所述目标特征信息以及所述目标检测框,得到所述图像分割结果图。所述方法包括如图4所示的如下几个步骤:

S410、获取第一样本图像以及所述第一样本图像中包含目标对象的第一目标检测框。

在本实施例中,第一样本图像具体可以指包括一个或多个题目信息的图像,相应的,目标对象具体可以指第一样本图像中的每道题目信息,第一目标检测框具体可以指将第一样本图像中包含的每道题目信息进行框选的图像,其中,在第一样本图像上对每道题目的框选结果都是准确的。

可选的,第一样本图像可以是通过终端拍摄的包含一个或多个题目信息的图像,或是通过截图、下载等操作获取的图像,题目信息具体可以指数学题或语文题等,也可以指包含每段文字信息的文章、报纸或是网页页面的内容,均可以使用本实施例所述的图像识别方法进行文本识别,在此不作限定。

S420、根据所述第一样本图像和所述第一目标检测框,对所述图像分割模型中的目标检测层进行模型训练,得到第一目标检测层。

可理解的,根据S410获取的第一样本图像和作为标签的第一目标检测框,对图像分割模型中的目标检测层进行训练,得到训练后的第一目标检测层,其中,目标检测层可以为上述目标检测网络(Yolo)构建的。

可选的,S420的具体实施步骤包括:将所述第一样本图像输入到所述图像分割模型中的目标检测层,得到第一预测目标检测框;根据所述第一预测目标检测框和所述第一目标检测框,确定第一损失函数;根据所述第一损失函数,更新所述目标检测层的参数,得到第一目标检测层。

可理解的,将第一样本图像输入到构建好的目标检测层,得到第一预测目标检测框,其中,第一预测目标检测框是由目标检测层即Yolo网络得到的对目标对象即题目信息进行框选的图像,随后根据第一预测目标检测框和作为标签的第一目标检测框,确定目标检测层的第一损失函数,其中第一损失函数的具体计算公式不作限定,可根据输入的图像自行选择,根据第一损失函数,逐步更新目标检测层的参数,得到更新网络参数后的第一目标检测层,并保存第一目标检测层。

S430、获取第二样本图像以及所述第二样本图像中包含目标对象的第二目标分割图。

在本实施例中,第二样本图像具体可以为包含一个或多个题目信息的图像,目标对象具体可以为第二样本图像中包含的每道题目信息,第二目标分割图具体可以为在第二样本图像中将一个或多个题目信息框选出来的第二目标检测框中的目标对象进行分割的结果图,也就是说,将目标对象作为前景在第二目标检测框中分割出来,与背景区分开,得到的第二目标分割图的数量与第二样本图像中包含的题目信息数量相同,即将第二检测框中的每道题目信息分割出来,其中,第二目标分割图的分割结果都是准确的。

S440、根据所述第二样本图像和所述第二目标分割图,对所述图像分割模型中的第一目标检测层和图像分割层进行模型训练。

可选的,所述图像分割层用于确定所述目标特征信息中与所述目标检测框对应的第一目标特征信息,计算所述第一目标特征信息中的每个像素点的概率值,根据所述每个像素点的概率值,得到所述图像分割结果图。

可理解的,S440利用S430获取的第二样本图像和第二目标分割图对图像分割模型中的S420得到的第一目标检测层和图像分割层进行模型训练,生成图像分割模型。

本公开实施例提供的一种图像分割模型训练方法,通过获取第一样本图像以及与第一样本图像对应的第一目标检测框,对图像分割模型中的目标检测层进行训练,通过获取第二样本图像以及与第二样本图像对应的第二目标分割图,对图像分割模型中的第一目标检测层和图像分割层进行模型训练,得到图像分割模型,采用预先训练完成的目标检测层,在获取新的样本图像将目标检测层和图像分割层联合训练,使网络层持续收敛,不仅能够进一步提高网络模型的训练精度,加快模型的收敛速度,保持网络训练的稳定性,也可以使得模型后续添加了图像分割层后准确率不低于原目标检测层的准确率,从而有效确保图像分割模型的准确率。

图6为本公开实施例提供的一种图像分割模型训练方法的示意图;在上述实施例的基础上,可选地,所述根据所述第二样本图像和所述第二目标分割图,对所述图像分割模型中的第一目标检测层和图像分割层进行模型训练,图6的具体实施步骤包括:

S610、将所述第二样本图像输入到所述第一目标检测层,得到与所述第二样本图像对应的第二特征信息和第二预测目标检测框。

可理解的,第一目标检测层是利用第一样本图像进行训练,更新后的网络层,用于提取第二样本图像中的图像特征即第二特征信息和第二预测目标检测框,可知,通过训练后的第一目标检测层得到的第二预测目标检测框中对于第二样本图像中题目信息的框选的准确率是比较高的,便于对图像分割模型中的图像分割层进行训练。

S620、将所述第二特征信息和所述第二预测目标检测框输入到所述图像分割模型中的所述图像分割层,得到第二预测目标分割图。

可理解的,将S610得到的第二特征信息和第二预测目标检测框输入到图像分割模型中的图像分割层中,其中,图像分割层用于确定第二特征信息中与第二预测目标检测框对应的目标特征信息,计算所述目标特征信息中的每个像素点的概率值,根据所述每个像素点的概率值,得到第二预测目标分割图。

可选地,如图5所示的分割层150可以包括卷积层、区域特征聚集层和实例分割层,可以采用区域特征聚集层(ROI Align)确定第二特征信息中与第二预测目标检测框对应的目标特征信息,并将所述目标特征信息进行缩放,优选的,将所述目标区域缩放到7×7的固定大小,采用实例分割层(mask predictor)计算缩放成7×7大小的目标区域中的每个像素点的概率值,进行图像分割,得到第二预测目标分割图,第二预测目标分割图的数量与第二预测目标检测框框选的目标对象的数量相同。

S630、根据所述第二特征信息、所述第二预测目标检测框、所述第二预测目标分割图和所述第二目标分割图,确定第二损失函数。

可理解的,根据S620得到的第二特征信息、第二预测目标检测框、第二预测目标分割图和第二目标分割图确定第二损失函数。

S640、根据所述第二损失函数,更新所述第一目标检测层的参数和所述图像分割层的参数。

可理解的,根据S630得到的第二损失函数,更新第一目标检测层的参数和图像分割层的参数,得到图像分割模型,其中,第一目标检测层是更新后的目标检测层。

本公开实施例通过第一样本图像对图像分割模型进行训练,可以对第一目标检测层的参数和图像分割层的参数更新,在对目标检测层进行训练的基础上,经过多次迭代训练,同时更新第一目标检测层的参数和图像分割层的参数,可以使得图像分割模型的精准度越来越高,收敛速度比较快且稳定,从而提高了图像分割模型的精准度。

图7为本公开实施例提供的一种图像识别方法流程图。例如,图像识别方法可以由终端310来执行。同理,图像识别方法也可以由服务器320来执行。具体的,终端310可以从服务器320获取训练完成的图像分割模型,进一步,终端310根据该训练完成的图像分割模型,对目标图像中的目标对象进行图像识别。具体的,图7所述方法的具体步骤如下:

S710、获取目标图像,所述目标图像中包含一个或多个目标对象。

可选地,目标图像具体可以指由用户拍摄、截图或接收到的图像,其中,目标图像中包含一个或多个目标对象,以拍摄到的包含一个或多个题目信息的图像作为目标图像,目标对象可以为目标图像中包含的每道题目的内容,例如图2中包含的题目A、题目B或题目C所对应的内容。

可选的,对获取的目标图像进行尺寸规范化,按照设定的最大边长,将目标图像的高度或者宽度与预设的最大边长进行判断,根据判断结果对目标图像进行等比缩放,使图片长边小于等于预设最大边长。

S720、根据所述目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图。

可理解的,利用上述实施例训练完成的图像分割模型,对S710获取的目标图像进行目标检测和图像分割,得到目标检测框以及与目标检测框对应的图像分割结果图,其中,目标检测框是在目标图像的基础上,将目标图像中包含的所有题目都一一框选出来,图像分割结果图是对目标检测框框选的题目信息进行图像分割,也就是说,每道题目的目标检测框的大小与图像分割结果图的大小相同。

S730、根据所述目标检测框和所述图像分割结果图,对所述目标图像进行裁剪,得到与所述目标对象对应的目标区域。

可理解的,根据S720得到的目标检测框和图像分割结果图。对目标图像进行裁剪,得到与目标对象对应的目标区域。可选地,根据所述目标检测框对所述目标图像进行裁剪,得到所述第一目标图像;根据所述图像分割结果图,确定所述图像分割结果图中分割出来的所述目标对象的最大连通区域;根据所述最大连通区域的轮廓的像素点,得到所述轮廓的最小倾斜矩阵;根据所述最小倾斜矩阵的倾斜角度将所述第一目标图像转正;根据所述最小倾斜矩阵的宽和高对所述转正后的第一目标图像进行裁剪,得到与所述目标对象对应的目标区域。

可理解的,根据目标检测框中的坐标信息对目标图像进行裁剪,得到与目标图像中的目标对象对应的第一目标图像;随后,确定图像分割结果图中分割出来的前景即所述目标对象的最大连通区域,其中,由图像分割模型得到的图像分割结果图的数量与第一目标图像的数量相同;根据最大连通区域的轮廓的像素点,得到所述轮廓的最小倾斜矩阵,其中,最小倾斜矩阵可以用中心点坐标(x,y)、倾斜矩形宽高(width,height)以及倾斜角度θ来表示,倾斜角度θ是水平轴(x轴)逆时针旋转,与碰到的矩形的第一条边的夹角,并且这个边的边长是width,另一条边的边长是height;根据每个最小斜矩形的倾斜角度θ,将第一目标图像中转正,再根据最小斜矩形的中心点和宽高在第一目标图像中裁剪出最小的题目区域。

可理解的,在本实施例中,还可以将最终计算出的最小倾斜矩形信息输出给用户,由用户根据最小倾斜矩阵的信息需要裁剪出想要的题目区域,并将最终的题目区域返回给终端或服务器进行识别。

S740、利用光学字符识别算法确定所述目标区域中所述目标对象的内容,得到识别结果。

可理解的,利用光学字符识别算法确定S730中得到的目标区域中目标对象的内容,得到识别结果,得到的目标区域可以为只包含单个题目信息的图像,也就是说只包含一个目标对象的内容。

本公开实施例提供的一种图像识别方法,通过获取目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与目标检测框对应的图像分割结果图,根据目标检测框和图像分割结果图,对目标图像进行裁剪,得到与目标对象对应的目标区域,利用光学字符识别算法确定目标区域中目标对象的内容,得到识别结果,将目标检测算法和图像分割算法相结合,对目标检测框内的目标对象进行图像分割,从而对目标图像进行裁剪,能够准确的将每道题目的边界区分开,得到包含单个题目的目标区域,有效的减少每个题目的目标区域出现重叠的现象,从而对目标区域进行精准的识别,避免对单个题目进行识别时出现干扰的文本,有效的提高了图像识别的准确率。

图8为本公开实施例提供的一种图像识别方法的流程图。在上述实施例的基础实现,可选的,在所述根据所述目标图像,利用预先训练完成的图像分割模型得到与所述目标对象对应的目标检测框以及与所述目标检测框对应的图像分割结果图之前,所述方法还包括:

S810、将所述目标图像输入到预先训练完成的角度分类模型中,得到所述目标图像的角度分类结果,根据所述角度分类结果将所述目标图像进行旋转。

可理解的,将获取到的目标图像输入到预先训练完成的角度分类模型中,判断所述目标图像中目标对象对应的角度,根据确定的角度分类结果,对目标图像进行旋转,优选的,角度分类模型确定的角度类型可以为0、90、180、270四个方向的角度分类结果,根据角度分类结果可以将目标图像图片转正。

可选的,可以选择卷积神经网络构建角度分类模型,并对构建完成的网络进行训练,得到角度分类模型。

S820、根据所述旋转后的目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图。

可理解的,利用预先训练完成的图像分割模型对S810得到的旋转后的目标图像进行目标检测和图像分割,得到对旋转后的目标图像中的一个或多个目标对象进行框选的目标检测框以及与所述目标检测框对应的图像分割结果图,后续根据目标检测框和图像分割结果图对目标对象进行裁剪和识别的步骤与上述实施例相同,在此不作赘述。

本公开实施例提供的一种图像识别方法,通过对目标图像进行角度分类,根据分类结果进行旋转,得到转正后的目标图像,根据所述转正后的目标图像进行目标框选、图像分割和图像识别等操作,能够有效地提高题目框选的准确率,保证裁剪后的目标区域中题目内容识别的正确性。

图9为本公开实施例提供的一种图像识别方法的示意图,以上述实施例为基础,对上述图像识别方法中每个步骤得到的结果以图9为例进行说明。

以图2作为获取到的目标图像为例,其中,题目A、题目B和题目C包含的题目信息作为目标对象,以图2中的题目B为例,对每个步骤进行详细说明。

根据所述目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图图B,其中,目标检测框可以如图2所示,在目标图像上对包含的所有题目信息进行框选,得到目标检测框,还得到与目标检测框中的每道题目信息框对应的图像分割结果图,例如,图2中包含3个题目检测框,经过图像分割处理后包含3个图像分割结果图。

根据所述目标检测框和所述图像分割结果图,对所述目标图像进行裁剪,得到与所述目标对象对应的目标区域,具体可以包括:

在图2中按照对每个目标对象进行框选的结果进行裁剪,得到包含单个目标对象即题目信息的第一目标图像910;

根据所述图像分割结果图920,确定所述图像分割结果图920中分割出来的所述目标对象即题目B的最大连通区域;

根据所述最大连通区域的轮廓930的像素点,得到所述轮廓的最小倾斜矩阵940,其中,930中灰色线条为最大连通区域的轮廓;所述轮廓的最小倾斜矩阵940中,θ为倾斜角度,黑点表示最小倾斜矩阵的中心点,根据最小倾斜矩阵信息在获取到的目标图像中进行题目框选,可以得到如图10所述的目标框选结果,可见,与图2所示的目标框选结果相比,对题目信息的框选结果更加准确;

根据最小倾斜矩阵的倾斜角度将对应的第一目标图像910转正,得到950将第一目标图像910按照倾斜角度转正后的图像,并根据最小倾斜矩阵的中心点和宽高裁剪出最小的题目区域,即根据最小倾斜矩阵的中心点和宽高对950进行裁剪,得到与所述目标对象对应的目标区域960。

利用光学字符识别算法确定所述目标区域960中所述目标对象的内容,得到识别结果970,即题目B中包含的题目信息“B...B”。

本公开实施例提供的图像识别方法,将目标检测算法和图像分割算法相结合,对目标图像进行裁剪,能够准确的将每道题目的边界区分开,得到包含单个题目的目标区域,有效的减少每个题目的目标区域出现重叠的现象,从而对目标区域进行精准的识别,避免对单个题目进行识别时出现干扰的文本,有效的提高了图像识别的准确率。

图11为本公开实施例提供的一种图像识别装置的结构示意图。装置1100包括获取模块1101、图像分割模块1102、图像裁剪模块1103以及图像识别模块1104。

获取模块1101,用于获取目标图像,所述目标图像中包含一个或多个目标对象。

图像分割模块1102,用于根据所述目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图。

图像裁剪模块1103,用于根据所述目标检测框和所述图像分割结果图,对所述目标图像进行裁剪,得到与所述目标对象对应的目标区域。

图像识别模块1104,用于利用光学字符识别算法确定所述目标区域中所述目标对象的内容,得到识别结果。

可选地,图像识别装置1100还包括图像旋转模块,图像旋转模块用于将所述目标图像输入到预先训练完成的角度分类模型中,得到所述目标图像的角度分类结果,根据所述角度分类结果将所述目标图像进行旋转;根据所述旋转后的目标图像,利用预先训练完成的图像分割模型得到目标检测框以及与所述目标检测框对应的图像分割结果图。

可选的,图像裁剪模块1103具体包括:根据所述目标检测框对所述目标图像进行裁剪,得到所述第一目标图像;根据所述图像分割结果图,确定所述图像分割结果图中分割出来的所述目标对象的最大连通区域;根据所述最大连通区域的轮廓的像素点,得到所述轮廓的最小倾斜矩阵;将所述最小倾斜矩阵转正,并根据所述转正后的最小倾斜矩阵对所述第一目标图像进行裁剪,得到与所述目标对象对应的目标区域。

可理解的,图像裁剪模块1103与图像分割模块1102以及获取模块1101相连,根据图像分割模块1102得到的目标检测框对获取模块1101得到的目标图像进行裁剪,得到第一目标图像,根据图像分割模块1102得到的图像分割结果图,确定最小倾斜矩阵,根据转正后的最小倾斜矩阵对第一目标图像进行裁剪,得到与目标对象对应的目标区域。

图11为本公开实施例提供的一种图像识别装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图12为本公开实施例提供的一种电子设备的结构示意图,该电子设备1200可以是如上所述的服务器或终端。本公开实施例提供的电子设备可以执行图像识别方法实施例提供的处理流程,如图12所示,电子设备1200包括:存储器1210、处理器1220和通讯接口1230;其中,计算机程序存储在存储器1210中,并被配置为由处理器1220执行如上述的图像识别方法。

另外,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的图像识别方法。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种图像识别方法、图像识别装置、电子设备和存储介质
  • 一种图像识别方法、装置、电子设备及存储介质
技术分类

06120112965041