掌桥专利:专业的专利平台
掌桥专利
首页

基于图像分割的对象识别方法及装置、电子设备

文献发布时间:2024-04-18 19:58:26


基于图像分割的对象识别方法及装置、电子设备

技术领域

本发明涉及人工智能技术领域或其他相关领域,具体而言,涉及一种基于图像分割的对象识别方法及装置、电子设备。

背景技术

当前,在很多场景下都需要进行实时图像分割和图像物体识别,例如,在金融系统的登录验证进行人脸识别或者第三者头像识别,在相机拍照时进行物体定位等。相关技术中,使用的图像分割算法一般是用于识别待分割物体和周围背景的,因此许多网络的输出结果是只有黑白两个颜色的图像(白色为待分割物体黑色为背景)。对于物体3D形状识别一般做法是采用增加硬件的方式进行识别,例如增加一个长焦摄像头或者添加雷达传感器等。

但是当前在进行三维立体形状的图像分割识别时,都需要增加硬件,需要额外的开销,对于金融机构目前存量的摄像头都不具备硬件改造的条件,而且改造成本高昂。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于图像分割的对象识别方法及装置、电子设备,以至少解决相关技术中在进行三维立体形状的图像分割识别时,需要额外增加硬件设备,成本增加的技术问题。

根据本发明实施例的一个方面,提供了一种基于图像分割的对象识别方法,包括:将待识别图片输入至分割模型中,输出概率矩阵,其中,所述待识别图片中包含有三维立体对象的对象信息,所述分割模型用于对所述待识别图片各像素点进行分割,所述概率矩阵中每个数字表征该像素点为所述三维立体对象所属位置的像素点的概率值;对所述概率矩阵中各像素点进行整合,生成N个像素块,其中,N为正整数;将所述像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息;基于每个像素块所处的位置信息以及类别信息,对所述像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,所述目标分割图片中包含:所述三维立体对象、图片背景、对象与背景边缘的识别结果。

可选地,所述分割模型是预先训练得到的,在训练所述分割模型时,包括:获取金融机构的业务端在历史时间段中采集的对象图片集合以及对象分割结果,其中,所述对象图片集合中包含M张涉及历史三维立体对象的图片,所述三维立体对象包含T个使用所述业务端的业务处理对象和/或P个客户对象,所述对象分割结果包含对每张涉及所述历史三维立体对象的图片进行对象分割后得到的对象分割结果,M、T和P为大于等于2的整数;基于所述对象图片集合以及所述对象分割结果,生成训练集以及验证集;采用所述训练集对初始网络模型进行训练,其中,所述初始网络模型中包含:输入层、激活函数、损失函数、输出层,所述输入层用于输入图片,所述激活函数以及所述损失函数用于调整图片中各历史三维立体对象的分割网络以及网络权限参数,所述输出层用于输出对象分割结果;在所述训练集中的所有图片已经全部输入完毕,采用所述验证集对所述初始网络模型进行分割相似度验证;在所述初始网络模型对输入的图片进行对象分割后得到的对象,与所述对象分割结果中的分割对象之间的相似度超出预设相似度阈值的情况下,确认训练完毕,输出所述分割模型。

可选地,将待识别图片输入至分割模型中,输出概率矩阵的步骤,包括:在将待识别图片输入至所述分割模型后,采用所述分割模型按照预设分比率参数分割所述待识别图片的所有像素点;采用所述分割模型对所述像素点进行物体识别,输出该像素点为所述三维立体对象的概率值;整合所有所述像素点,生成所述概率矩阵。

可选地,包括:所述概率矩阵的矩阵大小与所述待识别图片的图片大小一致,且所述概率矩阵的长宽参数按照所述待识别图片的长宽参数设置。

可选地,对所述概率矩阵中各像素点进行整合,生成N个像素块的步骤,包括:接收对所述待识别图片预定义的N个像素相邻范围;将每个所述像素相邻范围内的所有像素点进行聚合处理,生成所述N个像素块。

可选地,将所述像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息的步骤,包括:将所述像素块输入至所述目标分类模型中的决策树装置,输出第一分类结果,其中,所述第一分类结果包含该像素块所处的位置信息以及类别信息;将所述像素块输入至所述目标分类模型中的朴素贝叶斯分类装置,输出第二分类结果,其中,所述第二分类结果包含该像素块所处的位置信息以及类别信息;对于每个所述像素块,比较该像素块对应的所述第一分类结果与所述第二分类结果;基于比较结果,输出该像素块所处的位置信息以及类别信息。

可选地,基于比较结果,输出该像素块所处的位置信息以及类别信息的步骤,包括:在所述比较结果指示所述第一分类结果与所述第二分类结果一致的情况下,输出该像素块所处的位置信息以及类别信息;或者,在所述比较结果指示所述第一分类结果与所述第二分类结果不相同的情况下,扩展该像素块的所述像素相邻范围;执行将所述像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息的步骤,得到新的比较结果;在所述新的比较结果指示该像素块的第一分类结果与第二分类结果相同的情况下,输出该像素块所处的位置信息以及类别信息。

可选地,基于每个像素块所处的位置信息以及类别信息,对所述像素块进行颜色填充处理的步骤,包括:在所述位置信息以及所述类别信息指示所述像素块处于对象与背景边缘的情况下,对该像素块填充第一标识颜色;在所述位置信息以及所述类别信息指示所述像素块处于所述三维立体对象的对象内部的情况下,对该像素块填充第二标识颜色;在所述位置信息以及所述类别信息指示所述像素块处于图片背景内部的情况下,对该像素块填充第三标识颜色,其中,所述第一标识颜色、所述第二标识颜色和所述第三标识颜色互不相同。

根据本发明实施例的另一方面,还提供了一种基于图像分割的对象识别装置,包括:图片输入单元,用于将待识别图片输入至分割模型中,输出概率矩阵,其中,所述待识别图片中包含有三维立体对象的对象信息,所述分割模型用于对所述待识别图片各像素点进行分割,所述概率矩阵中每个数字表征该像素点为所述三维立体对象所属位置的像素点的概率值;像素整合单元,用于对所述概率矩阵中各像素点进行整合,生成N个像素块,其中,N为正整数;像素块输入单元,用于将所述像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息;识别单元,用于基于每个像素块所处的位置信息以及类别信息,对所述像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,所述目标分割图片中包含:所述三维立体对象、图片背景、对象与背景边缘的识别结果。

可选地,所述分割模型是预先训练得到的,在训练所述分割模型时,使用模块包括:获取模块,用于获取金融机构的业务端在历史时间段中采集的对象图片集合以及对象分割结果,其中,所述对象图片集合中包含M张涉及历史三维立体对象的图片,所述三维立体对象包含T个使用所述业务端的业务处理对象和/或P个客户对象,所述对象分割结果包含对每张涉及所述历史三维立体对象的图片进行对象分割后得到的对象分割结果,M、T和P为大于等于2的整数;生成模块,用于基于所述对象图片集合以及所述对象分割结果,生成训练集以及验证集;训练模块,用于采用所述训练集对初始网络模型进行训练,其中,所述初始网络模型中包含:输入层、激活函数、损失函数、输出层,所述输入层用于输入图片,所述激活函数以及所述损失函数用于调整图片中各历史三维立体对象的分割网络以及网络权限参数,所述输出层用于输出对象分割结果;验证模块,用于在所述训练集中的所有图片已经全部输入完毕,采用所述验证集对所述初始网络模型进行分割相似度验证;确认模块,用于在所述初始网络模型对输入的图片进行对象分割后得到的对象,与所述对象分割结果中的分割对象之间的相似度超出预设相似度阈值的情况下,确认训练完毕,输出所述分割模型。

可选地,所述图片输入单元包括:分割模块,用于在将待识别图片输入至所述分割模型后,采用所述分割模型按照预设分比率参数分割所述待识别图片的所有像素点;识别模块,用于采用所述分割模型对所述像素点进行物体识别,输出该像素点为所述三维立体对象的概率值;整合模块,用于整合所有所述像素点,生成所述概率矩阵。

可选地,所述概率矩阵的矩阵大小与所述待识别图片的图片大小一致,且所述概率矩阵的长宽参数按照所述待识别图片的长宽参数设置。

可选地,像素整合单元包括:第一接收模块,用于接收对所述待识别图片预定义的N个像素相邻范围;聚合处理模块,用于将每个所述像素相邻范围内的所有像素点进行聚合处理,生成所述N个像素块。

可选地,所述像素块输入单元包括:第一输入模块,用于将所述像素块输入至所述目标分类模型中的决策树装置,输出第一分类结果,其中,所述第一分类结果包含该像素块所处的位置信息以及类别信息;第二输入模块,用于将所述像素块输入至所述目标分类模型中的朴素贝叶斯分类装置,输出第二分类结果,其中,所述第二分类结果包含该像素块所处的位置信息以及类别信息;比较模块,用于对于每个所述像素块,比较该像素块对应的所述第一分类结果与所述第二分类结果;输出模块,用于基于比较结果,输出该像素块所处的位置信息以及类别信息。

可选地,输出模块包括:第一输出子模块,用于在所述比较结果指示所述第一分类结果与所述第二分类结果一致的情况下,输出该像素块所处的位置信息以及类别信息;或者,扩展子模块,用于在所述比较结果指示所述第一分类结果与所述第二分类结果不相同的情况下,扩展该像素块的所述像素相邻范围;执行子模块,用于执行将所述像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息的步骤,得到新的比较结果;第二输出子模块,用于在所述新的比较结果指示该像素块的第一分类结果与第二分类结果相同的情况下,输出该像素块所处的位置信息以及类别信息。

可选地,识别单元包括:第一填充模块,用于在所述位置信息以及所述类别信息指示所述像素块处于对象与背景边缘的情况下,对该像素块填充第一标识颜色;第二填充模块,用于在所述位置信息以及所述类别信息指示所述像素块处于所述三维立体对象的对象内部的情况下,对该像素块填充第二标识颜色;第三填充模块,用于在所述位置信息以及所述类别信息指示所述像素块处于图片背景内部的情况下,对该像素块填充第三标识颜色,其中,所述第一标识颜色、所述第二标识颜色和所述第三标识颜色互不相同。

根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项的基于图像分割的对象识别方法。

根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项的基于图像分割的对象识别方法。

在本公开中,将待识别图片输入至分割模型中,由分割模型对待识别图片各像素点进行分割,输出概率矩阵,概率矩阵中每个数字表征该像素点为三维立体对象所属位置的像素点的概率值,对概率矩阵中各像素点进行整合,生成N个像素块,将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息,基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。

在本公开中,可以充分利用分割模型识别出来的概率矩阵,结合常规机器学习的分类模型,识别各图片像素位置的信息,获取图片中三维立体对象的景深信息,区分出三维立体对象、背景以及边缘信息,仅需要通过图片分割识别软件/系统便可以完成对景深的获取,无需额外增加硬件设备,降低成本,从而解决相关技术中在进行三维立体形状的图像分割识别时,需要额外增加硬件设备,成本增加的技术问题。

本发明利用图像分割生成的结果进行处理后加工以获得原始物体的3D形态信息,最后生成对应的颜色填充图像,以此来减少对额外硬件的开销需求。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的基于图像分割的对象识别方法的流程图;

图2是根据本发明实施例的一种基于语义的图像分割训练方法的总流程;

图3是根据本发明实施例的一种基于语义的图像分割方法的流程图;

图4是根据本发明实施例的一种可选的基于图像分割的对象识别装置的示意图;

图5是根据本发明实施例的一种用于图像分割的对象识别方法的电子设备(或移动设备)的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:

物体景深,是指物体在图像画面中的远近程度的表现,物体景深的掌握可以用来强调图像画面中的三维主体对象,呈现独特的视觉效果。

分割模型,是指利用计算机视觉技术将图像中的每个像素分配给不同类别的任务。

FCN,Fully Convolutional Network,是一种最早的分割网络结构,它通过将全连接层替换为卷积层来实现像素级别的分割。

U-Net,是一种常用的分割网络结构,它的结构类似于编码器-解码器结构。U-Net通过使用跳跃连接来将低级特征和高级特征结合起来,提高了分割的准确性。

DeepLab,是一种基于FCN的分割网络结构,它通过添加空洞卷积(DilatedConvolution)和空间金字塔池化(Spatial Pyramid Pooling)等操作来扩大感受视野,提高分割的准确性。

决策树,是一种用于分类和回归问题的机器学习算法。它是一种树形结构,其中每个内部节点表示一个特征或属性,每个分支代表该特征的不同取值,每个叶节点代表一个类别或一个数值。决策树通过对特征进行划分,根据特征的取值进行分支选择,最终到达叶节点并做出预测。

朴素贝叶斯模型,是一种基于概率统计和贝叶斯定理的分类算法。朴素贝叶斯模型的工作原理如下:首先,通过训练数据集计算出每个类别的先验概率和每个特征在各个类别下的条件概率。然后,对于一个新的样本,根据贝叶斯定理计算出它属于每个类别的后验概率,最终选择具有最高后验概率的类别作为预测结果。

需要说明的是,本公开中的基于图像分割的对象识别方法及其装置可用于人工智能技术领域在对待识别图片中3D立体对象进行分割识别的情况下,也可用于除人工智能技术领域之外的任意领域在对待识别图片中3D立体对象进行分割识别的情况下,本公开中对基于图像分割的对象识别方法及其装置的应用领域不做限定。

需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守各地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。

本发明下述各实施例可应用于各种基于人工智能对加密数据进行验证的系统/应用/设备中。本发明充分利用分割模型识别出来的概率矩阵,结合常规机器学习擅长的一维矩阵分类,对图像分割中可能存在光线影响的地方进行修正,从而获取物体景深信息,不仅不需要对现有影像采集装置进行硬件升级,仅需要通过软件层面进行操作便可以完成对景深的获取,对于目前金融机构常见的客户脸部识别(检测是否使用照片,真实人脸存在景深信息),可以利用本发明生成的最终分割结果判定物体景深实现对人脸的检测。

本发明利用图像分割生成的结果进行处理后加工以获得原始物体的3D形态信息,最后生成对应的颜色填充图像,以此来减少对额外硬件的开销需求。

下面结合各个实施例来详细说明本发明。

实施例一

根据本发明实施例,提供了一种基于图像分割的对象识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的基于图像分割的对象识别方法的流程图,如图1所示,该方法包括如下步骤:

步骤S101,将待识别图片输入至分割模型中,输出概率矩阵,其中,待识别图片中包含有三维立体对象的对象信息,分割模型用于对待识别图片各像素点进行分割,概率矩阵中每个数字表征该像素点为三维立体对象所属位置的像素点的概率值;

步骤S102,对概率矩阵中各像素点进行整合,生成N个像素块,其中,N为正整数;

步骤S103,将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息;

步骤S104,基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。

通过上述步骤,可以将待识别图片输入至分割模型中,由分割模型对待识别图片各像素点进行分割,输出概率矩阵,概率矩阵中每个数字表征该像素点为三维立体对象所属位置的像素点的概率值,对概率矩阵中各像素点进行整合,生成N个像素块,将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息,基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。在该实施例中,可以充分利用分割模型识别出来的概率矩阵,结合常规机器学习的分类模型,识别各图片像素位置的信息,获取图片中三维立体对象的景深信息,区分出三维立体对象、背景以及边缘信息,仅需要通过图片分割识别软件/系统便可以完成对景深的获取,无需额外增加硬件设备,降低成本,从而解决相关技术中在进行三维立体形状的图像分割识别时,需要额外增加硬件设备,成本增加的技术问题。

下面结合上述各步骤对本发明实施例进行详细说明。

在本发明实施例中,为了实现对图片中景深物体/三维立体对象/3D对象的准确识别,需要预先训练得到分割模型,通过分割模型实现对图像中各像素的分割。可选地,分割模型是预先训练得到的,在训练分割模型时,包括:获取金融机构的业务端在历史时间段中采集的对象图片集合以及对象分割结果,其中,对象图片集合中包含M张涉及历史三维立体对象的图片,三维立体对象包含T个使用业务端的业务处理对象和/或P个客户对象,对象分割结果包含对每张涉及历史三维立体对象的图片进行对象分割后得到的对象分割结果,M、T和P为大于等于2的整数;基于对象图片集合以及对象分割结果,生成训练集以及验证集;采用训练集对初始网络模型进行训练,其中,初始网络模型中包含:输入层、激活函数、损失函数、输出层,输入层用于输入图片,激活函数以及损失函数用于调整图片中各历史三维立体对象的分割网络以及网络权限参数,输出层用于输出对象分割结果;在训练集中的所有图片已经全部输入完毕,采用验证集对初始网络模型进行分割相似度验证;在初始网络模型对输入的图片进行对象分割后得到的对象,与对象分割结果中的分割对象之间的相似度超出预设相似度阈值的情况下,确认训练完毕,输出分割模型。

在本发明实施例中,分割模型可以为任何常见的分割网络结构,且已经训练好可以对基本物体进行分割(面部、手部等)。分割网络结构是指用于分割任务的深度学习网络结构,例如,FCN网络结构、U-Net网络结构、DeepLab网络结构,根据具体的应用场景和需求,可以选择适合的网络结构进行图像分割任务。

步骤S101,将待识别图片输入至分割模型中,输出概率矩阵。

在本发明实施例中,待识别图片中包含有三维立体对象的对象信息,分割模型用于对待识别图片各像素点进行分割,概率矩阵中每个数字表征该像素点为三维立体对象所属位置的像素点的概率值。

其中,待识别图片可以为任何包含三维立体对象/立体物体/3D对象的图片,例如金融机构常见包含的客户面部信息的视频帧图片。

需要说明的是,本实施例提及的三维立体对象/立体物体/3D对象,可以是针对具备三维空间属性的对象/物体,也可以是对象的一个立体部分,例如,金融机构面对的客户,客户的部分肢体(如头部、脸部、上半身、手臂等)。在采集待识别图片时,可能会先采集视频,然后提取视频中携带有三维立体对象的图片,将该图片作为待识别图片,同一张待识别图片中,可以包含一个三维立体对象,也可以包含多个三维立体对象。

可选地,本实施例涉及的概率矩阵的矩阵大小与待识别图片的图片大小一致,且概率矩阵的长宽参数按照待识别图片的长宽参数设置。

可选地,步骤S101包括:在将待识别图片输入至分割模型后,采用分割模型按照预设分比率参数分割待识别图片的所有像素点;采用分割模型对像素点进行物体识别,输出该像素点为三维立体对象的概率值;整合所有像素点,生成概率矩阵。

在本实施例中,概率矩阵指的是经过分割模型后生成的结果,这个结果是一个和原始图片长宽一样大矩阵,矩阵每个数字代表着该像素点是xx物体的概率。

将待识别图片作为原始图片,输入至分割模型,然后用已经训练、优化完毕的分割模型对待识别图片进行分割处理,输出概率矩阵,该概率矩阵中可以通过数值来表征是否为三维立体对象,例如,将存在三维立体对象/3D物体的像素点的数值定义为1,背景定义为0。

步骤S102,对概率矩阵中各像素点进行整合,生成N个像素块,其中,N为正整数。

可选地,步骤S102包括:接收对待识别图片预定义的N个像素相邻范围;将每个像素相邻范围内的所有像素点进行聚合处理,生成N个像素块。

在现有技术中,获得概率矩阵以后,是设置一定阈值,然后做二值化处理。但是现有技术这种一刀切的处理方式,虽然可以满足分割物体的一般情况,但是会忽略物体的三维信息以及存在误识别的情况。

因此,本实施例中在得到概率矩阵后,采用动态阈值的方式,选取一定范围内的像素点,对其做进一步的判断以避免误识别的情况。但是在某个范围内的像素点可能非常分散且数量众多,因此还需要对其进行整合,将相邻范围的像素点进行整合后生成多个新像素块。

需要说明的是,本实施例中的像素块是由n个相邻像素组合在一起的大的像素。例如,利用聚类算法计算出阈值在0.3-0.85之间的像素块,由于这个阈值跨度较大,因此可能会出现大量满足条件的像素点且较为分散。因此需要使用一定的方式聚合像素点形成像素块,这样才能减少计算量。

可选地,将每个像素相邻范围内的所有像素点进行聚合处理时,聚合的方式可以采用任何聚类的算法,或者直接采用直方图的方式也是可以的,目的就是尽量将相邻一定距离内的像素点聚合起来形成像素块,像素块中可存在非阈值内的像素点,为的是保留原始的待识别图片的图片信息。

可选地,本实施例中将每个像素相邻范围内的所有像素点进行聚合处理的方式有很多种,例如,均值聚合、中值聚合、最大值聚合、加权平均聚合,需要根据具体的应用场景和需求选择合适的聚合方式。

步骤S103,将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息。

可选地,步骤S103包括:将像素块输入至目标分类模型中的决策树装置,输出第一分类结果,其中,第一分类结果包含该像素块所处的位置信息以及类别信息;将像素块输入至目标分类模型中的朴素贝叶斯分类装置,输出第二分类结果,其中,第二分类结果包含该像素块所处的位置信息以及类别信息;对于每个像素块,比较该像素块对应的第一分类结果与第二分类结果;基于比较结果,输出该像素块所处的位置信息以及类别信息。

其中,位置信息包括但不限于:以待识别图片的顶角点为坐标原始点,建立坐标系后,确定的像素块坐标信息,或者,三维立体对象的任一标志点作为坐标原始点,建立坐标系后,确定的像素块坐标信息。

其中,类别信息可以包括:背景类别、对象类别、边缘类别,实现三分类操作。本实施例中,对新生成的多个像素块输入具有三分类的决策树以及朴素贝叶斯分类装置进行分类,这里三分类指的是三维立体对象/物体和背景边缘、三维立体对象/物体内以及背景。二者结果取交集,需要二者的结果完全一致才能作出判断。

决策树以及朴素贝叶斯分类得到三个类别,一般来说分割算法会因为光照、拍摄角度等影响导致有些地方误识别,而本发明这里增加的分类算法就是为了解决这个问题,对应三维立体对象/物体内以及背景内两个分类。而处于三维立体对象/物体和背景边缘的部分则是本发明对于物体景深的判断的一个重要依据,物体边缘往往是因为对光反射的不同才有了阴影,而阴影在传统分割模型一刀切的方式下会被忽略出现边缘凹凸不平的情况。因此对边缘的判断对获取物体景深尤为关键。

可选地,基于比较结果,输出该像素块所处的位置信息以及类别信息的步骤,包括:在比较结果指示第一分类结果与第二分类结果一致的情况下,输出该像素块所处的位置信息以及类别信息;或者,在比较结果指示第一分类结果与第二分类结果不相同的情况下,扩展该像素块的像素相邻范围;执行将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息的步骤,得到新的比较结果;在新的比较结果指示该像素块的第一分类结果与第二分类结果相同的情况下,输出该像素块所处的位置信息以及类别信息。

本实施例中采用两个分类算法进行分类,目的为了相互印证,即二者分出来的分类概率需要一致/概率接近才能决定是否采用该分类结果,对于两个算法分类完全不同的时候则需要扩大像素块的面积再次进行分类直到二者分类一致为止。

步骤S104,基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片。

其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。

可选地,步骤S104包括:在位置信息以及类别信息指示像素块处于对象与背景边缘的情况下,对该像素块填充第一标识颜色;在位置信息以及类别信息指示像素块处于三维立体对象的对象内部的情况下,对该像素块填充第二标识颜色;在位置信息以及类别信息指示像素块处于图片背景内部的情况下,对该像素块填充第三标识颜色,其中,第一标识颜色、第二标识颜色和第三标识颜色互不相同。

本实施例中对于填充颜色自行定义,并不做具体限制,例如,第一标识颜色为灰色,第二标识颜色为白色,第三标识颜色为黑色,通过灰黑白进行三色渐变标识。

可选的,本实施例在进行颜色填充处理后,根据后判断结果以及分割结果生成带渐变效果的分割结果。

同时,本实施例在进行颜色填充处理后,还可以将已填充颜色的像素块填充至预先生成的概率矩阵中。

通过上述实施例,不仅不需要对现有影像采集装置进行升级,仅需要通过软件层面进行操作便可以完成对景深的获取,对于目前金融机构常见的客户脸部识别(检测是否使用照片,真实人脸存在景深信息),可以利用本发明实施例生成的最终分割结果判定物体景深实现对人脸的检测。

下面结合一种具体的实施方式来说明本发明。

图2是根据本发明实施例的一种基于语义的图像分割训练方法的总流程,如图2所示,包括:

S0:将待识别图片输入预先训练好的分割模型中,获得分割后的概率矩阵。

其中,待识别图片可以为任何包含立体物体/三维立体对象的图片,例如,金融机构常见的客户面部信息。

本实施例提及的概率矩阵指的是经过分割模型后生成的结果,这个结果是一个和原始图片长宽一样大矩阵,矩阵中每个数字代表着该像素点是xx物体的概率。

将待识别图片作为原始图像,将原始图像作为模型input,label就是目标矩阵,对于物体内的数值为1,背景为0,使用过图片可视化展示就是除物体是白色外,背景是黑色的图片。

S1:将概率矩阵中一定阈值周围的像素输入决策树以及朴素贝叶斯模型进行判断,获得判断结果。

本发明实施例采用动态阈值的方式,选取一定范围内的像素点对其做进一步的判断以避免误识别的情况。但是在某个范围内的像素点可能非常分散且数量众多,因此还需要对其进行整合,将相邻范围的像素点进行整合后生成一个n*n的新像素块,例如进行分割后的手指信息,某个范围代表了手指和背景的分界线,且这附近有50个像素都满足阈值,因此可以选取包含这50个像素的区域生成新的像素块n*n,n是动态变化的。

对新生成的多个像素块输入具有三分类的决策树以及朴素贝叶斯算法装置,以进行分类处理,这里三分类指的是物体和背景边缘、物体内以及背景。二者结果取交集,需要二者的结果完全一致才能作出判断。

S2:根据后判断结果以及分割结果生成带渐变效果的分割结果。

经过分类模型处理后,可以得到不同像素块具体处于物体与背景的位置信息,而后对像素块在原始分割的概率矩阵进行处理,若像素块处于边缘交接处,则将结果使用不同程度的灰色表示(根据概率调节灰色深浅),若像素块处于物体内,则用白色表示,若在背景里则采用黑色表示。

图3是根据本发明实施例的一种基于语义的图像分割方法的流程图,如图3所示,该图像分割方法包括:

S21:将待识别图片输入预先训练好的分割模型中,获得分割后的概率矩阵。

S22:利用聚类算法计算出阈值在0.3-0.85之间的像素块。

由于这个阈值跨度较大,因此可能会出现大量满足条件的像素点且较为分散。因此需要使用一定的方式聚合像素点形成像素块,这样才能减少计算量。

需要说明的是,聚合的方式可以采用任何聚类的算法,或者直接采用直方图的方式也是可以的,目的就是尽量将相邻一定距离内的像素点聚合起来形成像素块,像素块中可存在非阈值内的像素点,为的是保留原始图像的信息。

S23:将像素块分别输入训练好的决策树以及朴素贝叶斯模型获得像素块的分类。

决策树以及朴素贝叶斯算法分类有三个,这里三分类指的是物体和背景边缘、物体内以及背景内。一般来说分割算法会因为光照、拍摄角度等影响导致有些地方误识别,而本发明实施例这里增加的分类算法就是为了解决这个问题,对应物体内以及背景内两个分类。

处于物体和背景边缘的部分,则是本发明实施例对于物体景深的判断的一个重要依据,物体边缘往往是因为对光反射的不同才有了阴影,而阴影在传统分割模型一刀切的方式下会被忽略出现边缘凹凸不平的情况,因此对边缘的判断对获取物体景深尤为关键。

这里用了两个分类算法进行分类目的为了相互印证,即二者分出来的分类概率需要接近才能决定是否采用哪个分类,对于两个算法分类完全不同的时候则需要扩大像素块的面积再次进行分类直到二者分类一致为止。

S24:根据S23的两个算法对像素块的分类对像素块处理。

若像素块处于边缘交接处,则将结果使用不同程度的灰色表示(根据概率调节灰色深浅),若像素块处于物体内,则用白色表示,若在背景里则采用黑色表示。

S25:将像素块填充至已生成的概率矩阵中,得到颜色渐变图像。

目前对物体景深的识别都是采用增加硬件的方式直接获取物体景深信息,虽然这样做获取的景深信息更准确,但是会增加硬件成本且使用不方便。本发明实施例对此进行改进,提出了基于图像分割的物体3D形状识别策略,充分利用分割模型识别出来的概率矩阵,结合常规机器学习擅长的一维矩阵分类,对图像分割中可能存在光线影响的地方进行修正,从而获取物体景深信息。

本发明的后处理方式,不仅不需要对现有影像采集装置进行升级,仅需要通过软件层面进行操作便可以完成对景深的获取,对于目前金融机构常见的客户脸部识别(检测是否使用照片,真实人脸存在景深信息),可以利用本发明实施例生成的最终分割结果判定物体景深实现对人脸的检测。

下面结合另一实施例进行详细说明。

实施例二

本实施例中提供的一种基于图像分割的对象识别装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。

图4是根据本发明实施例的一种可选的基于图像分割的对象识别装置的示意图,如图4所示,该基于图像分割的对象识别装置可以包括:图片输入单元40,像素整合单元41,像素块输入单元42,识别单元43。

其中,图片输入单元40,用于将待识别图片输入至分割模型中,输出概率矩阵,其中,待识别图片中包含有三维立体对象的对象信息,分割模型用于对待识别图片各像素点进行分割,概率矩阵中每个数字表征该像素点为三维立体对象所属位置的像素点的概率值;

像素整合单元41,用于对概率矩阵中各像素点进行整合,生成N个像素块,其中,N为正整数;

像素块输入单元42,用于将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息;

识别单元43,用于基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。

上述基于图像分割的对象识别装置,可以通过图片输入单元40将待识别图片输入至分割模型中,由分割模型对待识别图片各像素点进行分割,输出概率矩阵,概率矩阵中每个数字表征该像素点为三维立体对象所属位置的像素点的概率值,通过像素整合单元41对概率矩阵中各像素点进行整合,生成N个像素块,通过像素块输入单元42将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息,通过识别单元43基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。在该实施例中,可以充分利用分割模型识别出来的概率矩阵,结合常规机器学习的分类模型,识别各图片像素位置的信息,获取图片中三维立体对象的景深信息,区分出三维立体对象、背景以及边缘信息,仅需要通过图片分割识别软件/系统便可以完成对景深的获取,无需额外增加硬件设备,降低成本,从而解决相关技术中在进行三维立体形状的图像分割识别时,需要额外增加硬件设备,成本增加的技术问题。

可选地,分割模型是预先训练得到的,在训练分割模型时,使用模块包括:获取模块,用于获取金融机构的业务端在历史时间段中采集的对象图片集合以及对象分割结果,其中,对象图片集合中包含M张涉及历史三维立体对象的图片,三维立体对象包含T个使用业务端的业务处理对象和/或P个客户对象,对象分割结果包含对每张涉及历史三维立体对象的图片进行对象分割后得到的对象分割结果,M、T和P为大于等于2的整数;生成模块,用于基于对象图片集合以及对象分割结果,生成训练集以及验证集;训练模块,用于采用训练集对初始网络模型进行训练,其中,初始网络模型中包含:输入层、激活函数、损失函数、输出层,输入层用于输入图片,激活函数以及损失函数用于调整图片中各历史三维立体对象的分割网络以及网络权限参数,输出层用于输出对象分割结果;验证模块,用于在训练集中的所有图片已经全部输入完毕,采用验证集对初始网络模型进行分割相似度验证;确认模块,用于在初始网络模型对输入的图片进行对象分割后得到的对象,与对象分割结果中的分割对象之间的相似度超出预设相似度阈值的情况下,确认训练完毕,输出分割模型。

可选地,图片输入单元包括:分割模块,用于在将待识别图片输入至分割模型后,采用分割模型按照预设分比率参数分割待识别图片的所有像素点;识别模块,用于采用分割模型对像素点进行物体识别,输出该像素点为三维立体对象的概率值;整合模块,用于整合所有像素点,生成概率矩阵。

可选地,概率矩阵的矩阵大小与待识别图片的图片大小一致,且概率矩阵的长宽参数按照待识别图片的长宽参数设置。

可选地,像素整合单元包括:第一接收模块,用于接收对待识别图片预定义的N个像素相邻范围;聚合处理模块,用于将每个像素相邻范围内的所有像素点进行聚合处理,生成N个像素块。

可选地,像素块输入单元包括:第一输入模块,用于将像素块输入至目标分类模型中的决策树装置,输出第一分类结果,其中,第一分类结果包含该像素块所处的位置信息以及类别信息;第二输入模块,用于将像素块输入至目标分类模型中的朴素贝叶斯分类装置,输出第二分类结果,其中,第二分类结果包含该像素块所处的位置信息以及类别信息;比较模块,用于对于每个像素块,比较该像素块对应的第一分类结果与第二分类结果;输出模块,用于基于比较结果,输出该像素块所处的位置信息以及类别信息。

可选地,输出模块包括:第一输出子模块,用于在比较结果指示第一分类结果与第二分类结果一致的情况下,输出该像素块所处的位置信息以及类别信息;或者,扩展子模块,用于在比较结果指示第一分类结果与第二分类结果不相同的情况下,扩展该像素块的像素相邻范围;执行子模块,用于执行将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息的步骤,得到新的比较结果;第二输出子模块,用于在新的比较结果指示该像素块的第一分类结果与第二分类结果相同的情况下,输出该像素块所处的位置信息以及类别信息。

可选地,识别单元包括:第一填充模块,用于在位置信息以及类别信息指示像素块处于对象与背景边缘的情况下,对该像素块填充第一标识颜色;第二填充模块,用于在位置信息以及类别信息指示像素块处于三维立体对象的对象内部的情况下,对该像素块填充第二标识颜色;第三填充模块,用于在位置信息以及类别信息指示像素块处于图片背景内部的情况下,对该像素块填充第三标识颜色,其中,第一标识颜色、第二标识颜色和第三标识颜色互不相同。

上述的基于图像分割的对象识别装置还可以包括处理器和存储器,上述图片输入单元40,像素整合单元41,像素块输入单元42,识别单元43等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现基于图像分割的三维立体对象识别,基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。

上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:将待识别图片输入至分割模型中,输出概率矩阵,其中,待识别图片中包含有三维立体对象的对象信息,分割模型用于对待识别图片各像素点进行分割,概率矩阵中每个数字表征该像素点为三维立体对象所属位置的像素点的概率值;对概率矩阵中各像素点进行整合,生成N个像素块,其中,N为正整数;将像素块输入至目标分类模型,输出该像素块所处的位置信息以及类别信息;基于每个像素块所处的位置信息以及类别信息,对像素块进行颜色填充处理,并基于所有像素块的颜色填充结果输出目标分割图片,其中,目标分割图片中包含:三维立体对象、图片背景、对象与背景边缘的识别结果。

根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的基于图像分割的对象识别方法。

根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项的基于图像分割的对象识别方法。

图5是根据本发明实施例的一种用于图像分割的对象识别方法的电子设备(或移动设备)的硬件结构框图。如图5所示,电子设备可以包括一个或多个(图5中采用502a、502b,……,502n来示出)处理器502(处理器502可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器504。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 基于步态的身份识别方法、装置、电子设备
  • 基于栈式稀疏自编码器的目标识别方法、装置及电子设备
  • 基于街景的店铺识别方法、装置、电子设备及存储介质
  • 基于大数据分析的非法用户识别方法及装置、电子设备
  • 基于光线信息渲染虚拟对象的方法、装置及电子设备
  • 基于图像识别模型的对象识别方法、装置和电子设备
  • 基于视频的对象识别方法、装置及电子设备
技术分类

06120116487844