掌桥专利:专业的专利平台
掌桥专利
首页

一种图像识别方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 09:33:52


一种图像识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域,具体涉及一种图像识别方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的快速发展,人工智能应用的领域越来越广泛,例如,可以通过人工智能对图像进行识别,以对图像中的细胞核进行识别为例,目前,在对图像中癌症的细胞核进行识别的过程中,首先通过样本图像对识别模型进行的训练,在对识别模型进行训练时,一般是通过识别模型提取样本图像的特征信息,并基于特征信息预测样本图像中细胞核的类别,将预测得到的类别与真实的类别进行收敛,与对识别模型进行训练,的带训练后的识别模型。然后采集包含细胞核的图像,通过训练后的识别模型对该图像中的细胞核进行识别。由于在对识别模型进行训练时,只是简单的进行预测并收敛,降低了对识别模型的训练的准确性和可靠性,从而降低了训练后的识别模型对该图像中细胞核识别的准确性。

发明内容

本申请实施例提供一种图像识别方法、装置、计算机设备及存储介质,可以提高对识别模型训练的准确性和可靠性,从而提高训练后识别模型对图像中目标对象识别的准确性。

为解决上述技术问题,本申请实施例提供以下技术方案:

本申请实施例提供了一种图像识别方法,包括:

获取包含目标对象的第一图像和第二图像,所述第一图像为标注有所述目标对象的目标类别和目标位置的图像;

通过初始识别模型对所述第一图像中的所述目标对象进行类别和位置预测,得到第一预测类别和第一预测位置;

将所述第一预测类别与所述目标类别进行收敛,以及将所述第一预测位置与所述目标位置进行收敛,以调整所述初始识别模型的第一参数,以及通过所述初始识别模型对所述第一图像和所述第二图像进行对抗学习,以调整所述初始识别模型的第二参数,得到候选识别模型;

通过所述候选识别模型获取所述第二图像中所述目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置;

将所述第二图像输入所述候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;

将所述第二预测类别与所述伪目标类别进行收敛,以及将所述第二预测位置与所述伪目标位置进行收敛,以对所述候选识别模型进行训练,得到训练后识别模型,以通过所述训练后识别模型对图像中目标对象的类别和位置进行识别。

根据本申请的一个方面,还提供了一种图像识别装置,包括:

第一获取单元,用于获取包含目标对象的第一图像和第二图像,所述第一图像为标注有所述目标对象的目标类别和目标位置的图像;

第一预测单元,用于通过初始识别模型对所述第一图像中的所述目标对象进行类别和位置预测,得到第一预测类别和第一预测位置;

调整单元,用于将所述第一预测类别与所述目标类别进行收敛,以及将所述第一预测位置与所述目标位置进行收敛,以调整所述初始识别模型的第一参数,以及通过所述初始识别模型对所述第一图像和所述第二图像进行对抗学习,以调整所述初始识别模型的第二参数,得到候选识别模型;

第二获取单元,用于通过所述候选识别模型获取所述第二图像中所述目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置;

第二预测单元,用于将所述第二图像输入所述候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;

训练单元,用于将所述第二预测类别与所述伪目标类别进行收敛,以及将所述第二预测位置与所述伪目标位置进行收敛,以对所述候选识别模型进行训练,得到训练后识别模型,以通过所述训练后识别模型对图像中目标对象的类别和位置进行识别。

根据本申请的一个方面,还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种图像识别方法。

根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种图像识别方法。

本申请实施例可以获取包含目标对象的第一图像和第二图像,第一图像为标注有目标对象的目标类别和目标位置的图像;然后可以通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置;以及将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。其次,可以通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置;将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;此时可以将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型,以通过训练后识别模型对图像中目标对象的类别和位置进行识别。该方案可以基于第一图像预测得到的第一预测类别和第一预测位置,以及基于第一图像和第二图像的对抗学习,对初始识别模型进行训练,得到候选识别模型,以及基于第二图像预测得到的伪目标类别、伪目标位置、第二预测类别和第二预测位置对候选识别模型进行训练,得到训练后识别模型,提高了对识别模型训练的准确性和可靠性,从而提高了训练后识别模型对图像中目标对象识别的准确性。实现了利用已有目标类别和目标位置的图像的第一图像(即有标签的图像),通过无监督适应的迁移学习,将将识别模型在有标签的第一图像上学习的知识迁移运用到无标签的第二图像对目标对象识别上,从而达到对包含目标对象的无标签的图像进行识别的效果,提高了对第二图像(即无标签的图像)且有差异的图像进行分类的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像识别方法应用的场景示意图;

图2是本申请实施例提供的图像识别方法的流程示意图;

图3是本申请实施例提供的识别模型结构的示意图;

图4是本申请实施例提供的图像识别方法的另一流程示意图;

图5是本申请实施例提供的细胞核识别的示意图;

图6是本申请实施例提供的细胞核识别的另一示意图;

图7是本申请实施例提供的细胞核识别的另一示意图;

图8是本申请实施例提供的细胞核识别的另一示意图;

图9是本申请实施例提供的图像识别装置的示意图;

图10是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种图像识别方法、装置、计算机设备及存储介质。

请参阅图1,图1为本申请实施例所提供的图像识别方法应用的场景示意图,该图像识别方法应用可以包括图像识别装置,该图像识别装置具体可以集成在服务器或终端等计算机设备中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、显微镜、相机或者可穿戴设备等。

其中,计算机设备可以用于可以获取包含目标对象的第一图像和第二图像,第一图像为标注有目标对象的目标类别和目标位置的图像;然后可以通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置;例如,可以通过初始识别模型对第一图像进行特征提取,得到第一图像对应的第一特征信息,通过初始识别模型基于第一特征信息对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置。然后可以将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。

其次,可以通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置;例如,可以通过候选识别模型对第二图像进行特征提取,得到第三特征信息,基于第三特征信息对第二图像中的目标对象进行类别和位置预测,得到至少一个候选预测类别及其对应的分值和至少一个候选预测位置及其对应的分值;从候选预测类别中筛选出分值最高的类别作为第二图像中目标对象对应的伪目标类别,以及从候选预测位置中筛选出分值最高的位置作为第二图像中目标对象对应的伪目标位置。

以及将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;此时可以将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型,以通过训练后识别模型对图像中目标对象的类别和位置进行识别。例如,可以获取包含目标对象的待识别图像,通过训练后识别模型对待识别图像进行特征提取,得到目标特征信息,通过训练后识别模型基于目标特征信息识别待识别图像中的目标对象的类别和位置。实现了利用已有目标类别和目标位置的图像的第一图像(即有标签的图像),通过无监督适应的迁移学习,将将识别模型在有标签的第一图像上学习的知识迁移运用到无标签的第二图像对目标对象识别上,从而达到对包含目标对象的无标签的图像进行识别的效果,提高了对第二图像(即无标签的图像)且有差异的图像进行分类的准确率。提高了对识别模型训练的准确性和可靠性,从而提高了训练后识别模型对图像中目标对象识别的准确性。

需要说明的是,图1所示的图像识别方法应用的场景示意图仅仅是一个示例,本申请实施例描述的图像识别方法应用以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着图像识别方法应用的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。

在本实施例中,将从图像识别装置的角度进行描述,该图像识别装置具体可以集成在服务器或终端等计算机设备中。

请参阅图2,图2是本申请一实施例提供的图像识别方法的流程示意图。该图像识别方法可以包括:

S101、获取包含目标对象的第一图像和第二图像,第一图像为标注有目标对象的目标类别和目标位置的图像。

其中,目标对象可以包括细胞核、动物(例如猫或狗等)、植物、或物品(例如首饰、车辆或车牌等)等,当然,目标对象还可以根据实际需要进行灵活设置,具体内容在此处不做限定。第一图像可以是包含目标对象且标注有目标对象的目标类别和目标位置的图像,第二图像可以是包含目标对象且未标注有目标对象的目标类别和目标位置的图像,第一图像可以包括一张或多张,第二图像可以包括一张或多张。目标位置可以是目标对象在图像中的坐标位置或区域等,当目标对象为细胞核时,目标类别可以包括炎症细胞、结缔组织细胞、凋亡细胞、癌细胞和上皮细胞等,其中,炎症细胞包括淋巴细胞和巨噬细胞等,结缔组织细胞包括成纤维细胞、肌肉细胞、以及内皮细胞等。当目标对象为动物时,目标类别可以包括猫或狗等,其中,狗的类别可以包括柯基、博美、金毛、阿拉斯加、贵宾犬、边牧以及柴犬等。

第一图像和第二图像的获取方式可以根据实际需要进行灵活设置,例如,计算机设备可以从本地数据库中获取预先存储的第一图像和第二图像,或者,计算机设备可以从服务器上下载第一图像和第二图像等。第一图像和第二图像可以是显微镜采集得到图像,该图像可以是通过苏木精—伊红染色法(hematoxylin-eosin staining,HE)染色得到的H&E染色图像。或者,第一图像和第二图像可以是通过显微镜、手机、相机或摄像头采集得到的图像等。

S102、通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置。

其中,初始识别模型为未经训练的识别模型,该识别模型的结构和类型等可以根据实际需要进行灵活设置,例如,如图3所示,该识别模型可以包括低层特征值提取模块(low-level feature extractor)、对象分割和分类模块(segmentation andclassification module)以及域适应迁移学习模块(domain adaptation module)等,该对象分割和分类模块可以简称为对象分类模块,其中,低层特征值提取模块可以包括由四个残差卷积模块组成的编码器,对象分割和分类模块可以包括二分类任务分支网络、位置预测任务分支网络和类别分类任务分支网络等,以及域适应迁移学习模块可以包括生成器和由三层卷积网络组成的判别器等,以下将对识别模型的各个模块对图像识别的过程进行详细说明。

在一实施方式中,通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置可以包括:通过初始识别模型对第一图像进行特征提取,得到第一图像对应的第一特征信息;通过初始识别模型基于第一特征信息对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置。

具体地,首先通过初始识别模型对第一图像进行特征提取,得到第一图像对应的第一特征信息。在一实施方式中,初始识别模型包括低层特征值提取模块,低层特征值提取模块包括由四个残差卷积模块组成的编码器,通过初始识别模型对第一图像进行特征提取,得到第一图像对应的第一特征信息可以包括:依次通过编码器的四个残差卷积模块对第一图像进行卷积操作,以提取第一图像对应的第一特征信息。

为了提高第一特征信息提取的可靠性,可以将第一图像输入初始识别模型中低层特征值提取模块的编码器内包含的四个残差卷积模块,依次通过四个残差卷积模块对第一图像进行卷积操作,以提取第一图像对应的第一特征信息。

然后,可以通过初始识别模型基于第一特征信息对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置。在一实施方式中,初始识别模型包括对象分类模块,对象分类模块包括二分类任务分支网络、位置预测任务分支网络和类别分类任务分支网络,通过初始识别模型基于第一特征信息对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置可以包括:通过二分类任务分支网络基于第一特征信息对第一图像中的目标对象进行二分类,得到二分类结果;通过位置预测任务分支网络基于第一特征信息和二分类结果,对第一图像中的目标对象的边界到目标对象中心的水平方向和垂直方向距离进行预测,得到目标对象在第一图像中的第一预测位置;通过类别分类任务分支网络基于第一特征信息和二分类结果,对第一图像中的目标对象进行类别预测,得到目标对象的第一预测类别。

为了提高第一预测类别和第一预测位置获取的便捷性和准确性,可以通过初始识别模型中对象分类模块的二分类任务分支网络基于第一特征信息对第一图像中的目标对象进行二分类,得到二分类结果,其中,二分类结果可以包括目标对象与非目标对象的二分类,即第一图像中每个像素点是否是目标对象(例如细胞核)的结果,例如,若第一图像中某个像素点是目标对象所在区域内的像素点,则输出该像素点对应的二分类结果为1;若第一图像中某个像素点不是目标对象所在区域内的像素点,则输出该像素点对应的二分类结果为0。

以及,通过初始识别模型中对象分类模块的位置预测任务分支网络基于第一特征信息和二分类结果,识别第一图像中的目标对象的边界和中心等,以对第一图像中的目标对象的边界到目标对象中心的水平方向和垂直方向距离进行预测,得到目标对象在第一图像中的第一预测位置,第一预测位置可以包括目标对象在第一图像中所在的区域,该区域内可以包括一个或多个像素点。

以及,通过初始识别模型中对象分类模块的类别分类任务分支网络基于第一特征信息和二分类结果,对第一图像中的目标对象进行类别预测,得到目标对象的第一预测类别。其中,每个任务对应一个分支网络,每个分支有一个用于执行任务的解码器和损失函数。三个任务的解码器的结构可以相同,可以单独地更新各自的网络参数,该对象分类模块的总损失函数可以为三个分支网络的损失函数之和,训练时可以同时更新三个分支网络的网络参数。

需要说明的是,在对第一图像中的目标对象进行类别预测时,可以得到一个或多个候选预测类别及其对应的分值(即概率分值),当候选预测类别为一个时,可以直接将该候选预测类别作为目标对象的第一预测类别,当候选预测类别为多个时,可以从多个候选预测类别中筛选出分值最大的候选预测类别作为目标对象的第一预测类别。

S103、将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。

例如,可以通过损失函数(该损失函数的类型可以根据实际需要进行灵活设置)将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,使得初始识别模型可以进行有监督地训练学习。以及,通过初始识别模型对第一图像和第二图像进行对抗学习(adversarial training),以调整初始识别模型的第二参数,使得初始识别模型学习具有域不变性的特征,得到候选识别模型。

在一实施方式中,第一图像为源域图像,第二图像为目标域图像,源域图像为标注有目标对象的目标类别和目标位置的图像,目标域图像为未标注有目标对象的目标类别和目标位置的图像;初始识别模型包括域适应迁移学习模块,域适应迁移学习模块包括梯度反转层;将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型可以包括:通过初始识别模型对第二图像进行特征提取,得到第二图像对应的第二特征信息;基于二分类结果、第一预测位置以及第一预测类别构建总损失函数;通过总损失函数将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数;以及,通过域适应迁移学习模块识别第一特征信息和第二特征信息所属的源域图像或目标域图像,得到识别结果,通过梯度反转层对识别结果进行梯度反转,以学习域不变性的特征值,基于域不变性的特征值对第一图像和第二图像的类型进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。

为了提高对识别模型训练的精准性,可以将图像定义为两个不同域的图像,即将图像分为两组,一组为源域(source domain)图像,另一组为目标域(target domain)图像,源域图像为包含目标对象且标注有目标对象的目标类别和目标位置的图像(即有标签的图像),目标域图像为包含目标对象且未标注有目标对象的目标类别和目标位置的图像(即无标签的图像)。通过初始识别模型的低层特征值提取模块对第二图像进行特征提取,得到第二图像对应的第二特征信息,该低层特征值提取模块的低层特征提取主要学习的是低层的语义信息,如局部的外貌和颜色等。例如,可以将第二图像输入初始识别模型中低层特征值提取模块的编码器内包含的四个残差卷积模块,依次通过四个残差卷积模块对第二图像进行卷积操作,以提取第二图像对应的第二特征信息。

基于初始识别模型中对象分类模块的二分类任务分支网络的二分类结果、位置预测任务分支网络预测得到的第一预测位置以及类别分类任务分支网络预测得到的第一预测类别构建总损失函数,即该对象分类模块的总损失函数可以为三个分支网络的损失函数之和,该总损失函数的类型可以根据实际需要进行灵活设置。然后可以通过总损失函数将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数。

以及,通过域适应迁移学习模块识别第一特征信息和第二特征信息所属的源域图像或目标域图像,得到识别结果,即识别结果可以包括第一特征信息来源于源域的第一图像,或者第二特征信息来源于目标域的第二图像。此时可以通过梯度反转层(GradientReversal Layer,GRL)对识别结果进行梯度反转,以学习域不变性的特征值,基于域不变性的特征值对第一图像和第二图像的类型进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。采用对抗学习(adversarial training)的方法可以减少在低层特征信息的分布的差异,减少低层特征信息的差异可以减少模型因为图像整体风格上的不同而导致的差异。其中,对抗学习一般由一个生成器和一个判别器组成,在该任务中,生成器是底层特征值提取模块,目标是使判别器无法判断特征信息是来自于源域或目标域,以达到学习域不变性的特征值。相反,判别器的目标是判断特征信息来自于源域或目标域,可以由三层卷积网络组成,对抗的过程由梯度反转层实现,即反转生成器中由判别器生成的梯度。

例如,以目标对象为细胞核为例,不同癌症类型(即类别)的H&E染色图像中不同细胞核的形态存在较大的差异,因此,可以将不同的癌症图像认为是不同的域。由于此差异的存在,如果将在一种有标签的癌症图像(源域)有监督地学习下得到的模型,直接应用在其他无标签的癌症图像(目标域)上,获得的分割和分类的准确率大幅度下降,因此本实施例中通过无监督域适应的迁移学习方法,将识别模型在有标签的癌症类型上学习的知识迁移运用到无标签的癌症类型上,从而达到对无标签的癌症类型的细胞核进行分割和分类的效果。

S104、通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置。

其中,伪目标类别和伪目标位置可以是伪标签(pseudo labels),以便识别模型可以通过伪标签进行自学习。伪目标类别可以是第二图像中目标对象对应的分值最高的类别,伪目标位置可以是第二图像中目标对象对应的分值最高的位置。

在一实施方式中,通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位可以包括:通过候选识别模型对第二图像进行特征提取,得到第三特征信息;基于第三特征信息对第二图像中的目标对象进行类别和位置预测,得到至少一个候选预测类别及其对应的分值和至少一个候选预测位置及其对应的分值;从候选预测类别中筛选出分值最高的类别作为第二图像中目标对象对应的伪目标类别,以及从候选预测位置中筛选出分值最高的位置作为第二图像中目标对象对应的伪目标位置。

具体地,可以将第二图像输入候选识别模型中低层特征值提取模块的编码器内包含的四个残差卷积模块,依次通过四个残差卷积模块对第二图像进行卷积操作,以提取第二图像对应的第三特征信息。

基于第三特征信息对第二图像中的目标对象进行类别和位置预测,得到至少一个候选预测类别及其对应的分值和至少一个候选预测位置及其对应的分值。例如,可以通过候选识别模型中对象分类模块的二分类任务分支网络基于第二特征信息对第二图像中的目标对象进行二分类,得到二分类结果,其中,二分类结果可以包括目标对象与非目标对象的二分类,即第二图像中每个像素点是否是目标对象(例如细胞核)的结果,例如,若第二图像中某个像素点是目标对象所在区域内的像素点,则输出该像素点对应的二分类结果为1;若第二图像中某个像素点不是目标对象所在区域内的像素点,则输出该像素点对应的二分类结果为0。

以及,通过候选识别模型中对象分类模块的位置预测任务分支网络基于第二特征信息和二分类结果,识别第二图像中的目标对象的边界和中心等,以对第二图像中的目标对象的边界到目标对象中心的水平方向和垂直方向距离进行预测,得到目标对象在第二图像中的至少一个候选预测位置及其对应的分值,至少一个候选预测位置可以包括目标对象在第二图像中所在的区域,该区域内可以包括一个或多个像素点。以及,通过候选识别模型中对象分类模块的类别分类任务分支网络基于第二特征信息和二分类结果,对第二图像中的目标对象进行类别预测,得到目标对象的至少一个候选预测类别及其对应的分值。

此时,可以从候选预测类别中筛选出分值最高的类别作为第二图像中目标对象对应的伪目标类别,以及从候选预测位置中筛选出分值最高的位置作为第二图像中目标对象对应的伪目标位置,从而提高了伪目标位置和伪目标类别获取的便捷性和准确性。

S105、将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置。

在一实施方式中,将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置可以包括:通过候选识别模型对第二图像进行特征提取,得到第二图像对应的第四特征信息;通过候选识别模型基于第四特征信息,对第二图像中的目标对象进行二分类、以及类别和位置预测,得到目标对象的第二预测类别和第二预测位置。

具体地,可以将第二图像输入候选识别模型中低层特征值提取模块的编码器内包含的四个残差卷积模块,依次通过四个残差卷积模块对第二图像进行卷积操作,以提取第二图像对应的第四特征信息。然后可以通过候选识别模型中对象分类模块的二分类任务分支网络基于第四特征信息对第二图像中的目标对象进行二分类,得到二分类结果,其中,二分类结果可以包括目标对象与非目标对象的二分类,即第二图像中每个像素点是否是目标对象(例如细胞核)的结果。

以及,通过候选识别模型中对象分类模块的位置预测任务分支网络基于第四特征信息和二分类结果,识别第二图像中的目标对象的边界和中心等,以对第二图像中的目标对象的边界到目标对象中心的水平方向和垂直方向距离进行预测,得到目标对象在第二图像中的第二预测位置,第二预测位置可以包括目标对象在第二图像中所在的区域,该区域内可以包括一个或多个像素点。以及,通过候选识别模型中对象分类模块的类别分类任务分支网络基于第四特征信息和二分类结果,对第二图像中的目标对象进行类别预测,得到目标对象的第二预测类别。

S106、将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型,以通过训练后识别模型对图像中目标对象的类别和位置进行识别。

在一实施方式中,将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型可以包括:通过第一损失函数对第二预测类别与伪目标类别进行收敛,得到第一损失值;通过第二损失函数对第二预测位置与伪目标位置进行收敛,得到第二损失值;基于第一损失值和第二损失值构建目标总损失函数,通过目标总损失函数调整候选识别模型的参数,并将调整参数后的候选识别模型作为初始识别模型,返回执行通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置的操作,直至目标总损失函数的损失值最小,得到训练后识别模型。

其中,第一损失函数、第二损失函数和目标总损失函数的具体类型可以根据实际需要进行灵活设置,具体内容在此处不做限定。例如,可以通过第一损失函数对第二预测类别与伪目标类别进行收敛,得到第一损失值;以及通过第二损失函数对第二预测位置与伪目标位置进行收敛,得到第二损失值;基于第一损失值和第二损失值构建目标总损失函数,以通过目标总损失函数调整候选识别模型的参数,得到调整参数后的候选识别模型。实现了基于目标域的第二图像利用伪标签(包括伪目标类别和伪目标位置)对识别模型进行微调训练,得到调整参数后的候选识别模型。

然后可以将调整参数后的候选识别模型作为初始识别模型,返回执行通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置,将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以对初始识别模型进行训练,得到候选识别模型;通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置,将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练的操作,直至目标总损失函数的损失值最小,得到训练后识别模型。

在一实施方式中,图像识别方法还可以包括:获取包含目标对象的待识别图像;通过训练后识别模型对待识别图像进行特征提取,得到目标特征信息;通过训练后识别模型基于目标特征信息识别待识别图像中的目标对象的类别和位置。

在得到训练后识别模型后,可以利用训练后识别模型对图像进行识别,例如,可以本地数据库中或服务器上获取包含目标对象的待识别图像,或者通过显微镜、手机、相机或摄像头等采集包含目标对象的待识别图像。然后,可以通过训练后识别模型对待识别图像进行特征提取,得到目标特征信息。例如,可以将待识别图像输入训练后识别模型中低层特征值提取模块的编码器内包含的四个残差卷积模块,依次通过四个残差卷积模块对待识别图像进行卷积操作,以提取待识别图像对应的目标特征信息。通过训练后识别模型基于目标特征信息识别待识别图像中的目标对象的类别和位置。例如,可以通过通过训练后识别模型的对象分类模块基于目标特征信息识别待识别图像中的目标对象的类别和位置。

本申请实施例可以获取包含目标对象的第一图像和第二图像,第一图像为标注有目标对象的目标类别和目标位置的图像;然后可以通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置;以及将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。其次,可以通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置;将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;此时可以将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型,以通过训练后识别模型对图像中目标对象的类别和位置进行识别。该方案可以基于第一图像预测得到的第一预测类别和第一预测位置,以及基于第一图像和第二图像的对抗学习,对初始识别模型进行训练,得到候选识别模型,以及基于第二图像预测得到的伪目标类别、伪目标位置、第二预测类别和第二预测位置对候选识别模型进行训练,得到训练后识别模型,提高了对识别模型训练的准确性和可靠性,从而提高了训练后识别模型对图像中目标对象识别的准确性。实现了利用已有目标类别和目标位置的图像的第一图像(即有标签的图像),通过无监督适应的迁移学习,将将识别模型在有标签的第一图像上学习的知识迁移运用到无标签的第二图像对目标对象识别上,从而达到对包含目标对象的无标签的图像进行识别的效果,提高了对第二图像(即无标签的图像)且有差异的图像进行分类的准确率。

根据上述实施例所描述的方法,以下将举例作进一步详细说明。

本实施例以图像识别装置集成在智能显微镜为例,以目标对象为细胞核为例,智能显微镜可以对图像中细胞核的类别和位置进行准确识别,请参阅图4,图4为本申请实施例提供的图像识别方法的流程示意图。该方法流程可以包括:

S201、获取包含细胞核的源域的第一图像和目标域的第二图像,源域的第一图像为标注有细胞核的目标类别和目标位置的图像。

其中,目标类别可以包括炎症细胞、结缔组织细胞、凋亡细胞、癌细胞和上皮细胞等,其中,炎症细胞包括淋巴细胞和巨噬细胞等,结缔组织细胞包括成纤维细胞、肌肉细胞、以及内皮细胞等。

智能显微镜可以从本地数据库中或服务器上获取预先存储的第一图像和第二图像,或者,智能显微镜可以采集细胞核对应的图像,得到第二图像,对第二图像中的细胞核的目标类别和目标位置进行标注,得到第一图像等。第一图像和第二图像可以是通过苏木精—伊红染色法(hematoxylin-eosin staining,HE)染色得到的H&E染色图像。

其中,源域内的第一图像可以为包含细胞核且标注有细胞核的目标类别和目标位置的图像(即有标签的图像),目标域内的第二图像可以为包含细胞核且未标注有细胞核的目标类别和目标位置的图像(即无标签的图像)。

S202、通过初始识别模型提取第一图像对应的第一特征信息,并基于第一特征信息获取第一图像中细胞核对应的第一预测类别和第一预测位置。

例如,如图3所示,该识别模型可以包括低层特征值提取模块(low-level featureextractor)、对象分割和分类模块(segmentation and classification module)以及域适应迁移学习模块(domain adaptation module)等,该对象分割和分类模块可以简称为对象分类模块,其中,低层特征值提取模块可以包括由四个残差卷积模块组成的编码器,对象分割和分类模块可以包括二分类任务分支网络、位置预测任务分支网络和类别分类任务分支网络等,以及域适应迁移学习模块可以包括生成器和由三层卷积网络组成的判别器等。

智能显微镜可以将第一图像输入初始识别模型中低层特征值提取模块进行卷积操作,以提取第一图像对应的第一特征信息。然后可以通过初始识别模型中对象分类模块的二分类任务分支网络基于第一特征信息对第一图像中的细胞核进行二分类,得到二分类结果,其中,二分类结果可以包括细胞核与非细胞核的二分类,即第一图像中每个像素点是否是细胞核的结果。以及,通过初始识别模型中对象分类模块的位置预测任务分支网络基于第一特征信息和二分类结果对细胞核在第一图像中位置进行识别,得到细胞核在第一图像中的第一预测位置,第一预测位置可以包括细胞核在第一图像中所在的区域,该区域内可以包括一个或多个像素点。以及,通过初始识别模型中对象分类模块的类别分类任务分支网络基于第一特征信息和二分类结果,对第一图像中的细胞核进行类别预测,得到细胞核的第一预测类别。

S203、通过初始识别模型提取第二图像对应的第二特征信息。

智能显微镜可以将第二图像输入初始识别模型中低层特征值提取模块进行卷积操作,以提取第二图像对应的第二特征信息。

S204、将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以及通过初始识别模型基于第一特征信息和第二特征信息对第一图像和第二图像进行对抗学习,以训练初始识别模型,得到候选识别模型。

智能显微镜可以基于初始识别模型中对象分类模块的二分类任务分支网络的二分类结果、位置预测任务分支网络预测得到的第一预测位置以及类别分类任务分支网络预测得到的第一预测类别构建总损失函数,即该对象分类模块的总损失函数可以为三个分支网络的损失函数之和,该总损失函数的类型可以根据实际需要进行灵活设置。然后可以通过总损失函数将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数。以及,通过域适应迁移学习模块识别第一特征信息和第二特征信息所属的源域图像或目标域图像,得到识别结果,即识别结果可以包括第一特征信息来源于源域的第一图像,或者第二特征信息来源于目标域的第二图像。此时可以通过梯度反转层(Gradient Reversal Layer,GRL)对识别结果进行梯度反转,以学习域不变性的特征值,基于域不变性的特征值对第一图像和第二图像的类型进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。

例如,以细胞核为细胞核为例,不同癌症类型(即类别)的H&E染色图像中不同细胞核的形态存在较大的差异,因此,可以将不同的癌症图像认为是不同的域。由于此差异的存在,如果将在一种有标签的癌症图像(源域)有监督地学习下得到的模型,直接应用在其他无标签的癌症图像(目标域)上,获得的分割和分类的准确率大幅度下降,因此本实施例中通过无监督域适应的迁移学习方法,将识别模型在有标签的癌症类型上学习的知识迁移运用到无标签的癌症类型上,从而达到对无标签的癌症类型的细胞核进行分割和分类的效果。

S205、通过候选识别模型提取第二图像对应的第三特征信息,基于第三特征信息获取第二图像中细胞核对应的伪目标类别和伪目标位置。

智能显微镜可以将第二图像输入候选识别模型中低层特征值提取模块进行卷积操作,以提取第二图像对应的第三特征信息。基于第三特征信息对第二图像中的细胞核进行类别和位置预测,得到至少一个候选预测类别及其对应的分值和至少一个候选预测位置及其对应的分值。例如,可以通过候选识别模型中对象分类模块的二分类任务分支网络基于第二特征信息对第二图像中的细胞核进行二分类,得到二分类结果。以及,通过候选识别模型中对象分类模块的位置预测任务分支网络基于第二特征信息和二分类结果,识别细胞核在第二图像中的位置,得到细胞核在第二图像中的至少一个候选预测位置及其对应的分值,至少一个候选预测位置可以包括细胞核在第二图像中所在的区域,该区域内可以包括一个或多个像素点。以及,通过候选识别模型中对象分类模块的类别分类任务分支网络基于第二特征信息和二分类结果,对第二图像中的细胞核进行类别预测,得到细胞核的至少一个候选预测类别及其对应的分值。此时,可以从候选预测类别中筛选出分值最高的类别作为第二图像中细胞核对应的伪目标类别,以及从候选预测位置中筛选出分值最高的位置作为第二图像中细胞核对应的伪目标位置,从而提高了伪目标位置和伪目标类别获取的便捷性和准确性。

S206、通过候选识别模型提取第二图像对应的第四特征信息,基于第四特征信息获取第二图像中细胞核的第二预测类别和第二预测位置。

智能显微镜可以将第二图像输入候选识别模型中低层特征值提取模块进行卷积操作,以提取第二图像对应的第四特征信息。然后可以通过候选识别模型中对象分类模块的二分类任务分支网络基于第四特征信息对第二图像中的细胞核进行二分类,得到二分类结果,其中,二分类结果可以包括细胞核与非细胞核的二分类,即第二图像中每个像素点是否是细胞核的结果。以及,通过候选识别模型中对象分类模块的位置预测任务分支网络基于第四特征信息和二分类结果,识别细胞核在第二图像中的位置,得到细胞核在第二图像中的第二预测位置,第二预测位置可以包括细胞核在第二图像中所在的区域,该区域内可以包括一个或多个像素点。以及,通过候选识别模型中对象分类模块的类别分类任务分支网络基于第四特征信息和二分类结果,对第二图像中的细胞核进行类别预测,得到细胞核的第二预测类别。

S207、将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型。

例如,可以通过第一损失函数对第二预测类别与伪目标类别进行收敛,得到第一损失值,以及通过第二损失函数对第二预测位置与伪目标位置进行收敛,得到第二损失值;基于第一损失值和第二损失值构建目标总损失函数,以通过目标总损失函数调整候选识别模型的参数,得到调整参数后的候选识别模型。实现了基于目标域的第二图像利用伪标签(包括伪目标类别和伪目标位置)对识别模型进行微调训练,得到调整参数后的候选识别模型。然后,可以将调整参数后的候选识别模型作为初始识别模型,返回执行通过初始识别模型对第一图像中的细胞核进行类别和位置预测,得到第一预测类别和第一预测位置的操作,直至目标总损失函数的损失值最小,得到训练后识别模型。

S208、通过训练后识别模型对待识别图像进行特征提取,得到目标特征信息,基于目标特征信息识别待识别图像中的细胞核的类别和位置。

在得到训练后识别模型后,可以利用训练后识别模型对图像中的细胞核进行识别,例如,可以通过智能显微镜采集包含细胞核的待识别图像。然后,可以通过训练后识别模型对待识别图像进行特征提取,得到目标特征信息。例如,可以将待识别图像输入训练后识别模型中低层特征值提取模块进行卷积操作,以提取待识别图像对应的目标特征信息。通过训练后识别模型基于目标特征信息识别待识别图像中的细胞核的类别和位置。例如,可以通过通过训练后识别模型的对象分类模块基于目标特征信息识别待识别图像中的细胞核的类别和位置。例如,如图5所示,对于智能显微镜采集得到的包含前列腺的细胞核的待识别图像,可以通过训练后识别模型识别得到待识别图像中癌细胞和上皮细胞等及其对应的位置。又例如,如图6所示,对于智能显微镜采集得到的包含胃的细胞核的待识别图像,可以通过训练后识别模型识别得到待识别图像中癌细胞、结缔组织细胞以及炎症细胞等,以及癌细胞、结缔组织细胞以及炎症细胞等所在的位置。又例如,如图7所示,对于智能显微镜采集得到的包含结肠的细胞核的待识别图像,可以通过训练后识别模型识别得到待识别图像中癌细胞、结缔组织细胞以及上皮细胞等,以及癌细胞、结缔组织细胞以及上皮细胞等所在的位置。又例如,如图8所示,对于智能显微镜采集得到的包含乳腺的细胞核的待识别图像,可以通过训练后识别模型识别得到待识别图像中癌细胞以及结缔组织细胞等及其对应的位置。

本申请实施例可以基于第一图像预测得到的细胞核的第一预测类别和第一预测位置,以及基于第一图像和第二图像的对抗学习,对初始识别模型进行训练,得到候选识别模型,以及基于第二图像预测得到的细胞核的伪目标类别、伪目标位置、第二预测类别和第二预测位置对候选识别模型进行训练,得到训练后识别模型,提高了对识别模型训练的准确性和可靠性,从而提高了训练后识别模型对图像中细胞核识别的准确性。实现了利用已有目标类别和目标位置的图像的第一图像(即有标签的图像),通过无监督适应的迁移学习,将将识别模型在有标签的第一图像上学习的知识迁移运用到无标签的第二图像对细胞核识别上,从而达到对包含细胞核的无标签的图像进行识别的效果,提高了对第二图像(即无标签的图像)且有差异的图像进行分类的准确率。

本实施例中将训练后识别模型从有标签的结肠癌图像迁移到18种其他无标签的癌症图像进行识别的效果,在如下表1和表2中给出了本实施例的图像识别方法在CoNSep数据库迁移到PanNuke数据库上的数据对比,其中,CoNSep数据库包含了有标签的结直肠癌的图像,PanNuke数据库中包含了18种其他无标签的癌症图像。在对识别模型训练的过程中,训练集包括了有标签的CoNSep数据和无标签的PanNuke数据,在测试的过程中,将训练后识别模型在PanNuke的测试集上进行测试。

针对分割任务(注:不区分细胞核的具体类型),评价指标选择了Dice系数、Aggregated Jaccard Index (AJI)、检测质量(Detection Quality,DQ)、分割质量(Segmentation Quality,SQ)以及全景分割质量(Panoptic Quality,PQ)等,Source Only方法指的是只使用有标签的癌症图像训练得到的模型,Ours方法指的是使用本实施例中图像识别方案提出的域适应迁移学习方法后得到的识别模型。如表1中所示,使用了域迁移方法后,各项关于分割(即识别)的评价指标都大幅度提升,这表明了本实施例中图像识别方案的在提高识别模型泛化能力的有效性。其中,表1和表2中数值均表示为准确率提升的百分比,例如,表1中Source Only方法的DQ准确率提升了46.1%,Ours方法的DQ准确率提升了60.2%。

表1 本实施例中图像识别方案在CoNSep数据库迁移到PanNuke数据库上的分类结果对比

针对细胞核分类任务(即识别任务),可以采用Hover-Ne中定义的F1分数来评估细胞核分类的效果,该分类结果如表2所示,从表2中可以看出,通过域迁移的方法,在癌细胞和上皮细胞的分类上,F1分数能够提高12%,在炎症细胞的分类上,F1分数能够提高4%,但在结缔组织细胞的分类上没有提升,该情况出现的原因可能是因为两个数据在结缔组织细胞标签的标注上存在差异。

表2 本实施例中图像识别方案在CoNSep数据库迁移到PanNuke数据库上的分类结果对比

为便于更好的实施本申请实施例提供的图像识别方法,本申请实施例还提供一种基于上述图像识别方法的装置。其中名词的含义与上述图像识别方法中相同,具体实现细节可以参考方法实施例中的说明。

请参阅图9,图9为本申请实施例提供的图像识别装置的结构示意图,其中该图像识别装置可以包括第一获取单元301、第一预测单元302、调整单元303、第二获取单元304、第二预测单元305以及训练单元306等。

其中,第一获取单元301,用于获取包含目标对象的第一图像和第二图像,第一图像为标注有目标对象的目标类别和目标位置的图像。

第一预测单元302,用于通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置。

调整单元303,用于将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。

第二获取单元304,用于通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置。

第二预测单元305,用于将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置。

训练单元306,用于将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型,以通过训练后识别模型对图像中目标对象的类别和位置进行识别。

在一实施方式中,第一预测单元302可以包括:

提取子单元,用于通过初始识别模型对第一图像进行特征提取,得到第一图像对应的第一特征信息;

预测子单元,用于通过初始识别模型基于第一特征信息对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置。

在一实施方式中,初始识别模型包括低层特征值提取模块,低层特征值提取模块包括由四个残差卷积模块组成的编码器,提取子单元具体可以用于:依次通过编码器的四个残差卷积模块对第一图像进行卷积操作,以提取第一图像对应的第一特征信息。

在一实施方式中,初始识别模型包括对象分类模块,对象分类模块包括二分类任务分支网络、位置预测任务分支网络和类别分类任务分支网络,预测子单元具体可以用于:通过二分类任务分支网络基于第一特征信息对第一图像中的目标对象进行二分类,得到二分类结果;通过位置预测任务分支网络基于第一特征信息和二分类结果,对第一图像中的目标对象的边界到目标对象中心的水平方向和垂直方向距离进行预测,得到目标对象在第一图像中的第一预测位置;通过类别分类任务分支网络基于第一特征信息和二分类结果,对第一图像中的目标对象进行类别预测,得到目标对象的第一预测类别。

在一实施方式中,第一图像为源域图像,第二图像为目标域图像,源域图像为标注有目标对象的目标类别和目标位置的图像,目标域图像为未标注有目标对象的目标类别和目标位置的图像;初始识别模型包括域适应迁移学习模块,域适应迁移学习模块包括梯度反转层;调整单元303具体可以用于:通过初始识别模型对第二图像进行特征提取,得到第二图像对应的第二特征信息;基于二分类结果、第一预测位置以及第一预测类别构建总损失函数;通过总损失函数将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数;以及,通过域适应迁移学习模块识别第一特征信息和第二特征信息所属的源域图像或目标域图像,得到识别结果,通过梯度反转层对识别结果进行梯度反转,以学习域不变性的特征值,基于域不变性的特征值对第一图像和第二图像的类型进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。

在一实施方式中,第二获取单元304具体可以用于:通过候选识别模型对第二图像进行特征提取,得到第三特征信息;基于第三特征信息对第二图像中的目标对象进行类别和位置预测,得到至少一个候选预测类别及其对应的分值和至少一个候选预测位置及其对应的分值;从候选预测类别中筛选出分值最高的类别作为第二图像中目标对象对应的伪目标类别,以及从候选预测位置中筛选出分值最高的位置作为第二图像中目标对象对应的伪目标位置。

在一实施方式中,第二预测单元305具体可以用于:通过候选识别模型对第二图像进行特征提取,得到第二图像对应的第四特征信息;通过候选识别模型基于第四特征信息,对第二图像中的目标对象进行二分类、以及类别和位置预测,得到目标对象的第二预测类别和第二预测位置。

在一实施方式中,训练单元306具体可以用于:通过第一损失函数对第二预测类别与伪目标类别进行收敛,得到第一损失值;通过第二损失函数对第二预测位置与伪目标位置进行收敛,得到第二损失值;基于第一损失值和第二损失值构建目标总损失函数,通过目标总损失函数调整候选识别模型的参数,并将调整参数后的候选识别模型作为初始识别模型,返回执行通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置的操作,直至目标总损失函数的损失值最小,得到训练后识别模型。

在一实施方式中,图像识别装置还可以包括:

第三获取单元,用于获取包含目标对象的待识别图像;

提取单元,用于通过训练后识别模型对待识别图像进行特征提取,得到目标特征信息;

识别单元,用于通过训练后识别模型基于目标特征信息识别待识别图像中的目标对象的类别和位置。

本申请实施例可以由第一获取单元301获取包含目标对象的第一图像和第二图像,第一图像为标注有目标对象的目标类别和目标位置的图像;然后可以由第一预测单元302通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置;以及由调整单元303将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型。其次,可以由第二获取单元304通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置;由第二预测单元305将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;此时可以由训练单元306将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型,以通过训练后识别模型对图像中目标对象的类别和位置进行识别。该方案可以基于第一图像预测得到的第一预测类别和第一预测位置,以及基于第一图像和第二图像的对抗学习,对初始识别模型进行训练,得到候选识别模型,以及基于第二图像预测得到的伪目标类别、伪目标位置、第二预测类别和第二预测位置对候选识别模型进行训练,得到训练后识别模型,提高了对识别模型训练的准确性和可靠性,从而提高了训练后识别模型对图像中目标对象识别的准确性。实现了利用已有目标类别和目标位置的图像的第一图像(即有标签的图像),通过无监督适应的迁移学习,将将识别模型在有标签的第一图像上学习的知识迁移运用到无标签的第二图像对目标对象识别上,从而达到对包含目标对象的无标签的图像进行识别的效果,提高了对第二图像(即无标签的图像)且有差异的图像进行分类的准确率。

本申请实施例还提供一种计算机设备,该计算机设备可以是服务器或终端等,如图10所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图10中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取包含目标对象的第一图像和第二图像,第一图像为标注有目标对象的目标类别和目标位置的图像;通过初始识别模型对第一图像中的目标对象进行类别和位置预测,得到第一预测类别和第一预测位置;将第一预测类别与目标类别进行收敛,以及将第一预测位置与目标位置进行收敛,以调整初始识别模型的第一参数,以及通过初始识别模型对第一图像和第二图像进行对抗学习,以调整初始识别模型的第二参数,得到候选识别模型;通过候选识别模型获取第二图像中目标对象对应的分值最高的类别和位置分别作为伪目标类别和伪目标位置;将第二图像输入候选识别模型进行类别和位置预测,得到第二预测类别和第二预测位置;将第二预测类别与伪目标类别进行收敛,以及将第二预测位置与伪目标位置进行收敛,以对候选识别模型进行训练,得到训练后识别模型,以通过训练后识别模型对图像中目标对象的类别和位置进行识别。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对图像识别方法的详细描述,此处不再赘述。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质,其中存储有计算机程序,计算机程序可以包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种图像识别方法。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种图像识别方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质
  • 图像识别方法、装置、计算机设备及计算机可读存储介质
技术分类

06120112210110