掌桥专利:专业的专利平台
掌桥专利
首页

一种基于CLIP的零样本图像识别方法

文献发布时间:2024-04-18 19:58:30


一种基于CLIP的零样本图像识别方法

技术领域

本发明涉及一种图像识别方法,具体涉及一种零样本图像识别方法。

背景技术

图像分类是计算机视觉领域中的一项重要任务,其目标是将输入的图像分配到预定义的类别中。这个任务在许多领域都有广泛应用,包括医学图像分析、自动驾驶、安全监控和人脸识别等。

零样本学习是一种特殊的机器学习任务,旨在通过学习已知类别与未知类别之间的映射关系,实现对未见过的类别进行分类。与传统的监督学习不同,零样本学习允许模型在没有任何关于未知类别的训练样本的情况下进行分类。为了实现零样本学习,传统的方法通常依赖于来自已见类别和未见类别的手动注释的类属性。这些类属性是连接这些不相交的已见类别和未见类别集合的共享知识。类属性可以描述每个类别的特征,例如颜色、形状或功能。通过将这些类属性与图像特征进行关联,模型可以在遇到未见过的类别时进行推理和分类。类属性的使用也更接近人类的认知方式。人类能够利用他们对已见图像的先验知识以及已见和未见类别的描述信息来区分实例和未见类别。这种方法模仿了人类感知世界时利用先验知识和描述信息的方式。

零样本分类具有不需要已见所有类别图像的特性,因此在各个方面都有广泛的应用。例如,零样本图像分类可用于智能安防系统中,识别新出现的物体或事件,如未经训练的人脸、不寻常的行为或可疑物品,以提供更准确的安全监控和警报;还可用于识别新的植物和动物物种,即使没有对这些物种的图像进行训练,这在生态学研究、保护生物多样性和野生动物监测等领域具有重要意义;通过零样本图像分类,可以对新的食物类别进行识别和分类,从而帮助用户进行准确的营养评估和饮食管理等。这些应用示例突出了零样本图像分类在各个领域的实际应用,展示了其在解决实际问题和改善生活的潜力。

早期领先的零样本学习方法通常通过将类属性(语义向量)和所见类的全局图像表示相关联,来学习联合嵌入空间。然而,由于对细粒度类属性的挖掘不够理想,这些全局嵌入方法几乎总是无法充分定位判别区域特征。同时,最近的零样本学习方法验证了类别属性描述向量为有效协助模型获取判别区域特征,从而提升零样本学习结果并提供了新的线索。这些方法直接对齐局部区域特征和类属性描述向量,实现了对不同属性区域的粗定位。然而,由于未见类图像的不可获得性,粗糙区域定位的可转移性不足,往往导致未见类图像与见类图像的误分类。相比之下,强大的对比语言-图像预训练(CLIP)模型的出现利用类别名称来实现更一般的类似零样本的预测。由于使用了大量的图像-文本配对训练数据,通常CLIP在粗粒度的下游数据集上表现出显著的图像-文本对齐能力和泛化性能,但不能定位信息属性区域。

发明内容

发明目的:针对上述现有技术,提出一种基于CLIP的零样本图像识别方法,以提高预训练的CLIP模型到下游零样本学习框架的知识可转移性,以追求理想的特征表示。

技术方案:一种基于CLIP的零样本图像识别方法,包括:

S1:给定数据集,将其划分为已见类和未见类;

S2:利用ResNet和CLIP视觉编码器分别对图像进行特征表示,同时利用CLIP文本编码器对类别名进行特征表示,并引入属性描述向量;

S3:将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量进行视觉-语义交互注意力运算,得到基于属性提示注意力的特征向量,从而得到两个网络的局部类别预测向量;

S4:对两个网络模型的局部类别预测向量构造跨网络对齐损失L

S5:将CLIP视觉全局特征与类别名特征计算余弦相似度得到全局预测,与两个网络模型的最终局部预测融合,并引入偏差向量允许一部分的已见类预测迁移到未见类,得到最终预测得分。

有益效果:本发明通过对由语义引导的细粒度局部视觉特征定位,并且利用双网络的特征对齐,微调属性特征提示,从而获得优异的零样本知识迁移能力,得到更精确的零样本图像分类结果。在三个经典的图像分类数据集Caltech-USCD Birds-200-2011(CUB),SUN和Animals with Attributes2(AWA2)的传统零样本基准测试上分别达到84%,89.8%和97.4%的正确率,广义零样本基准测试上分别达到75.9%,68.4%和92.6%的H值(已见类与未见类正确率的调和平均数),是目前结果最好的模型。证明本方法可以通过学习已见类图像的先验知识,并且利用双网络的特征对齐,微调属性特征提示从而精确的识别未见类图像。

附图说明

图1为一种基于CLIP的零样本图像识别方法的流程示意图;

图2为所提出的网络框架示意图;

图3为全局预测概率计算示意图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

如图1所示,一种基于CLIP的零样本图像识别方法,包括:

S1:给定数据集

训练集只有已见类,测试集对于零样本设置只有未见类,对于广义零样本则同时包括已见类与未见类。

S2:利用ResNet和CLIP视觉编码器分别对图像进行特征表示,同时利用CLIP文本编码器对类别名进行特征表示,并引入属性描述向量。

具体的,如图2所示,利用ResNet101卷积神经网络和CLIP视觉编码器ViT 16/B分别提取得到图像特征x

使用CLIP文本编码器Transformer提取每个类别名特征,采取提示为"a photo ofa{classname}"得到维度为[|Y|,512]的类别名特征c,其中|Y|代表类别数。引入属性描述向量集合V={v

S3:x

具体的,将得到的x

其中,

通过不同的视觉语义交互注意力网络最终得到两个局部类别预测向量p

S4:对两个网络模型的局部类别预测向量构造跨网络对齐损失L

具体的,对获得的两个网络的局部类别预测向量构建跨网络对齐损失:

其中,

对两个网络的局部类别预测向量计算交叉熵损失L

其中,|N|是训练集中样本个数,

其中,

S5:将CLIP视觉全局特征与类别名特征计算余弦相似度得到全局预测,与两个网络模型的最终局部预测融合。由于在训练阶段,模型仅接触到已见类别的图像数据,可能导致在已见类别上过度拟合的问题。为了避免这种现象的发生,引入了偏差向量的概念,允许部分已见类别的预测特征迁移至未见类别。最终得到网络模型的预测得分。

具体的,如图3所示,将S2得到的x

其中,β

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 一种基于鉴别性样本属性学习的零样本图像识别方法
  • 一种基于对比语言图像预训练模型CLIP的行人重识别方法
技术分类

06120116497004