图像识别方法、装置、介质及电子设备

文献发布时间：2024-04-18 19:58:26

技术领域

本申请属于人工智能技术领域，具体涉及一种图像识别方法、图像识别装置、计算机可读介质、电子设备以及计算机程序产品。

背景技术

图像识别技术，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种人工智能实践应用。例如，基于图像识别技术可以实现人脸识别、物品识别，具体还可以执行人物的定位跟随、动作捕捉、商品分类等识别任务。传统的图像识别算法需要依赖于大量的图像样本和标签进行训练优化，普遍存在识别准确性差的问题。

发明内容

本申请提供一种图像识别方法、图像识别装置、计算机可读介质、电子设备以及计算机程序产品，目的在于提高图像识别的准确性。

根据本申请实施例的一个方面，提供一种图像识别方法，该方法包括：获取待识别的图像以及与所述图像相对应的图像识别任务；对所述图像进行编码处理得到与所述图像识别任务无关的第一图像特征以及与所述图像识别任务相关的第二图像特征；获取与所述图像识别任务相关的第一文本特征以及与所述图像识别任务无关的第二文本特征；根据图像特征与文本特征的特征相似度，预测所述图像识别任务的识别结果，所述特征相似度包括所述第一图像特征与所述第一文本特征的相似度以及所述第二图像特征与所述第二文本特征的相似度。

根据本申请实施例的一个方面，提供一种图像识别装置，该装置包括：图像获取模块，被配置为获取待识别的图像以及与所述图像相对应的图像识别任务；图像编码模块，被配置为对所述图像进行编码处理得到与所述图像识别任务无关的第一图像特征以及与所述图像识别任务相关的第二图像特征；文本特征获取模块，被配置为获取与所述图像识别任务相关的第一文本特征以及与所述图像识别任务无关的第二文本特征；预测模块，被配置为根据图像特征与文本特征的特征相似度，预测所述图像识别任务的识别结果，所述特征相似度包括所述第一图像特征与所述第一文本特征的相似度以及所述第二图像特征与所述第二文本特征的相似度。

在本申请的一些实施例中，基于以上技术方案，所述预测模块可以进一步包括：第一比较模块，被配置为比较所述第一图像特征和所述第一文本特征，得到第一特征相似度；第二比较模块，被配置为比较所述第二图像特征和所述第二文本特征，得到第二特征相似度；加权模块，被配置为根据预设权重对所述第一特征相似度和所述第二特征相似度进行加权求和，得到所述图像识别任务的预测分数；识别模块，被配置为根据所述预测分数确定所述图像识别任务的识别结果。

在本申请的一些实施例中，基于以上技术方案，所述识别结果包括由多个预测类别组成的类别空间，所述预测分数包括对应于各个所述预测类别的类别分数；所述识别模块进一步包括：概率运算模块，被配置为对所述预测分数中的各个类别分数进行指数化运算得到各个所述预测类别在所述类别空间中的分布概率；类别确定模块，被配置为将所述分布概率最大的预测类别确定为所述图像识别任务的识别结果。

在本申请的一些实施例中，基于以上技术方案，所述图像编码模块进一步被配置为：获取与所述图像识别任务无关的图像编码器以及与所述图像识别任务相关的图像适配器，所述图像编码器用于提取图像特征，所述图像适配器是根据所述图像识别任务预先训练得到的模型；使用所述图像编码器对所述图像进行编码处理，得到与所述图像识别任务无关的第一图像特征；使用所述图像适配器对所述第一图像特征进行特征转换，得到与所述图像识别任务相关的第二图像特征。

在本申请的一些实施例中，基于以上技术方案，所述文本特征获取模块进一步被配置为：获取与所述图像识别任务无关的文本编码器以及与所述图像识别任务相关的嵌入向量，所述文本编码器用于提取文本特征，所述嵌入向量是根据所述图像识别任务预先训练得到的向量；使用所述文本编码器对所述嵌入向量进行编码处理，得到与所述图像识别任务相关的第一文本特征；使用所述文本编码器对预设的提示文本进行编码处理，得到与所述图像识别任务无关的第二文本特征。

在本申请的一些实施例中，基于以上技术方案，所述图像识别装置还包括：模型获取模块，被配置为获取用于执行所述图像识别任务的图像识别模型，所述图像识别模型包括用于提取图像特征的图像编码器、用于对所述图像特征进行特征转换的图像适配器、用于提取文本特征的文本编码器；样本获取模块，被配置为获取用于训练所述图像识别模型的样本数据，所述样本数据包括图像样本以及与所述图像样本相关联的样本标签；样本识别模块，被配置为使用所述图像识别模型对所述图像样本进行图像识别处理，得到与所述图像样本相对应的预测类别；模型更新模块，被配置为根据所述预测类别和所述样本标签更新所述图像识别模型的模型参数。

在本申请的一些实施例中，基于以上技术方案，所述模型更新模块进一步包括：误差确定模块，被配置为根据所述预测类别和所述样本标签确定所述图像识别模型的损失误差；反向传播模块，被配置为在所述图像识别模型中反向传播所述损失误差，得到与所述图像识别模型的模型参数相对应的误差梯度；参数更新模块，被配置为根据所述误差梯度更新所述图像识别模型的模型参数。

在本申请的一些实施例中，基于以上技术方案，所述损失误差包括根据当前训练轮次的样本数据确定的第一损失误差以及根据前一训练轮次的样本数据确定的第二损失误差，所述图像识别模型在所述当前训练轮次和所述前一训练轮次执行不同的图像识别任务。

在本申请的一些实施例中，基于以上技术方案，所述第二损失误差的获取方法包括：在前一训练轮次的样本数据中随机采样得到若干数量的历史样本，并获取所述历史样本在所述前一训练轮次中的识别结果；使用所述图像识别模型对所述历史样本进行图像识别处理，得到所述历史样本在当前训练轮次中的识别结果；根据所述历史样本在前一训练轮次中的识别结果以及所述历史样本在当前训练轮次中的识别结果确定所述第二损失误差。

在本申请的一些实施例中，基于以上技术方案，所述历史样本在当前训练轮次中的识别结果包括所述历史样本在当前训练轮次中的预测分数，所述历史样本在前一训练轮次中的识别结果包括所述历史样本在前一训练轮次中的预测分数以及所述历史样本在前一训练轮次中的预测类别；

根据所述历史样本在前一训练轮次中的识别结果以及所述历史样本在当前训练轮次中的识别结果确定所述第二损失误差，包括：根据所述历史样本在前一训练轮次中的预测类别以及所述历史样本的样本标签确定用于表示前一训练轮次的预测误差的第一子误差；根据所述历史样本在前一训练轮次中的预测分数以及所述历史样本在当前训练轮次中的预测分数确定用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差；根据所述第一子误差和所述第二子误差确定所述第二损失误差。

在本申请的一些实施例中，基于以上技术方案，根据所述历史样本在前一训练轮次中的预测类别以及所述历史样本的样本标签确定用于表示前一训练轮次的预测误差的第一子误差，包括：根据预设的交叉熵损失函数对所述历史样本在前一训练轮次中的预测类别以及所述历史样本的样本标签进行映射处理，得到用于表示前一训练轮次的预测误差的第一子误差。

在本申请的一些实施例中，基于以上技术方案，根据所述历史样本在前一训练轮次中的预测分数以及所述历史样本在当前训练轮次中的预测分数确定用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差，包括：根据预设的均方误差损失函数对所述历史样本在前一训练轮次中的预测分数以及所述历史样本在当前训练轮次中的预测分数进行映射处理，得到用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的图像识别方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为执行所述可执行指令来实现如以上技术方案中的图像识别方法。

根据本申请实施例的一个方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如以上技术方案中的图像识别方法。

在本申请实施例提供的技术方案中，通过获取待识别的图像以及与图像相对应的图像识别任务，可以对图像进行编码处理得到与图像识别任务无关的第一图像特征以及与图像识别任务相关的第二图像特征，进一步获取与图像识别任务相关的第一文本特征以及与图像识别任务无关的第二文本特征，可以根据图像特征与文本特征的特征相似度预测图像识别任务的识别结果，特征相似度包括第一图像特征与第一文本特征的相似度以及第二图像特征与第二文本特征的相似度。本申请实施例使用与图像识别任务相关的第一文本特征引导与图像识别任务无关的第一图像特征，并使用与图像识别任务相关的第二图像特征引导与图像识别任务无关的第二文本特征，能够减少图像识别任务对于单一模态数据的依赖，也避免了图像特征与文本特征在图像识别任务中产生相互干扰，因而能够提高图像识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了应用本申请技术方案的系统架构框图。

图2示出了本申请一个实施例中的图像识别方法的流程图。

图3示出了本申请一个实施例中图像识别模型的训练方法的流程图。

图4示出了本申请一个实施例中的图像识别模型的模型结构示意图。

图5示出了本申请一个实施例中图像识别模型的训练框架示意图。

图6示意性地示出了本申请实施例提供的图像识别装置的结构框图。

图7示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请的具体实施方式中，涉及到用户终端设备中的图像、文本等相关的数据，当本申请的各个实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

图1示出了应用本申请技术方案的系统架构框图。

如图1所示，应用本申请技术方案的系统架构可以包括终端设备110和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能音箱、智能穿戴设备、智能车载设备、智能支付终端等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。在终端设备110和服务器130之间可以包括用于提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

图像识别模型120是用于执行图像识别任务的机器学习模型，例如在对业务对象执行人脸识别时，通过对采集到的图像进行识别检测，可以识别该图像是否为真实用户的人脸图像。又例如，在自动驾驶的应用场景中，可以通过图像识别模型120对车辆周围环境的图像进行识别检测，用以识别车辆、行人或者其他障碍物。

在本申请实施例的一个应用场景中，可以预先将图像识别模型120部署在服务器130上，由服务器130对图像识别模型120进行训练。在模型训练的过程中，可以根据图像识别模型120对于训练样本的识别结果确定损失误差，然后根据损失误差迭代更新图像识别模型120的模型参数。通过不断训练可以逐渐降低模型的损失误差，提高模型的识别精度。

当图像识别模型120训练完成后，可以向终端设备110提供图像识别服务。举例而言，终端设备110可以将待识别图像上传至服务器130，由服务器130上部署的图像识别模型120对待识别图像进行识别处理后输出识别结果，进一步由服务器130将识别结果返回给终端设备110，由终端设备110将识别结果呈现给用户或者根据识别结果实现其他的场景需求。

在其他一些应用场景中，也可以将训练完成的图像识别模型120直接部署至终端设备110上，使得终端设备110能够在本地运行图像识别模型。当需要进行图像识别时，可以由终端设备110将待识别图像输入至训练完成的图像识别模型120中，由图像识别模型120对待识别图像进行识别处理后输出识别结果。

本申请实施例提供的图像识别模型可以应用于多种不同的线上业务场景，具体可以包括云技术、人工智能、智慧交通、辅助驾驶等各种场景。例如，在社交软件或者即时通讯软件中涉及的人脸核身功能，其主要用于用户实名实人认证、账户解封申诉等操作；在网约车软件中涉及司机远程认证流程，其主要用来判断当前司机是否为真人；在智能门禁系统中的人脸识别门禁系统、游戏业务中涉及到账号解封的身份核验等等；在自动驾驶业务中识别车辆周围的障碍物、道路标识、信号灯等等。

在本申请的相关技术中，随着近年来数据呈现爆炸式的增长，机器学习算法中，训练数据与测试数据很难达到分布相似的状态，一般的机器学习算法很难在动态的环境中连续自适应的学习。因此，研究者们提出了持续学习算法，来解决该问题。

持续学习，又名终身学习，连续学习（Continual Learning，CL）。持续学习模拟了人类大脑的学习思考方式，能够对非独立同分布的数据流进行学习。持续学习的本质是既能够对到来的新数据进行利用，并基于之前任务积累的经验，在新的数据上很好的完成任务；又能够避免遗忘问题，对曾经训练过的任务依旧保持很高的精度（即避免灾难性遗忘的问题）。利用持续学习算法可以提高机器学习模型的可塑性（学习新知识的能力）和稳定性（旧知识的记忆能力）。

纯视觉的持续学习方法主要包括三种类型，即参数正则化、历史任务数据回放和参数隔离。基于参数正则化的持续学习方法高度依赖于新旧任务之间的相关性，当任务差异太大时会出现任务混淆的现象；基于历史任务数据回放的持续学习需要额外的计算资源和存储空间用于回忆旧知识，当任务种类不断增多时，训练成本会变高；基于参数隔离的持续学习方法为每个任务分配一部分参数空间，限制了任务个数和对任务的顺序。总体来讲，这些纯视觉的持续学习方法仅依赖于视觉识别任务的单一模态，忽略了文本输入的自然语言形式包含更多有用的信息并提供额外的监督。

视觉语言的大模型已展示出很强的泛化性，有效推动了视觉和语言研究的融合，并催生各种有趣的应用，如看图说话、艺术图像生成等。当将视觉语言模型应用于视觉的持续学习场景时，一种最简单自然的方式是联合学习视觉和语言表征以提高持续学习的性能。

视觉语言模型的基本架构一般由图像编码器和语言编码器构成，其中图像编码器用于将输入图像编码为图像特征，语言编码器采用简单固定模式的文本提示，例如a photoof a [class]，作为输入，其中[class]表示某个具体类别的名称（如猫或狗），生成其对应的类别权重向量。然后，基于图像特征和所有类别的权重可获得相应的预测得分。对于图像的嵌入特征在类别空间计算相似度，可以得到一个多维的得分向量。最后，将得分向量转化为一个用于预测类别概率的概率分布。该模型的最大优势在于冲破传统机器学习模型对类别空间的限制，其识别的类别空间依据文本提示可任意扩展，进而实现开放类别上的目标识别。

以上所述的视觉语言模型的学习机制涉及两个可学习分支的直接交互。然而，考虑到持续学习中普遍存在的可塑性-稳定性困境，两个分支中可训练组件的直接交互可能会相互干扰，导致已学习的图像-语言对之间的不匹配。具体来说，尽管通过回放之前的数据可能在一定程度上防止视觉适配器和可学习提示对当前任务过度拟合，但当前的权重与过去相比或多或少会发生变化，从而破坏之前良好学习的视觉语言表示空间。简而言之，即使每个组件都被强加了上述的持续适应机制，过度的可塑性仍然会导致性能下降和灾难性遗忘。

因此，如何抵消干扰并保留学习到的表示空间至关重要。

针对以上相关技术中存在的问题，本申请实施例提出了一种跨模态交替学习的策略，旨在维持两个可学习分支之间的平衡。与相关技术中的视觉语言通常采用联合学习策略不同，本申请实施例提出的跨模态交替学习的关键之处是在固定一种模态的同时学习另外一种模态，从而充分利用视觉模态信息和语言模态信息并实现更有效的持续学习。

本申请实施例的核心在于跨模态交替学习的策略，其在视觉模态和语言模态之间交替学习表征，以更好地匹配任务之间的图像-语言对来增强持续学习的能力。持续学习框架主要由两部分构成，分别为视觉引导的语言学习分支和语言引导的视觉学习分支。其中视觉引导的语言分支使用任务未知的图像表征，构造语言提示器来学习任务感知的语言表征；而语言引导的视觉分支采用固定模式的文本输入获得任务未知的语言表征，构造视觉适配器来学习任务感知的视觉表征。本申请实施例提供的方案在图像分类任务上达到了领先的性能，面对不同的基础网络展现出很强的泛化能力。

下面结合具体实施方式对本申请提供的图像识别方法、图像识别装置、计算机可读介质、电子设备以及计算机程序产品等技术方案做出详细说明。

图2示出了本申请一个实施例中的图像识别方法的流程图，该图像识别方法可以由图1所示的终端设备或者服务器单独执行，也可以由终端设备和服务器共同执行。本申请实施例以终端设备执行的图像识别方法作为示例进行说明。如图2所示，该图像识别方法可以包括如下的步骤S210至S240。

在步骤S210中，获取待识别的图像以及与图像相对应的图像识别任务。

待识别的图像指的是需要执行图像识别任务的图像，可以是由终端设备利用摄像头等图像采集器件直接拍摄得到的图像，也可以是由终端设备上安装的社交软件、即时通信软件等应用程序通过互联网的数据通信接收得到的图像。该图像可以是静态的图像，例如照片；或者也可以是动态的图像，例如从视频中提取的一个或者多个视频帧。

图像识别任务可以是基于不同的业务需求对图像的内容进行识别、标注、判断、分类等处理任务。以智能驾驶的应用场景为例，可以通过采集车辆周围环境的图像执行相应的图像识别任务。例如，识别车辆周围分布的其他车辆、建筑物、人物、动物等对象，对周围环境中识别到的各个对象进行标注，判断哪些对象属于障碍物，对障碍物进行分类，等等。

在步骤S220中，对图像进行编码处理得到与图像识别任务无关的第一图像特征以及与图像识别任务相关的第二图像特征。

第一图像特征是在各种不同的图像处理应用场景中能够普遍适用的泛化性较强的特征，第二图像特征是在当前的图像识别任务的应用场景中能够适用的针对性较强的特征。

在本申请的一个实施例中，第一图像特征可以是由网络层数较少的神经网络模型提取得到的浅层图像特征，而第二图像特征可以是由网络层数较多的神经网络模型提取得到的深层图像特征。

举例而言，本申请实施例可以在其他图像处理应用场景中训练得到初始神经网络模型，并使用该初始神经网络模型对图像进行特征提取后得到第一图像特征；然后，在针对当前的图像识别任务的应用场景中训练与初始神经网络模型串联的附加神经网络模型，将初始神经网络模型输出的第一图像特征输入至附加神经网络模型后，由附加神经网络模型对第一图像特征进一步提取深层信息后得到第二图像特征。

在本申请的一个实施例中，第一图像特征可以是使用与当前图像识别任务无关的样本数据训练得到的图像特征，而第二图像特征可以是使用与当前图像识别任务相关的样本数据训练得到的图像特征。例如，当前图像识别任务是识别道路图像中的车辆，则可以使用大量的包含道路上行驶车辆的样本图像训练一个用于从图像中提取车辆特征的模型，该模型用于提取第一图像特征。与此同时，可以使用大量的不包含道路上行驶车辆的其他样本图像（例如，人物、动物、水果等除车辆以外的其他图像）训练一个用于从图像中提取未知对象特征的模型，该模型用于提取第二图像特征。

在此基础上，对图像进行编码处理得到与图像识别任务无关的第一图像特征以及与图像识别任务相关的第二图像特征，可以进一步包括：获取与图像识别任务无关的图像编码器以及与图像识别任务相关的图像适配器，图像编码器是使用与图像识别任务无关的样本数据训练得到的图像特征提取模型，图像适配器是使用与图像识别任务相关的样本数据训练得到的图像特征提取模型；使用图像编码器对图像进行编码处理，得到与图像识别任务无关的第一图像特征；使用图像适配器对第一图像特征进行特征转换，得到与图像识别任务相关的第二图像特征。

在本申请的一个实施例中，可以使用交替学习的训练方法对包含上述的图像编码器和图像适配器的图像识别模型进行模型训练，交替学习的训练过程包括了交替执行的文本学习阶段和图像学习阶段。

举例而言，本申请实施例可以将带有样本标签的样本数据输入至图像识别模型，获得图像识别模型输出的识别结果；根据预设的损失函数计算识别结果与样本标签之间的损失误差，并在图像识别模型中反向传播损失误差得到模型参数的误差梯度；在图像学习阶段，固定除图像适配器以外的其他的模型部分（例如上述的图像编码器），从而根据误差梯度更新图像适配器的模型参数，使得图像适配器获得对于图像识别任务的感知能力。图像编码器可以从输入的图像中提取出任务未知的图像特征（即上述的第一图像特征），经过训练得到的图像适配器能够将任务未知的图像特征进一步编码转换为任务感知的图像特征（即上述的第二图像特征）。

其中，图像编码器和图像适配器可以选用卷积神经网络模型、循环神经网络模型，也可以选用以Transformer为主的网络模型或者简单的感知机网络模型。

在本申请的一个实施例中，第一图像特征可以是未经过当前的图像识别任务做针对性训练的泛化性特征，第二图像特征可以是经过当前的图像识别任务做针对性训练后得到的针对性特征。

举例而言，本申请实施例可以在其他图像处理应用场景中训练得到初始神经网络模型，并使用该初始神经网络模型对图像进行特征提取后得到第一图像特征；然后，针对当前的图像识别任务对初始神经网络进行训练后得到优化神经网络，并使用该优化神经网络对图像进行特征提取后得到第二图像特征。

在步骤S230中，获取与图像识别任务相关的第一文本特征以及与图像识别任务无关的第二文本特征。

文本特征是用于对图像处理起到提示作用的文本语义特征，例如可以是从相应的提示语句中提取得到的特征。利用文本特征的提示作用，可以对图像处理进行引导，从而提高图像处理的效率和准确性。

第一文本特征是在当前的图像识别任务的应用场景中能够适用的针对性较强的特征，第二文本特征是在各种不同的图像处理应用场景中普遍适用的泛化性较强的特征。

在本申请的一个实施例中，第一文本特征是使用与当前的图像识别任务相关的样本数据训练得到的文本特征，而第二文本特征是使用与当前的图像识别任务无关的样本数据训练得到的文本特征。

在此基础上，获取与图像识别任务相关的第一文本特征以及与图像识别任务无关的第二文本特征，可以进一步包括：获取与图像识别任务无关的文本编码器以及与图像识别任务相关的嵌入向量，文本编码器是使用与图像识别任务无关的样本数据训练得到的文本特征提取模型，嵌入向量是使用与图像识别任务相关的样本数据训练得到的文本特征；使用文本编码器对嵌入向量进行编码处理，得到与图像识别任务相关的第一文本特征；使用文本编码器对预设的提示文本进行编码处理，得到与图像识别任务无关的第二文本特征。

在本申请的一个实施例中，与图像识别任务相关的嵌入向量指的是跟随图像识别任务动态变化的文本特征，即当图像识别任务发生变化时，相应的嵌入向量也将产生动态变化。预设的提示文本指的是不会跟随图像识别任务变化的固定设置的静态文本，可以是在各种图像处理应用场景中通用的提示语句，例如，a photo of a [class]，其中[class]表示某个具体类别的名称（如猫或狗）。

在本申请的一个实施例中，可以使用交替学习的训练方法对包含上述的文本编码器和嵌入向量的图像识别模型进行模型训练，交替学习的训练过程包括了交替执行的文本学习阶段和图像学习阶段。

举例而言，本申请实施例可以将带有样本标签的样本数据输入至图像识别模型，获得图像识别模型输出的识别结果；根据预设的损失函数计算识别结果与样本标签之间的损失误差，并在图像识别模型中反向传播损失误差得到模型参数的误差梯度；在文本学习阶段，固定除嵌入向量以外的其他的模型部分（例如上述的文本编码器），从而根据误差梯度更新嵌入向量，使得该嵌入向量获得对于图像识别任务的感知能力，即训练得到的嵌入向量能够表征图像识别任务的任务信息。使用文本编码器对训练得到的嵌入向量进行编码处理后，可以得到与图像识别任务相关的文本特征。

举例而言，当前图像识别任务是识别道路图像中的车辆，则可以使用大量的包含道路上行驶车辆的样本图像对一个随机初始化的特征向量进行训练，对该文本特征的各项特征元素进行持续地训练优化后得到与道路中的车辆具有高度相关性的嵌入向量。与此同时，可以使用大量的不包含道路上行驶车辆的其他样本图像（例如，人物、动物、水果等除车辆以外的其他图像）训练一个用于从文本中提取未知对象特征的文本特征提取模型。使用该文本特征提取模型对与道路中的车辆具有高度相关性的嵌入向量进行特征提取后可以得到与当前的图像识别任务相关的第一文本特征，使用该文本特征提取模型对一个预设的提示文本进行特征提取后可以得到与当前的图像识别任务无关的第二文本特征。

在步骤S240中，根据图像特征与文本特征的特征相似度，预测图像识别任务的识别结果，特征相似度包括第一图像特征与第一文本特征的相似度以及第二图像特征与第二文本特征的相似度。

在本申请的一个实施例中，根据图像特征与文本特征的特征相似度，预测图像识别任务的识别结果，可以进一步包括：比较第一图像特征和第一文本特征，得到第一特征相似度；比较第二图像特征和第二文本特征，得到第二特征相似度；根据预设权重对第一特征相似度和第二特征相似度进行加权求和，得到图像识别任务的预测分数；根据预测分数确定图像识别任务的识别结果。

在本申请实施例中，根据与当前的图像识别任务相关的第一文本特征和与当前的图像识别任务无关的第一图像特征计算得到第一特征相似度，以此同时，根据与当前的图像识别任务无关的第二文本特征和与当前的图像识别任务有关的第二图像特征计算得到第二特征相似度，最后根据第一特征相似度和第二特征相似度的加权求和得到图像识别任务的预测分数，进而根据预测分数确定图像识别任务的识别结果。由于与当前图像识别任务相关的第一文本特征和第二图像特征相互分离，并未直接产生特征关联，因此能够避免图像与文本两种模态特征的相互干扰，充分发挥两种模态特征在图像识别任务中的特征作用，因而能够同步提高图像识别任务的泛化性和针对性。

在本申请的一个实施例中，图像识别任务的识别结果可以包括由多个预测类别组成的类别空间，预测分数包括对应于各个预测类别的类别分数。在此基础上，根据预测分数确定图像识别任务的识别结果，可以进一步包括：对预测分数中的各个类别分数进行指数化运算得到各个预测类别在类别空间中的分布概率；将分布概率最大的预测类别确定为图像识别任务的识别结果。

举例而言，本申请实施例可以使用如下公式计算第

其中，

在本申请的一个实施例中，为了不断提高图像识别任务的识别准确率，可以使用样本数据对用于执行图像识别任务的图像识别模型进行持续地迭代训练。

图3示出了本申请一个实施例中图像识别模型的训练方法的流程图，该图像识别模型的训练方法可以由图1所示的终端设备或者服务器单独执行，也可以由终端设备和服务器共同执行。本申请实施例以服务器执行的图像识别模型的训练方法作为示例进行说明。如图3所示，该图像识别模型的训练方法可以包括如下的步骤S310至S340。

在步骤S310中，获取用于执行图像识别任务的图像识别模型，图像识别模型包括用于提取图像特征的图像编码器、用于对图像特征进行特征转换的图像适配器、用于提取文本特征的文本编码器。

图4示出了本申请一个实施例中的图像识别模型的模型结构示意图。

如图4所示，本申请实施例中的图像识别模型可以包括一个输入层401，通过输入层401可以向并联的图像编码器402和文本编码器403输入数据，其中，向图像编码器402输入的数据是待识别的图像，向文本编码器403输入的数据是与图像识别任务相关的文本嵌入向量以及与图像识别任务无关的预设提示文本。

图像编码器402对待识别的图像进行特征提取后得到与图像识别任务无关的第一图像特征，文本编码器403对输入的文本嵌入向量进行特征提取后得到与图像识别任务相关的第一文本特征，文本编码器403对输入的预设提示文本进行特征提取后得到与图像识别任务无关的第二文本特征。

图像适配器404与图像编码器402串联，用于对图像编码器402输出的第一图像特征做进一步的特征提取后得到与图像识别任务相关的第二图像特征。

最后，通过输出层405对第一图像特征、第一文本特征、第二图像特征、第二文本特征进行映射处理后，可以输出得到图像识别任务的识别结果。

在步骤S320中，获取用于训练图像识别模型的样本数据，样本数据包括图像样本以及与图像样本相关联的样本标签。

在步骤S330中，使用图像识别模型对图像样本进行图像识别处理，得到与图像样本相对应的预测类别。

对图像样本进行图像识别处理的过程可以参考图2所示的图像识别方法的流程图以及上述的各个实施例，此处不再赘述。

在步骤S340中，根据预测类别和样本标签更新图像识别模型的模型参数。

在本申请的一个实施例中，根据预测类别和样本标签更新图像识别模型的模型参数的方法可以进一步包括：根据预测类别和样本标签确定图像识别模型的损失误差；在图像识别模型中反向传播损失误差，得到与图像识别模型的模型参数相对应的误差梯度；根据误差梯度更新图像识别模型的模型参数。

反向传播是一种形式化的梯度下降算法，用于训练神经网络。梯度下降是一种最优化算法，用于求解最小化损失函数的参数值。梯度下降算法的基本思想是：根据当前参数的梯度，沿着梯度的反方向移动参数，从而找到损失函数的最小值。梯度下降算法的原理可以简单概括为：在一个高维空间中从一个点出发，根据损失函数的导数，沿着损失函数下降最快的方向，一步步朝着最优解前进，最终到达最优解处。

反向传播算法的基本思想是：用输出层的梯度反向传播到隐藏层，以计算每一层的梯度，并将梯度更新到模型参数，以期望找到损失函数的最小值。反向传播结合了梯度下降算法和负梯度方向的求解。反向传播算法的原理是：在神经网络的输出层向输入层依次反向传播误差，在每层计算误差对每个参数的偏导，并通过梯度下降法更新权重参数，以期望最小化误差，从而提高模型的准确性。

图5示出了本申请一个实施例中图像识别模型的训练框架示意图。如图5所示，在该训练框架可以包括两个学习器，即语言引导的视觉学习器和视觉引导的语言学习器。在语言引导的视觉学习器中，使用固定提示冻结文本输入获得任务未知的语言表征

语言引导的视觉学习器和视觉引导的语言学习器对图像的预测分数

其中，

图像适配器可以采用卷积网络架构，也可以采用以Transfomer为主的网络架构。实验发现采用最简单的两层感知机网络就可以带来明显的提升，例如全连接层+ReLU激活函数+全连接层的结构。

提示编码器不同于固定模式的语言编码器，其设计的本质在于自动学习任务相关的上下文提示。具体实现上，主要是将基于固定模板的静态提示文本改为可学习的动态嵌入向量

其中，

考虑到在任务序列训练期间引入可学习的视觉适配器，学习到任务相关的特征，尽管引入任务不变的特征，一定程度上会减缓灾难性遗忘，然而由于任务学习的特性，仍然可能会发生灾难性遗忘问题。为此，本申请实施例采用一种基于回放的持续学习思想，将先前任务的部分图像的特征嵌入保存起来以实现持续学习。

在此基础上，用于训练图像识别模型的损失误差可以包括根据当前训练轮次的样本数据确定的第一损失误差以及根据前一训练轮次的样本数据确定的第二损失误差，图像识别模型在当前训练轮次和前一训练轮次执行不同的图像识别任务。

在本申请的一个实施例中，第二损失误差的获取方法包括：在前一训练轮次的样本数据中随机采样得到若干数量的历史样本，并获取历史样本在前一训练轮次中的识别结果；使用图像识别模型对历史样本进行图像识别处理，得到历史样本在当前训练轮次中的识别结果；根据历史样本在前一训练轮次中的识别结果以及历史样本在当前训练轮次中的识别结果确定第二损失误差。

本申请实施例可以采用Reservoir采样，即从输入数据流中随机等概率采样，得到若干数量的历史样本。

在本申请的一个实施例中，历史样本在当前训练轮次中的识别结果包括历史样本在当前训练轮次中的预测分数，历史样本在前一训练轮次中的识别结果包括历史样本在前一训练轮次中的预测分数以及历史样本在前一训练轮次中的预测类别。

在此基础上，根据历史样本在前一训练轮次中的识别结果以及历史样本在当前训练轮次中的识别结果确定第二损失误差，可以进一步包括：根据历史样本在前一训练轮次中的预测类别以及历史样本的样本标签确定用于表示前一训练轮次的预测误差的第一子误差；根据历史样本在前一训练轮次中的预测分数以及历史样本在当前训练轮次中的预测分数确定用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差；根据第一子误差和第二子误差确定第二损失误差。

在本申请的一个实施例中，根据历史样本在前一训练轮次中的预测类别以及历史样本的样本标签确定用于表示前一训练轮次的预测误差的第一子误差，可以进一步包括：根据预设的交叉熵损失函数对历史样本在前一训练轮次中的预测类别以及历史样本的样本标签进行映射处理，得到用于表示前一训练轮次的预测误差的第一子误差。

在本申请的一个实施例中，根据历史样本在前一训练轮次中的预测分数以及历史样本在当前训练轮次中的预测分数确定用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差，可以进一步包括：根据预设的均方误差损失函数对历史样本在前一训练轮次中的预测分数以及历史样本在当前训练轮次中的预测分数进行映射处理，得到用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差。

举例而言，本申请实施例可以根据当前任务数据和历史任务数据对应的特征计算如下的损失函数：

其中，

当前任务的损失误差采用交叉损失函数计算如下：

其中，

历史任务采样数据的损失误差采用交叉熵损失函数和均方误差损失函数计算如下：

其中，

为了对比验证本申请实施例提出方法的有效性，在CIFAR-100数据集上，使用ResNet50基础网络构建图像识别模型，图像识别模型中的图像适配器采用两层感知机网络结构，过去任务回放样本数量分别设置为50、200和500时，在测试数据上与简单的联合学习方案对比实验结果如下方表1。

如表1所示，本申请实施例提出的视觉语言交替学习的持续框架在测试集的准确率方面明显超过简单的视觉语言联合学习方法。

在本申请实施例中，图像识别模型除了采用ResNet-50作为基础架构网络以外，还可以替代采用RN101、RN50x4、RN50x16、ViT-B/16、ViT-B/32等神经网络模型。在实际应用中，可以根据具体的算力和性能要求灵活选择。在CIFAR-100数据集上，使用这些不同的基础网络，当任务回放样本数量分别设置为200和500时各自的参数量和测试集分类准确率如下方表2所示。

如表2所示，在使用更强大的基础网络时，本申请实施例提出方案的性能可以进一步提升，这表明本申请实施例所提供的方案在面向不同的基础网络结构时，都表现出了很强的可扩展性。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的图像识别方法。图6示意性地示出了本申请实施例提供的图像识别装置的结构框图。如图6所示，图像识别装置600包括：

图像获取模块610，被配置为获取待识别的图像以及与所述图像相对应的图像识别任务；

图像编码模块620，被配置为对所述图像进行编码处理得到与所述图像识别任务无关的第一图像特征以及与所述图像识别任务相关的第二图像特征；

文本特征获取模块630，被配置为获取与所述图像识别任务相关的第一文本特征以及与所述图像识别任务无关的第二文本特征；

预测模块640，被配置为根据图像特征与文本特征的特征相似度，预测所述图像识别任务的识别结果，所述特征相似度包括所述第一图像特征与所述第一文本特征的相似度以及所述第二图像特征与所述第二文本特征的相似度。

在本申请的一些实施例中，基于以上各个实施例，所述预测模块640可以进一步包括：

第一比较模块，被配置为比较所述第一图像特征和所述第一文本特征，得到第一特征相似度；

第二比较模块，被配置为比较所述第二图像特征和所述第二文本特征，得到第二特征相似度；

加权模块，被配置为根据预设权重对所述第一特征相似度和所述第二特征相似度进行加权求和，得到所述图像识别任务的预测分数；

识别模块，被配置为根据所述预测分数确定所述图像识别任务的识别结果。

在本申请的一些实施例中，基于以上各个实施例，所述识别结果包括由多个预测类别组成的类别空间，所述预测分数包括对应于各个所述预测类别的类别分数；所述识别模块进一步包括：

概率运算模块，被配置为对所述预测分数中的各个类别分数进行指数化运算得到各个所述预测类别在所述类别空间中的分布概率；

类别确定模块，被配置为将所述分布概率最大的预测类别确定为所述图像识别任务的识别结果。

在本申请的一些实施例中，基于以上各个实施例，所述图像编码模块进一步被配置为：获取与所述图像识别任务无关的图像编码器以及与所述图像识别任务相关的图像适配器，所述图像编码器是使用与所述图像识别任务无关的样本数据训练得到的图像特征提取模型，所述图像适配器是使用与所述图像识别任务相关的样本数据训练得到的图像特征提取模型；使用所述图像编码器对所述图像进行编码处理，得到与所述图像识别任务无关的第一图像特征；使用所述图像适配器对所述第一图像特征进行特征转换，得到与所述图像识别任务相关的第二图像特征。

在本申请的一些实施例中，基于以上各个实施例，所述文本特征获取模块进一步被配置为：获取与所述图像识别任务无关的文本编码器以及与所述图像识别任务相关的嵌入向量，所述文本编码器是使用与所述图像识别任务无关的样本数据训练得到的文本特征提取模型，所述嵌入向量是使用与所述图像识别任务相关的样本数据训练得到的文本特征；使用所述文本编码器对所述嵌入向量进行编码处理，得到与所述图像识别任务相关的第一文本特征；使用所述文本编码器对预设的提示文本进行编码处理，得到与所述图像识别任务无关的第二文本特征。

在本申请的一些实施例中，基于以上各个实施例，所述图像识别装置600还包括：

模型获取模块，被配置为获取用于执行所述图像识别任务的图像识别模型，所述图像识别模型包括用于提取图像特征的图像编码器、用于对所述图像特征进行特征转换的图像适配器、用于提取文本特征的文本编码器；

样本获取模块，被配置为获取用于训练所述图像识别模型的样本数据，所述样本数据包括图像样本以及与所述图像样本相关联的样本标签；

样本识别模块，被配置为使用所述图像识别模型对所述图像样本进行图像识别处理，得到与所述图像样本相对应的预测类别；

模型更新模块，被配置为根据所述预测类别和所述样本标签更新所述图像识别模型的模型参数。

在本申请的一些实施例中，基于以上各个实施例，所述模型更新模块进一步包括：

误差确定模块，被配置为根据所述预测类别和所述样本标签确定所述图像识别模型的损失误差；

反向传播模块，被配置为在所述图像识别模型中反向传播所述损失误差，得到与所述图像识别模型的模型参数相对应的误差梯度；

参数更新模块，被配置为根据所述误差梯度更新所述图像识别模型的模型参数。

在本申请的一些实施例中，基于以上各个实施例，所述损失误差包括根据当前训练轮次的样本数据确定的第一损失误差以及根据前一训练轮次的样本数据确定的第二损失误差，所述图像识别模型在所述当前训练轮次和所述前一训练轮次执行不同的图像识别任务。

在本申请的一些实施例中，基于以上各个实施例，所述第二损失误差的获取方法包括：在前一训练轮次的样本数据中随机采样得到若干数量的历史样本，并获取所述历史样本在所述前一训练轮次中的识别结果；使用所述图像识别模型对所述历史样本进行图像识别处理，得到所述历史样本在当前训练轮次中的识别结果；根据所述历史样本在前一训练轮次中的识别结果以及所述历史样本在当前训练轮次中的识别结果确定所述第二损失误差。

在本申请的一些实施例中，基于以上各个实施例，所述历史样本在当前训练轮次中的识别结果包括所述历史样本在当前训练轮次中的预测分数，所述历史样本在前一训练轮次中的识别结果包括所述历史样本在前一训练轮次中的预测分数以及所述历史样本在前一训练轮次中的预测类别；

在本申请的一些实施例中，基于以上各个实施例，根据所述历史样本在前一训练轮次中的预测类别以及所述历史样本的样本标签确定用于表示前一训练轮次的预测误差的第一子误差，包括：根据预设的交叉熵损失函数对所述历史样本在前一训练轮次中的预测类别以及所述历史样本的样本标签进行映射处理，得到用于表示前一训练轮次的预测误差的第一子误差。

在本申请的一些实施例中，基于以上各个实施例，根据所述历史样本在前一训练轮次中的预测分数以及所述历史样本在当前训练轮次中的预测分数确定用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差，包括：根据预设的均方误差损失函数对所述历史样本在前一训练轮次中的预测分数以及所述历史样本在当前训练轮次中的预测分数进行映射处理，得到用于表示前一训练轮次与当前训练轮次的分数差异的第二子误差。

本申请各实施例中提供的图像识别装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图7示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图7示出的电子设备的计算机系统700仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理器701（Central Processing Unit，CPU），其可以根据存储在只读存储器702（Read-Only Memory，ROM）中的程序或者从存储部分708加载到随机访问存储器703（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器703中，还存储有系统操作所需的各种程序和数据。中央处理器701、在只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705（Input /Output接口，即I/O接口）也连接至总线704。

以下部件连接至输入/输出接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理器701执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载