掌桥专利:专业的专利平台
掌桥专利
首页

模型更新方法、视觉任务处理方法、装置、设备及介质

文献发布时间:2024-04-18 19:58:30


模型更新方法、视觉任务处理方法、装置、设备及介质

技术领域

本申请属于人工智能技术领域,具体涉及一种模型更新方法、视觉任务处理方法、装置、设备及介质。

背景技术

随着人工智能技术的研究和进步,出现了很多计算机视觉(Computer Vision,CV)系统,比如图像识别系统、图像检索系统、视频处理系统等。计算机视觉系统的实现,离不开视觉基础模型。视觉基础模型一般以自监督的方式从海量数据中学习特征表达,可以应用于多种下游视觉任务,构成了视觉系统的基石。在视觉系统中,视觉模型通常作为上游特征提取器来提取视觉特征,通过设计不同的下游视觉任务模块来完成特定视觉任务。

由于计算机视觉技术发展迅猛,为了提升计算机视觉系统的性能,以改善用户体验,视觉基础模型需要进行不断地升级以满足发展需求。目前,视觉基础模型的升级方式多采用冷插拔式升级。在升级视觉基础模型的过程中,需要对所有的下游视觉任务模块重新进行训练。因此,这种升级方式具有低灵活性、低效率、高成本等弊端。

发明内容

为了解决上述技术问题,本申请提出了一种模型更新方法、视觉任务处理方法、装置、设备及介质。通过将训练好的预设视觉特征提取模型和初始数据转换模型进行融合得到初始更新视觉特征提取模型,利用原始视觉特征提取模型和初始更新视觉特征提取模型对同一样本多媒体数据处理得到的原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练,使初始更新视觉特征数据与原始视觉特征数据在特征空间上对齐,从而在升级视觉基础模型时,无需对下游视觉任务模块重新进行训练,提高了模型更新效率,并降低了模型更新成本。

一方面,本申请实施例提供了一种模型更新方法,所述方法包括:

获取样本多媒体数据;

将样本多媒体数据输入原始视觉特征提取模型进行视觉特征提取处理,得到原始视觉特征数据;以及将样本多媒体数据输入到初始更新视觉特征提取模型进行视觉特征提取和数据转换处理,得到初始更新视觉特征数据;初始更新视觉特征提取模型为基于预设视觉特征提取模型和初始数据转换模型融合得到;预设视觉特征提取模型用于对样本多媒体数据进行视觉特征提取,得到预设视觉特征数据;初始数据转换模型用于对预设视觉特征数据进行数据转换,得到初始更新视觉特征数据;

基于原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练,直至原始视觉特征数据和初始更新视觉特征数据的差异满足预设条件,得到目标更新视觉特征提取模型;

将原始视觉特征提取模型更新为目标更新视觉特征提取模型,目标更新视觉特征模型用于提取视觉特征数据,视觉特征数据用于执行视觉任务。

另一方面,本申请实施例还提供了一种视觉任务处理方法,所述方法包括:

获取待处理多媒体数据;

将待处理多媒体数据输入至目标更新视觉特征提取模型进行视觉特征提取,得到视觉特征数据;目标更新视觉特征提取模型为基于如上所述的模型更新方法对原始视觉特征提取模型进行更新得到;

基于视觉特征数据对视觉任务处理进行处理,得到视觉任务处理结果。

另一方面,本申请实施例还提供了一种模型更新装置,所述装置包括:

样本多媒体数据获取模块,用于获取样本多媒体数据;

样本多媒体数据处理模块,用于将样本多媒体数据输入原始视觉特征提取模型进行视觉特征提取处理,得到原始视觉特征数据;以及将样本多媒体数据输入到初始更新视觉特征提取模型进行视觉特征提取和数据转换处理,得到初始更新视觉特征数据;初始更新视觉特征提取模型为基于预设视觉特征提取模型和初始数据转换模型融合得到;预设视觉特征提取模型用于对样本多媒体数据进行视觉特征提取,得到预设视觉特征数据;初始数据转换模型用于对预设视觉特征数据进行数据转换,得到初始更新视觉特征数据;

模型训练模块,用于基于原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练,直至原始视觉特征数据和初始更新视觉特征数据的差异满足预设条件,得到目标更新视觉特征提取模型;

模型更新模块,用于将原始视觉特征提取模型更新为目标更新视觉特征提取模型,目标更新视觉特征模型用于提取视觉特征数据,视觉特征数据用于执行视觉任务。

另一方面,本申请实施例提供了一种视觉任务处理装置,所述装置包括:

待处理多媒体数据获取模块,用于获取待处理多媒体数据;

视觉特征提取模块,用于将待处理多媒体数据输入至目标更新视觉特征提取模型进行视觉特征提取,得到视觉特征数据;目标更新视觉特征提取模型为基于如上所述的模型更新方法对原始视觉特征提取模型进行更新得到;

任务处理模块,用于基于视觉特征数据对视觉任务处理进行处理,得到视觉任务处理结果。

另一方面,本申请实施例还提供了一种模型更新的电子设备,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的模型更新方法。

另一方面,本申请实施例还提供了一种视觉任务处理的电子设备,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的视觉任务处理方法。

另一方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以如上所述的模型更新方法或如上所述的视觉任务处理方法。

另一方面,本申请提供了一种计算机程序产品,所述计算机程被处理器执行时实现如上所述的模型更新方法或如上所述的视觉任务处理方法。

本申请实施例提出的模型更新方法、视觉任务处理方法、装置、设备及介质,利用原始视觉特征提取模型和初始更新视觉特征提取模型对同一样本多媒体数据处理,得到原始视觉特征数据和初始更新视觉特征数据,初始更新视觉特征提取模型为训练好的预设视觉特征提取模型和初始数据转换模型进行融合得到。然后基于原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练,直至原始视觉特征数据和初始更新视觉特征数据的差异满足预设条件,得到目标更新视觉特征提取模型,从而使目标更新视觉特征提取模型与原始视觉特征提取模型所对应的特征空间对齐。将原始视觉特征提取模型更新为目标更新视觉特征提取模型,实现了对原始视觉特征提取模型的更新。在上述模型更新过程中,目标更新视觉特征提取模型实现了对原始视觉特征提取模型的兼容性,通过该模型更新方法,不要对下游视觉任务模块进行重新训练就可以直接对原始视觉特征提取模型进行替换,具有较高的灵活性,并提高了模型更新效率,降低了模型更新成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1是根据一示例性实施例示出的一种模型更新方法/视觉任务处理方法的实施环境示意图。

图2是根据一示例性实施例示出的一种模型更新方法的流程示意图。

图3是根据一示例性实施例示出的一种数据转换模型的训练框架示意图。

图4是根据一示例性实施例示出的一种初始更新视觉特征提取模型的结构示意图。

图5是根据一示例性实施例示出的一种初始数据转换模型的结构示意图。

图6是根据一示例性实施例示出的一种维度对齐层的结构示意图。

图7是根据一示例性实施例示出的一种热/冷插拔式模型升级策略对比示意图。

图8是根据一示例性实施例示出的一种视觉任务处理方法的流程示意图。

图9是根据一示例性实施例示出的一种模型更新装置框图。

图10是根据一示例性实施例示出的一种视觉任务处理装置框图。

图11是根据一示例性实施例提供的一种模型更新方法/视觉任务处理方法的服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本申请实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请实施例,并不用于限定本申请实施例。

本申请实施例涉及人工智能(ArtificialIntelligence,AI)、机器学习(MachineLearning,ML)技术和计算机视觉技术。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能是一门综合学科,涉及的领域广泛,既有硬件层面的技术,也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互系统、机电一体化等技术;人工智能的软件技术一般包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能的发展与进步,人工智能在多个领域中进行研究和应用,如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着未来技术的进一步发展,人工智能将在更多的领域中得到应用,发挥出越来越重要的价值。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心,是使计算机具有智能的根本途径,那么深度学习则是机器学习的核心,是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习等技术,深度学习则包括移动视觉神经网络(Mobilenet)、卷积神经网络(Convolutional Neural Networks,CNN)、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别技术(OpticalCharacter Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

为了便于理解本申请实施例上述的技术方案及其产生的技术效果,本申请实施例首先对于相关专业名词进行解释:

视觉基础模型(Visual Foundation Model,VFM):视觉基础模型通常作为上游特征提取器来提取视觉特征,以用于下游的视觉任务。通常情况下,视觉基础模型会结合下游视觉任务模块进行共同训练,从而可以提高模型的整体性能。

冷插拔式模型升级(Cold-Plugging Model Upgrades):是指在更新视觉基础模型的时候,结合新的视觉基础模型对所有的下游视觉任务模块逐一进行重新训练,以使升级后的视觉基础模型所提取到的特征能够适配于下游视觉任务模块。

热插拔式模型升级(Hot-Plugging Model Upgrades):是指在更新视觉基础模型的时候,无需结合新的视觉基础模型对下游视觉任务模块进行重新训练,即可实现新旧视觉基础模型的平滑替换。

任务无关的兼容迭代器(Task-agnostic Compatible Adapter,TaCA):用于对更新视觉特征数据进行转换,使其特征空间能够与原始视觉特征数据的特征空间对齐。该兼容迭代器的工作过程与下游视觉任务无关,因此可以兼容多种下游视觉任务。

目前,计算机视觉系统根据视觉任务的不同,可以分为多种比如视频-文本检索任务系统、视频分类任务系统、视频问答任务系统等。对于任意一种视觉任务系统来说,可以利用视觉特征提取模型结合相应的下游视觉任务模块,来完成其对应的视觉任务。随着技术的进步或任务的更新,视觉特征提取模型常常需要进行升级。比如,使用视觉特征提取性能更好新视觉特征提取模型,来替代旧视觉特征提取模型。目前,视觉特征提取模型常常采用冷插拔式模型升级,即在获得新视觉特征提取模型后,再将新视觉特征提取模型与下游视觉任务处理模块组合在一起重新进行训练,以使下游视觉任务模块与新的视觉特征提取模型能够相匹配。

视觉特征提取模型通常可用于多种视觉系统,如果视觉特征提取模型采用上述升级方式进行升级,则需要对所有的下游视觉任务模块进行重新训练。并且在对下游视觉任务模块进行训练时,需要依赖于训练数据集之间的连续性来保证新旧视觉特征提取模型之间的兼容性。即旧的训练数据集需要是新的训练数据集的子集。而且,上述升级方法需要对模型中的全部参数进行训练,这对于大规模视觉特征提取模型而言,成本太过高昂。此外,通过使用下游任务模块与上游视觉特征提取模型结合的方式进行模型训练,是一种面向下游任务的学习方式,如此会损害视觉特征提取模型的泛化能力,且造成视觉特征提取模型其他任务上的性能下降。因此,需要设计一种热插拔式模型升级方式,来对视觉特征提取模型进行升级。而且,为了使新的视觉特征提取模型可以无缝整合到多种视觉系统中,且无需对下游视觉任务模块进行重新训练,新的视觉特征提取模型还需要与旧的模型具有兼容性。换而言之,不同视觉系统中的上游视觉特征提取模型,所提取到的视觉特征具有直接可比性。

为了实现上述目的,视觉特征提取模型应以一种与下游视觉任务无关的方式实现与旧的视觉特征提取模型兼容。同时,在对视觉特征提取模型进行更新时,新的视觉特征提取模型能够带来的性能增益。假设以φ表示视觉基础模型,ζ表示下游视觉任务模块,

其中,

有鉴于此,本申请实施例提出了一种模型更新方法、视觉任务处理方法、装置、设备及介质,利用原始视觉特征提取模型和初始更新视觉特征提取模型对同一样本多媒体数据处理,得到原始视觉特征数据和初始更新视觉特征数据,初始更新视觉特征提取模型为训练好的预设视觉特征提取模型和初始数据转换模型进行融合得到。然后基于原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练,直至原始视觉特征数据和初始更新视觉特征数据的差异满足预设条件,得到目标更新视觉特征提取模型,从而使目标更新视觉特征提取模型与原始视觉特征提取模型所对应的特征空间对齐。将原始视觉特征提取模型更新为目标更新视觉特征提取模型,实现了对原始视觉特征提取模型的更新。在上述模型更新过程中,目标更新视觉特征提取模型实现了对原始视觉特征提取模型的兼容性,通过该模型更新方法,不要对下游视觉任务模块进行重新训练就可以直接对原始视觉特征提取模型进行替换,具有较高的灵活性,并提高了模型更新效率,降低了模型更新成本。

图1是根据一示例性实施例示出的一种模型更新方法/视觉任务处理方法的实施环境示意图。如图1所示,该应用环境可以至少包括服务器01和终端02。在实际应用中,服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例对此不做限制。

本申请实施例中,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。具体地,上述涉及的服务器可以包括实体设备,可以具体包括有网络通信子模块、处理器和存储器等等,也可以包括运行于实体设备中的软体,可以具体包括有应用程序等。

本申请实施例中,终端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能语音交互设备、智能家电、智能可穿戴设备、车载终端设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。

本申请实施例中,服务器01可以是为目标应用程序提供服务的后台服务器,该后台服务器可以用于对目标应用程序的版本进行管理、对目标应用程序获取到的图像进行处理并向终端02返回处理结果或对开发人员开发的机器学习模型进行后台训练等等。

本申请实施例中,终端02可以包括开发人员或用户使用的终端。当终端02为开发人员使用的终端时,开发人员可以通过终端02开发用于对图像进行指定图像处理任务的机器学习模型,并将机器学习模型部署到服务器01或者用户使用的终端中。当终端02为用户使用的终端时,终端02中可以安装有获取图像的处理结果并呈现的目标应用程序,终端02获取到图像后,可以通过上述目标应用程序获取对图像进行指定图像处理任务得到的处理结果,并对处理结果进行呈现。

需要说明的是,图1仅仅是一种示例。在其他场景中,还可以包括其他实施环境。

图2是根据一示例性实施例示出的一种模型更新方法的流程示意图。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:

S101:获取样本多媒体数据。

本申请实施例,提出了实现对视觉特征提取模型进行热插拔式模型升级的方式,通过设计一个训练高效、与下游任务无关的数据转换模型,可以将新的视觉特征提取模型与旧的视觉特征提取模型的输出结果的特征空间对齐,下游视觉任务模块可以无缝对接新的视觉基础模型,从而无需再对下游模块进行重训练。

本申请实施例中,新的视觉特征提取模型为基于预设模型训练方法训练得到的预设视觉特征提取模型。预设视觉特征提取模型可以是卷积神经网络(ConvolutionalNeural Network,CNN),也可以是预训练视觉模型,比如视觉变换器(Vision Transformer,ViT)等。预设视觉特征提取模型在训练时可以不结合下游视觉任务模块进行训练,即预设视觉特征提取模型仅用来实现对输入的多媒体数据进行视觉特征提取,从而预设视觉特征提取模型能够应用于多种下游视觉任务。

本申请实施例中,旧的视觉特征提取模型为模型升级前,视觉系统中用来进行视觉特征提取的模型,即原始视觉特征提取模型。在模型升级后,原始视觉特征提取模型会被预设视觉特征提取模型替换掉。由于预设视觉特征提取模型输出的预设视觉特征数据的特征空间上不一定能够与原始视觉特征提取模型所输出的原始视觉特征数据的特征空间对齐,因此预设视觉特征提取模型并不能直接对原始视觉特征提取模型进行替换,需要对其输出的预设视觉特征数据进行数据转换,以使转换后的预设视觉特征数据能够与原始视觉特征数据在特征空间上对齐,从而预设视觉特征提取模型就不需要再结合下游视觉任务模块进行重新训练,提高系统升级效率。特征空间是一个向量空间,它表示一个矩阵的某种特殊性质,特征空间是由该矩阵的所有基向量构成的向量空间。转换后的预设视觉特征数据能够与原始视觉特征数据在特征空间上对齐是指,转换后的预设视觉特征数据的特征空间与原始视觉特征数据的特征空间,在维度、特征向量分布等是相似的。

本申请实施例中,在对视觉特征提取模型进行热插拔式模型升级时,首先需要获取多媒体样本数据来训练一个与下游视觉任务无关的数据转换模型,以对预设视觉特征提取模型所输出的视觉特征数据进行数据转换,从而使转换后的视觉特征数据能够在特征空间上与原始视觉特征提取模型所输出的原始视觉特征数据对齐。可选的,与下游视觉任务无关的数据转换模型可以是任务无关的兼容迭代器。可选的,样本多媒体数据可以为图像样本数据,也可以是图像样本数据与文本样本数据组合而成的样本数据组合。样本多媒体数据可以分别被原始视觉特征提取模型和预设视觉特征提取模型进行视觉特征提取,通过比较新旧视觉特征提取模型所输出视觉特征数据的差异,来对数据转换模型进行训练。

S103:将样本多媒体数据输入原始视觉特征提取模型进行视觉特征提取处理,得到原始视觉特征数据;以及将样本多媒体数据输入到初始更新视觉特征提取模型进行视觉特征提取和数据转换处理,得到初始更新视觉特征数据。

本申请实施例中,在训练数据转换模型时,可以先将初始数据转换模型和预设视觉特征提取模型进行融合得到初始更新视觉特征提取模型,然后将样本多媒体数据输入到原始视觉特征提取模型中进行视觉特征提取处理,得到原始视觉特征数据。并将样本多媒体数据输入到初始更新视觉特征提取模型进行视觉特征提取和数据转换处理,得到初始更新视觉特征数据。初始更新视觉特征数据是由预设视觉特征提取模型输出的预设视觉特征数据,通过初始数据转换模型进行数据转换得到,从而初始更新视觉特征数据在特征空间上与原始视觉特征数据对齐。可选的,上述将样本多媒体数据输入到原始视觉特征提取模型以及初始更新视觉特征提取模型中进行视觉特征提取处理,可以采用并行处理的方式,也可以采用串行处理的方式。

本申请实施例中,原始视觉特征提取模型可以接受单模态多媒体数据的输入,也可以接受多模态多媒体数据的输入。具体来说,视觉系统中,所对应的原始视觉特征提取模型可以有一个,也可以有多个。不同的原始视觉特征提取模型所接受输入的多媒体数据的模态不同。比如,视觉系统中可以仅包括一个原始视觉特征提取模型,该原始视觉特征提取模型可以接受图像数据的输入,该原始视觉特征提取模型通过对输入的图像数据进行视觉特征提取,然后将提取得到的图像视觉特征数据输入到下游视觉任务模块中进行处理。再如,视觉系统中的原始视觉特征提取模型可以是接受图像数据输入的原始图像特征提取子模型,以及接受文本数据输入的原始文本特征提取子模型。需要说明的是,输入原始文本特征提取子模型的文本数据,通常是用来描述输入原始图像特征提取子模型的图像数据,原始图像特征提取子模型可以对输入的图像数据进行视觉特征提取得到图像视觉特征数据,原始文本特征提取子模型可以对输入的文本数据进行视觉特征提取得到文本视觉特征数据,通过将图像视觉特征数据和文本视觉特征数据进行融合,得到融合视觉特征数据,然后将融合视觉特征数据输入到下游视觉任务模块中进行处理,这样可以提升视觉特征提取模型的性能。

本申请实施例中,图3是根据一示例性实施例示出的一种数据转换模型的训练框架示意图,如图3所示,初始数据转换模型和预设视觉特征提取模型进行融合得到初始更新视觉特征提取模型,初始更新视觉特征提取模型所输出的初始更新视觉特征数据既可以与单模态的原始视觉特征提取模型所输出的原始视觉特征数据进行对齐,也可以与多模态的原始视觉特征提取模型所输出的原始视觉特征数据进行对齐。

本申请实施例中,在原始视觉特征提取模型仅接受单模态多媒体数据的输入的情况下,在训练数据转换模型时,可以分别将样本多媒体数据输入到原始视觉特征提取模型和初始更新视觉特征提取模型进行处理,以得到原始视觉特征数据和初始更新视觉特征数据。

本申请实施例中,在原始视觉特征提取模型可以接受多模态多媒体数据的输入的情况下,所采用的样本多媒体数据则包括样本图像数据和样本文本数据。其中,样本文本数据用于描述样本图像数据。比如,样本图像数据为一张猫的图像,则样本文本数据可以是“趴在草地上晒太阳的橘猫”。原始视觉特征提取模型可以包括接受样本图像数据输入的原始图像特征提取子模型和接受样本文本数据输入的原始文本特征提取子模型。在将样本多媒体数据输入原始视觉特征提取模型进行视觉特征提取处理时,需要将样本图像数据输入至原始图像特征提取子模型进行图像视觉特征提取,得到原始图像视觉特征数据,以及将样本文本数据输入至原始文本特征提取子模型进行文本视觉特征提取,得到原始文本视觉特征数据。然后将原始图像视觉特征数据和原始文本视觉特征数据均作为原始视觉特征数据。在样本多媒体数据包括样本图像数据和样本文本数据两种模态数据的情况下,由于需要进行的是视觉特征提取,样本图像数据通常会包含更多的视觉特征信息,因此可以将样本图数据输入到初始更新视觉特征提取模型进行视觉特征提取处理。具体的,将样本图像数据输入至初始更新视觉特征提取模型进行图像视觉特征提取,得到初始更新视觉特征数据。通过将样本图像数据输入至初始更新视觉特征提取模型进行图像视觉特征提取和数据转换处理,使得到的初始更新视觉特征数据可以与多模态的原始视觉特征提取模型所输出的原始视觉特征数据进行对齐,从而使训练得到的目标更新视觉特征提取模型具备多模态兼容性,扩展了模型更新方法的应用范围。

本申请实施例中,预设视觉特征提取模型可以是基于Transformer(变换器)结构的模型。预设视觉特征提取模型包括多个堆叠在一起的编码器,每个编码器可以包括依次连接的自注意力计算模层(Self-Attention)、层归一化层(layer normalization)和前馈层(Feed forward)。自注意力层用于计算输入数据中每个单元(token)之间的自注意力,得到自注意力数据。层归一化层用于对自注意力数据进行层归一化处理。前馈层用于将将层归一化处理结果进行前向传播。图4是根据一示例性实施例示出的一种初始更新视觉特征提取模型的结构示意图,如图4所示,在将初始数据转换模型和预设视觉特征提取模型进行融合时,可以是将初始数据转换模型插入到每个编码器中,从而得到初始更新视觉特征提取模型。插入初始数据转换模型后的编码器为融合编码器,初始更新视觉特征提取模型为多层融合编码器堆叠的模型结构。对于预设视觉特征提取模型中任意一个编码器来说,初始数据转换模型可以插入在前馈层之后,为了改善初始数据转换模型的训练稳定性,还可以在初始数据转换模型之后设置一个层归一化层。

本申请实施例中,图5是根据一示例性实施例示出的一种初始数据转换模型的结构示意图,如图5所示,初始数据转换模型可以包括下采样层、激活层和上采样层。下采样层用于对前馈层所输出的数据进行下采样处理,激活层中设置有激活函数,可以基于激活函数对下采样处理得到的下采样视觉特征处理结果进行激活处理,从而得到视觉特征激活处理结果。上采样层用于对视觉特征激活处理结果进行上采样处理,以恢复下采样处理前数据的维度。也就是说,初始数据转换模型是一个包含下采样层、激活层、以及上采样层的瓶颈式模块。对于给定下采样层的输入x,输出结果可以表示为:

Adapter(x)=x+W

公式(1);

其中,W

作为一种示例,由于初始更新视觉特征提取模型为多层融合编码器堆叠的模型结构,以下以初始更新视觉特征提取模型包括一层融合编码器为例,对样本多媒体数据输入到初始更新视觉特征提取模型后的数据处理流程进行说明。初始更新视觉特征提取模型包括一层融合编码器的情况下,预设视觉特征提取模型同样为一层编码器结构。当样本多媒体数据输入到初始更新视觉特征提取模型时,先由预设视觉特征提取模型进行处理,然后再由初始数据转换模型进行处理。具体的,将样本多媒体数据输入到初始更新视觉特征提取模型进行处理时,由预设视觉特征提取模型进行视觉特征提取,得到预设视觉特征数据。然后将预设视觉特征数据输入至初始数据转换模型中的下采样层进行下采样处理,得到维度为第二预设维度的下采样视觉特征处理结果。如果预设视觉特征数据的维度为第一预设维度,则第二预设维度小于第一预设维度。然后将下采样视觉特征处理结果输入至初始数据转换模型中的激活层进行激活处理,得到视觉特征激活处理结果。接着再将视觉特征激活处理结果输入至初始数据转换模型中的上采样层进行上采样处理,得到维度为第一预设维度的上采样视觉特征处理结果。最后基于上采样视觉特征处理结果,确定初始更新视觉特征数据。通过对预设视觉特征数据进行下采样处理,可以降低预设视觉特征数据的维度,从而降低后续激活处理的数据运算量,然后通过对视觉特征激活处理结果进行上采样处理,可以使上采样视觉特征处理结果的维度恢复到与预设视觉特征数据相同的维度,从而便于后续运算处理。

需要说明的是,当初始更新视觉特征提取模型包括多层堆叠的融合编码器时,最底层的融合编码器的处理过程与上述示例相同,最底层之上的融合编码器,其输入数据不是样本多媒体数据而是上一层融合编码器中的初始数据转换模型所输出的数据转换结果,且对于输入的数据转换结果进行的处理是,由该层融合编码器中的编码器(预设视觉特征提取模型中的编码器)进行视觉特征提取,得到视觉特征提取结果,然后由该层融合编码器中的初始数据转换模型对视觉特征提取结果依次进行下采样处理、激活处理、上采样处理。

本申请实施例中,为了使初始更新视觉特征提取模型所输出的初始更新视觉特征数据与原始视觉特征数据维度相同,还可以在初始更新视觉特征提取模型中设置维度对齐层。如图4所示,维度对齐层设置最上层的融合编码器之后,用于对最上层的融合编码器所输出的数据转换结果进行维度转换。具体的,在原始视觉特征数据的维度为第三预设维度的情况下,将上采样视觉特征处理结果输入到维度对齐层进行维度对齐处理,得到维度为第三预设维度的初始更新视觉特征数据。通过将上采样视觉特征处理结果输入到维度对齐层进行维度对齐处理,使得到的初始更新视觉特征数据的维度与原始视觉特征数据的维度相同,从而使初始更新视觉特征数据和原始视觉特征数据在特征空间中能够对齐。

本申请实施例中,维度对齐层用于对齐原始视觉特征提取模型据与初始更新视觉特征提取模型的维度。可选的,维度对齐层由多层感知机(Multilayer Perceptron,MLP)。图6是根据一示例性实施例示出的一种维度对齐层的结构示意图,如图6所示,维度对齐层可以是一个两层的多层感知机,通过设计多层感知机的输出维度,使维度对齐层处的初始更新视觉特征数据的维度与原始视觉特征数据的维度对齐。

S105:基于原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练,直至原始视觉特征数据和初始更新视觉特征数据的差异满足预设条件,得到目标更新视觉特征提取模型。

本申请实施例中,在得到原始视觉特征数据和初始更新视觉特征数据后,可以基于原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练。在模型训练过程中,初始更新视觉特征提取模型中的预设视觉特征提取模型参与视觉特征的提取,而初始更新视觉特征提取模型中的初始数据转换模型对预设视觉特征提取模型处理得到视觉特特征进行数据转换。具体来说,在进行模型进行时,可以基于原始视觉特征数据和初始更新视觉特征数据之间的差异,确定目标模型损失数据。然后基于目标模型损失数据,对初始更新视觉特征提取模型中的初始数据转换模型的参数进行调整,直至目标模型损失数据满足预设条件,得到目标更新视觉特征提取模型。预设条件为目标模型损失数据小于等于阈值。通过基于原始视觉特征数据和初始更新视觉特征数据之间的差异,确定目标模型损失数据,并基于目标模型损失数据对初始更新视觉特征提取模型中的初始数据转换模型的参数进行调整,从而是最终得到的目标更新视觉特征提取模型所输出的结果,在特征空间上能够与原始视觉特征提取数据对齐,进而可以在不结合下游视觉任务模块的情况下,实现对原始视觉特征提取模型的更新。

本申请实施例中,根据原始视觉特征提取模型可以是接受样本多媒体数据模态的类型,目标模型损失数据可以分为单模态模型损失数据和多模态模型损失数据。单模态模型损失数据是指输入原始视觉特征提取模型的多媒体样本数据为样本图像数据,该样本图像数据也会被输入至初始更新视觉特征提取模型中进行处理。单模态情况下的目标模型损失数据,可以通过一个蒸馏损失函数实现原始视觉特征数据的特征空间和初始更新视觉特征数据的特征空间之间的对齐,蒸馏损失函数可以表示为:

其中,L

本申请实施例中,多模态模态情况下的目标模型损失数据,可以分别计算各个模态所输出的视觉特征数据与初始更新视觉特征数据之间的损失数据,然后再基于这些损失数据确定目标模型损失数据。具体的,以多模态下的样本多媒体数据包括样本图像数据和样本文本数据为例,样本图像数据经过原始图像特征提取子模型处理后,得到原始图像视觉特征数据,样本文本数据经过原始文本特征提取子模型处理后,得到原始文本视觉特征数据。基于原始图像视觉特征数据和初始更新视觉特征数据,可以确定第一模型损失数据。基于原始文本视觉特征数据和初始更新视觉特征数据,可以确定第二模型损失数据。基于第一模型损失数据和第二模型损失数据,确定目标模型损失数据。通过分别计算各个模态下所得到的原始视觉特征数据与初始更新视觉特征数据之间的损失,然后在根据这些损失数据确定目标模型损失数据,可以使最终训练得到目标更新视觉特征提取模型能够跨模态兼容多种类型的原始视觉特征提取模型,从而使目标更新视觉特征提取模型具有更好的兼容性。

本申请实施例中,通过引入跨模态的兼容损失函数,可以进一步改善最终训练得到目标更新视觉特征提取模型的兼容性。兼容损失函数能够最大化相匹配的原始视觉特征数据与初始更新视觉特征数据之间的相似度,同时最小化非匹配的原始视觉特征数据与初始更新视觉特征数据之间的相似度,兼容损失函数可以表示为:

其中,L

其中,q,k只是代指符号,例如公式(3)中的

本申请实施例中,多模态情况下的目标损失函数整合了单模态的损失以及跨模态的损失,目标损失函数可以表示为:

L

公式(5);

其中,L

本申请实施例中,按照上述公式(2)或公式(5)来计算目标模型损失数据,然后判断目标模型损失数据是否小于等于阈值,如果大于阈值则可以对初始更新视觉特征提取模型中初始数据转换模型的模型参数进行调整,直至目标模型损失数据小于等于阈值。此时,可以得到目标更新视觉特征提取模型。

S107:将原始视觉特征提取模型更新为目标更新视觉特征提取模型,目标更新视觉特征模型用于提取视觉特征数据,视觉特征数据用于执行视觉任务。

本申请实施例中,通过对初始更新视觉特征提取模型中的初始数据转换模型进行训练,最终得到目标更新视觉特征提取模型。目标更新视觉特征提取模型在对样本多媒体数据进行处理所得到的目标更新视觉特征数据的特征空间,与原始视觉特征提取模型对该样本多媒体数据进行处理所得到的原始视觉特征数据的特征空间对齐。在这种情况下,可以使用目标更新视觉特征提取模型来替换原始视觉特征提取模型,且目标更新视觉特征提取模型能够与下游视觉任务模块无缝对接,从而无需在结合下游视觉任务对预设视觉特征提取模型进行训练,实现了视觉特征提取模型的热插拔式模型升级。

本申请实施例中,图7是根据一示例性实施例示出的一种热/冷插拔式模型升级策略对比示意图,如图7所示,左侧为热插拔式模型升级,即本申请实施例所述的模型更新方法,右侧为冷插拔式模型升级。从图中可以看出,本申请实施例提出的热插拔式模型升级,可以在对视觉特征提取模型更新的同时,免去下游视觉任务模块的重训练。与之对应的是,冷插拔式模型升级,在对视觉特征提取模型更新的同时,需要对所有下游模块进行冲训练,这种方式在面对大量不同的下游视觉任务时具有效率低、灵活度差等问题。可见,基于本申请实施例所述的模型更新方法,对原始视觉特征提取模型进行更新,在改善现有视觉系统的性能以及改善用户的使用体验的同时,也提高了原始视觉特征提取模型更细效率,并降低了原始视觉特征提取模型更新成本,还提高了视觉特征提取模型的应用灵活性。

本申请实施例还提供了一种视觉任务处理方法,图8是根据一示例性实施例示出的一种视觉任务处理方法的流程示意图。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图8所示,该方法可以包括:

S201:获取待处理多媒体数据。

S203:将待处理多媒体数据输入至目标更新视觉特征提取模型进行视觉特征提取,得到视觉特征数据。

S205:基于视觉特征数据对视觉任务处理进行处理,得到视觉任务处理结果。

上述步骤S201-步骤S205中,待处理多媒体数据可以为待处理的图像数据。目标更新视觉特征提取模型为基于上述模型更新方法对原始视觉特征提取模型进行更新得到。通过将待处理多媒体数据输入至目标更新视觉特征提取模型进行视觉特征提取,得到视觉特征数据。然后再将视觉特征数据输入下游视觉任务模块进行处理,即可得到视觉任务处理结果。需要说明的是,这里提到的下游视觉任务模块,与未对原始视觉特征提取模型进行替换之前相同。

本申请实施例中,利用前述模型更新方法对原始视觉特征提取模型进行更新,可以很好地提升视觉系统的性能,同时又免去下游视觉任务模块的重新训练成本,从而可以将其推往更加广泛的应用领域。利用前述模型更新方法,将得到目标更新视觉特征提取模型应用在视频-文本检索系统、视频分类系统以及视频问答系统进行验证,均取得了较好的系统性能提升。

本申请实施例中,表1为根据一示例性实施例示出的一种将目标更新视觉特征提取模型应用在视频-文本检索系统的试验结果表,如表1所示,通过采用基于图片-文本检索模型(Contrastive Language-Image Pretraining,CLIP)下的视觉模型验证数据集,比如,MSR-VTT(MSR Video to Text,MSR视频转文本)、MSVD(Microsoft Research VideoDescription Corpus,Microsoft研究视频描述语料库)、DiDeMo(Distinct DescribableMoments,独特的可描述时刻),对目标更新视觉特征提取模型应用在视频-文本检索系统中的效果进行测试,评价指标则是T2V(文本检索视频的准确率)、以及V2T(视频检索文本的准确率)。其中,原始视觉特征提取模型可以表示为Old VFM(旧模型),目标更新视觉特征提取模型可以表示为New VFM(新模型)。在表1中,选择原始视觉特征提取模型为B型视觉transformer(ViT-B)以及L型视觉transformer(ViT-L)来模拟两种兼容场景。如表1所示,使用目标更新视觉特征提取模型的视频-文本检索系统在三个数据集上相较于使用原始视觉特征提取模型的视频-文本检索系统而言,都有着显著提升。以ViT-H兼容ViT-B为例,使用目标更新视觉特征提取模型的视频-文本检索系统在MSR-VTT视觉模型验证数据集上提升了5.1%,在MSVD视觉模型验证数据集上提升了0.7%,在DiDeMo视觉模型验证数据集上提升了1.1%。

表1目标更新视觉特征提取模型应用在视频-文本检索系统的试验结果表

本申请实施例中,表2为根据一示例性实施例示出的一种将目标更新视觉特征提取模型应用在视频分类系统的试验结果表,如表2所示,通过采用冻结对比语言图像预训练(Frozen Contrastive Language-Image Pre-Training,FrozenClip)框架,在两个下游数据集(比如,Kinetics-400和UCF-101)中,对目标更新视觉特征提取模型应用在视频分类系统的性能进行测试,评价指标为视频分类准确率。如表2所示,目标更新视觉特征提取模型应用在视频分类系统可以带来下游任务的性能提升。例如,从ViT-B升级到ViT-L,在Kinetics-400数据集上有着2.2%的提升。

表2目标更新视觉特征提取模型应用在视频分类系统的试验结果表

本申请实施例中,表3为根据一示例性实施例示出的一种将目标更新视觉特征提取模型应用在视频问答系统的试验结果表,如表3所示,通过采用多模态模型框架(比如OpenFlamingo和BLIP-2),在下游数据集(比如VQAv2)上进行测试,评价指标为问题回答的准确率。如表3所示,目标更新视觉特征提取模型应用在视频问答系统可以带来下游任务的性能提升。

表3目标更新视觉特征提取模型应用在视频问答系统的试验结果表

本申请实施例还提供了一种模型更新装置,图9是根据一示例性实施例示出的一种模型更新装置框图。如图9所示,该装置可以至少包括:

样本多媒体数据获取模块301,用于获取样本多媒体数据;

样本多媒体数据处理模块303,用于将样本多媒体数据输入原始视觉特征提取模型进行视觉特征提取处理,得到原始视觉特征数据;以及将样本多媒体数据输入到初始更新视觉特征提取模型进行视觉特征提取和数据转换处理,得到初始更新视觉特征数据;初始更新视觉特征提取模型为基于预设视觉特征提取模型和初始数据转换模型融合得到;预设视觉特征提取模型用于对样本多媒体数据进行视觉特征提取,得到预设视觉特征数据;初始数据转换模型用于对预设视觉特征数据进行数据转换,得到初始更新视觉特征数据;

模型训练模块305,用于基于原始视觉特征数据和初始更新视觉特征数据,对初始更新视觉特征提取模型中的初始数据转换模型进行训练,直至原始视觉特征数据和初始更新视觉特征数据的差异满足预设条件,得到目标更新视觉特征提取模型;

模型更新模块307,用于将原始视觉特征提取模型更新为目标更新视觉特征提取模型,目标更新视觉特征模型用于提取视觉特征数据,视觉特征数据用于执行视觉任务。

在一些可选的实施例中,初始数据转换模型包括下采样层、激活层和上采样层;预设视觉特征数据的维度为第一预设维度;样本多媒体数据处理模块包括:

预设视觉特征数据确定子模块,用于将样本多媒体数据输入到预设视觉特征提取模型进行视觉特征提取,得到预设视觉特征数据;

下采样子模块,用于将预设视觉特征数据输入至下采样层进行下采样处理,得到维度为第二预设维度的下采样视觉特征处理结果;第二预设维度小于第一预设维度;

激活子模块,用于将下采样视觉特征处理结果输入至激活层进行激活处理,得到视觉特征激活处理结果;

上采样子模块,用于将视觉特征激活处理结果输入至上采样层进行上采样处理,得到维度为第一预设维度的上采样视觉特征处理结果;

初始更新视觉特征数据确定子模块,用于基于上采样视觉特征处理结果,确定初始更新视觉特征数据。

在一些可选的实施例中,原始视觉特征数据的维度为第三预设维度;初始更新视觉特征提取模型包括维度对齐层;初始更新视觉特征数据确定子模块包括:

维度对齐单元,用于将上采样视觉特征处理结果输入到维度对齐层进行维度对齐处理,得到维度为第三预设维度的初始更新视觉特征数据。

在一些可选的实施例中,模型训练模块包括:

目标模型损失数据确定子模块,用于基于原始视觉特征数据和初始更新视觉特征数据之间的差异,确定目标模型损失数据;

参数调整子模块,用于基于目标模型损失数据,对初始更新视觉特征提取模型中的初始数据转换模型的参数进行调整,直至目标模型损失数据满足预设条件,得到目标更新视觉特征提取模型。

在一些可选的实施例中,样本多媒体数据包括样本图像数据和样本文本数据,样本文本数据用于描述样本图像数据;原始视觉特征提取模型包括原始图像特征提取子模型和原始文本特征提取子模型;样本多媒体数据处理模块包括:

原始图像视觉特征数据确定单元,用于将样本图像数据输入至原始图像特征提取子模型进行图像视觉特征提取,得到原始图像视觉特征数据;

原始文本视觉特征数据确定单元,用于将样本文本数据输入至原始文本特征提取子模型进行文本视觉特征提取,得到原始文本视觉特征数据;

原始视觉特征数据确定单元,用于将原始图像视觉特征数据和原始文本视觉特征数据作为原始视觉特征数据。

在一些可选的实施例中,样本多媒体数据处理模块包括:

初始更新视觉特征数据确定单元,用于将样本图像数据输入至初始更新视觉特征提取模型进行图像视觉特征提取,得到初始更新视觉特征数据。

在一些可选的实施例中,目标模型损失数据确定子模块包括:

第一模型损失数据确定单元,用于基于原始图像视觉特征数据和初始更新视觉特征数据,确定第一模型损失数据;

第二模型损失数据确定单元,用于基于原始文本视觉特征数据和初始更新视觉特征数据,确定第二模型损失数据;

目标模型损失数据确定单元,用于基于第一模型损失数据和第二模型损失数据,确定目标模型损失数据。

需要说明的是,本申请实施例提供的模型更新装置实施例与上述模型更新方法实施例基于相同的发明构思,关于模型更新装置的具体实施情况请参考上述描述模型更新方法的全部实施方式,在此不再赘述。

本申请实施例还提供了一种视觉任务处理装置,图10是根据一示例性实施例示出的一种视觉任务处理装置框图。如图10所示,该装置可以至少包括:

待处理多媒体数据获取模块401,用于获取待处理多媒体数据;

视觉特征提取模块403,用于将待处理多媒体数据输入至目标更新视觉特征提取模型进行视觉特征提取,得到视觉特征数据;目标更新视觉特征提取模型为基于如上所述的模型更新方法对原始视觉特征提取模型进行更新得到;

任务处理模块405,用于基于视觉特征数据对视觉任务处理进行处理,得到视觉任务处理结果。

需要说明的是,本申请实施例提供的视觉任务处理装置实施例与上述视觉任务处理方法实施例基于相同的发明构思,关于视觉任务处理装置的具体实施情况请参考上述描述视觉任务处理方法的全部实施方式,在此不再赘述。

本申请实施例还提供了一种模型更新的电子设备,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的模型更新方法。

本申请实施例还提供了一种视觉任务处理的电子设备,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的视觉任务处理方法。

本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种方法的至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的方法。

可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。

本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的方法。

本申请实施例所提供的方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图11是根据一示例性实施例提供的一种模型更新方法/视觉任务处理方法的服务器的硬件结构框图。如图11所示,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(CentralProcessing Units,CPU)510(中央处理器510可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器530,一个或一个以上存储应用程序523或数据522的存储介质520(例如一个或一个以上海量存储设备)。其中,存储器530和存储介质520可以是短暂存储或持久存储。存储在存储介质520的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器510可以设置为与存储介质520通信,在服务器500上执行存储介质520中的一系列指令操作。服务器500还可以包括一个或一个以上电源560,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口540,和/或,一个或一个以上操作系统521,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

输入输出接口540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器500的通信供应商提供的无线网络。在一个实例中,输入输出接口540包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口540可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器500还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。

需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 任务处理方法、装置、电子设备及计算机可读存储介质
  • 任务处理方法及装置、电子设备及存储介质
  • 绩效任务数据处理方法、装置、计算机设备及存储介质
  • 任务处理方法、装置、电子设备及计算机可读存储介质
  • 一种任务处理方法、装置、设备及机器可读存储介质
  • 视觉语言模型获得及任务处理方法、装置、设备及介质
  • 一种模型训练方法、视觉任务处理方法、装置及设备
技术分类

06120116503594