掌桥专利:专业的专利平台
掌桥专利
首页

基于开放世界大模型的半自动化标注方法和装置

文献发布时间:2024-04-18 19:58:21


基于开放世界大模型的半自动化标注方法和装置

技术场景

本申请涉及人工智能技术领域,特别是涉及一种基于开放世界大模型的半自动化标注方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展,出现了图像标注技术,该技术是一种将文本描述与图像相关联的方法,旨在使计算机能够理解和解释图像内容。这项技术在计算机视觉、人工智能和自然语言处理场景发挥着重要作用。图像标注通常用于为图像添加描述、标签或关键词,以便计算机可以更好地理解图像,并将其转化为可处理的数据。

传统技术中,是基于人工定义的规则描述了图像中可能存在的对象、场景和关系,然后通过匹配图像特征来生成图像的标注;然而,图像标注过程需要人工参与,耗时且费力,限制了图像数据的利用和应用,导致了对目标图像中的图像信息进行图像标注的效率低下。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高的对目标图像中的图像信息进行图像标注的效率方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面,本申请提供了一种基于开放世界大模型的半自动化标注方法。所述方法包括:获取目标场景对应的待标注目标场景数据以及数据标注需求信息;将所述待标注目标场景数据以及所述数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;根据所述目标模型标注类别以及所述目标模型标注逻辑,对所述待标注目标场景数据进行标注,得到预标注目标场景数据;获取标注数据修改信息,根据所述标注数据修改信息,对所述预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

第二方面,本申请还提供了一种基于开放世界大模型的半自动化标注装置。所述装置包括:数据获取模块,用于获取目标场景对应的待标注目标场景数据以及数据标注需求信息;数据分析模块,用于将所述待标注目标场景数据以及所述数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;数据标注模块,用于根据所述目标模型标注类别以及所述目标模型标注逻辑,对所述待标注目标场景数据进行标注,得到预标注目标场景数据;标注调整模块,用于获取标注数据修改信息,根据所述标注数据修改信息,对所述预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取目标场景对应的待标注目标场景数据以及数据标注需求信息;将所述待标注目标场景数据以及所述数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;根据所述目标模型标注类别以及所述目标模型标注逻辑,对所述待标注目标场景数据进行标注,得到预标注目标场景数据;获取标注数据修改信息,根据所述标注数据修改信息,对所述预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取目标场景对应的待标注目标场景数据以及数据标注需求信息;将所述待标注目标场景数据以及所述数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;根据所述目标模型标注类别以及所述目标模型标注逻辑,对所述待标注目标场景数据进行标注,得到预标注目标场景数据;获取标注数据修改信息,根据所述标注数据修改信息,对所述预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取目标场景对应的待标注目标场景数据以及数据标注需求信息;将所述待标注目标场景数据以及所述数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;根据所述目标模型标注类别以及所述目标模型标注逻辑,对所述待标注目标场景数据进行标注,得到预标注目标场景数据;获取标注数据修改信息,根据所述标注数据修改信息,对所述预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

上述一种基于开放世界大模型的半自动化标注方法、装置、计算机设备、存储介质和计算机程序产品,通过获取目标场景对应的待标注目标场景数据以及数据标注需求信息;将待标注目标场景数据以及数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;根据目标模型标注类别以及目标模型标注逻辑,对待标注目标场景数据进行标注,得到预标注目标场景数据;获取标注数据修改信息,根据标注数据修改信息,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

通过结合开放世界大模型和数据标注需求信息,对目标场景对应的待标注目标场景数据进行图像标注,并进一步利用用户输入的标注数据修改信息对图像标注结果进行修订。结合系统的自动反馈循环机制,能够利用用户的修改来调整开放世界大模型,有利于提高的对目标图像中的图像信息进行图像标注的效率。

附图说明

图1为一个实施例中一种基于开放世界大模型的半自动化标注方法的应用环境图;

图2为一个实施例中一种基于开放世界大模型的半自动化标注方法的流程示意图;

图3为一个实施例中目标模型标注类别以及目标模型标注逻辑识别方法的流程示意图;

图4为另一个实施例中目标模型标注类别以及目标模型标注逻辑识别方法的流程示意图;

图5为一个实施例中预标注目标场景数据得到方法的流程示意图;

图6为一个实施例中已标注目标场景数据得到方法的流程示意图;

图7为一个实施例中开放世界大模型训练方法的流程示意图;

图8为一个实施例中开放世界大模型优化方法的流程示意图;

图9为一个实施例中一种基于开放世界大模型的半自动化标注系统及运用其方法整体架构示意图;

图10为一个实施例中增量学习机制的实现过程示意图;

图11为一个实施例中一种基于开放世界大模型的半自动化标注装置的结构框图;

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的一种基于开放世界大模型的半自动化标注方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104从终端102处获取目标场景对应的待标注目标场景数据以及数据标注需求信息;将待标注目标场景数据以及数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;根据目标模型标注类别以及目标模型标注逻辑,对待标注目标场景数据进行标注,得到预标注目标场景数据;获取标注数据修改信息,根据标注数据修改信息,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种基于开放世界大模型的半自动化标注方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤202,获取目标场景对应的待标注目标场景数据以及数据标注需求信息。

其中,目标场景可以是进行标注的场景,例如:医学图像标注场景、农业图像标注场景、城市图像标注场景、人文图像标注场景等。

其中,待标注目标场景数据可以是在目标场景下获得的数据,可以是文本数据、图像数据或者视频数据中的其中一个或者多个。

其中,数据标注需求信息可以是对待标注目标场景数据进行标注的需求和规则。

具体地,服务器104响应终端102的指令,从终端102处获取目标场景对应的待标注目标场景数据以及数据标注需求信息,并且将获取到的待标注目标场景数据以及数据标注需求信息存储到存储单元中,当服务器需要对待标注目标场景数据以及数据标注需求信息中的任意数据记录进行处理时,则从存储单元中调取至易失性存储资源以供中央处理器进行计算。其中,任意数据记录可以是单个数据输入至中央处理器,也可以为多个数据同时输入至中央处理器。

举例来说,服务器104响应终端102的指令,从终端102处获取目标场景对应的待标注目标场景数据以及数据标注需求信息,并存储到服务器104中的存储单元中,其中服务器104获取到的待标注目标场景数据以及数据标注需求信息对应的数据记录共有10条,可以同时将多个数据记录同时输入至中央处理器。

步骤204,将待标注目标场景数据以及数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑。

其中,开放世界大模型可以是自动学习和理解多种自然语言数据,并利用增量学习机制学习新类别而不需要重复训练的人工智能模型,其中,开放世界大模型包括开放世界大型语言模型。

其中,目标模型标注类别可以是需要使用开放世界大模型对待标注目标场景数据进行标注的类别。

其中,目标模型标注逻辑可以是需要使用开放世界大模型对待标注目标场景数据进行标注的上下文推理逻辑。

具体地,将待标注目标场景数据以及数据标注需求信息输入开放世界大模型中,通过开放世界大模型对待标注目标场景数据分别进行文本特征提取以及图像特征提取,得到待标注数据文本特征以及待标注数据图像特征。然后,利用待标注数据文本特征识别出待标注目标场景数据的文本信息属于的类型,以及利用待标注数据图像特征识别出待标注目标场景数据的图像信息属于的类型,将上述的两种类型进行融合作为初始目标模型标注类别。接着选取初始目标模型标注类别与开放世界大模型中的多个预设模型标注类别之间的差异值最小的那一个作为用作图像标注的目标模型标注类别,同时,以选定的目标模型标注类别为约束条件,从开放世界大模型的多个预设的模型标注逻辑中选取与目标模型标注类别最为匹配的模型标注逻辑作为目标模型标注逻辑。

步骤206,根据目标模型标注类别以及目标模型标注逻辑,对待标注目标场景数据进行标注,得到预标注目标场景数据。

其中,预标注目标场景数据可以是使用开放世界大模型进行标注,但并未进行确认得到的数据。

具体地,由于开放世界大模型具有自学习的特点,因此,在对待标注目标场景数据进行标注的过程中,开放世界大模型会随着每一个数据信息进行标注的同时,不断优化自己的目标模型标注逻辑。过程具体为,从待标注目标场景数据中随机选取任意一个待标注数据信息作为当前的待标注数据信息,并根据目标模型标注类别以及目标模型标注逻辑,对当前的待标注数据信息进行标注,得到当前的待标注数据信息对应的已标注数据信息。接着,开放世界大模型根据已标注数据信息,对自身的目标模型标注逻辑进行调整,得到调整后的目标模型标注逻辑。然后,服务器104对新的目标模型标注逻辑和下一个待标注数据信息重复执行“从待标注目标场景数据中随机选取任意一个待标注数据信息作为当前的待标注数据信息,并根据目标模型标注类别以及目标模型标注逻辑,对当前的待标注数据信息进行标注,得到当前的待标注数据信息对应的已标注数据信息”的步骤,直到每一个待标注数据信息都进行标注,得到预标注目标场景数据。

步骤208,获取标注数据修改信息,根据标注数据修改信息,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

其中,标注数据修改信息可以是对预标注目标场景数据的图像标注进行调整的信息。

其中,已标注目标场景数据可以是在目标场景的图像中已经经过调整且标注正确的数据。

具体地,由于预标注目标场景数据中具有多个未调整标注信息,未进行调整之前,各个未调整标注信息的权重均为1。通过标注接口获取标注数据修改信息,其中,标注接口通过图形用户界面(GUI)或命令行界面(CLI)与人工标注者进行交互。根据标注数据修改信息,对各个未调整标注信息的权重进行降低,而每个未调整标注信息对应的修改标注信息的权重则增加,但每个未调整标注信息的权重与对应的修改标注信息的权重之和为1。根据每个未调整标注信息的权重与对应的修改标注信息的权重的比例,将每个未调整标注信息与对应的修改标注信息进行融合,得到已标注目标场景数据。已标注目标场景数据可以接收人工标注者的修正或确认,并将确认结果反馈至开放世界大模型,以用于优化和更新开放世界大模型的知识库。如图9所示为一种基于开放世界大模型的半自动化标注方法对应的系统及运用其方法整体架构。

上述一种基于开放世界大模型的半自动化标注方法中,通过获取目标场景对应的待标注目标场景数据以及数据标注需求信息;将待标注目标场景数据以及数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;根据目标模型标注类别以及目标模型标注逻辑,对待标注目标场景数据进行标注,得到预标注目标场景数据;获取标注数据修改信息,根据标注数据修改信息,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

通过结合开放世界大模型和数据标注需求信息,对目标场景对应的待标注目标场景数据进行图像标注,并进一步利用用户输入的标注数据修改信息对图像标注结果进行修订。结合系统的自动反馈循环机制,能够利用用户的修改来调整开放世界大模型,有利于提高的对目标图像中的图像信息进行图像标注的效率。

在一个实施例中,如图3所示,将待标注目标场景数据以及数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑,包括:

步骤302,对待标注目标场景数据进行文本特征提取,得到待标注数据文本特征。

其中,待标注数据文本特征可以是对待标注目标场景数据中的文本信息进行特征提取得到的结果。

具体地,将待标注目标场景数据作为开放世界大模型的输入,待标注目标场景数据可以是文本、图像、视频等不同形式的信息。待标注目标场景数据的输入阶段需要对待标注目标场景数据中的文本信息进行预处理,以适应开放世界大模型的输入格式需求。

利用开放世界大模型的中间层,对预处理后的待标注目标场景数据进行文本特征提取,得到待标注目标场景数据对应的待标注数据文本特征。

步骤304,对待标注目标场景数据进行图像特征提取,得到待标注数据图像特征。

其中,待标注数据图像特征可以是对待标注目标场景数据中的图像信息进行特征提取得到的结果。

具体地,将待标注目标场景数据作为开放世界大模型的输入,待标注目标场景数据可以是文本、图像、视频等不同形式的信息。待标注目标场景数据的输入阶段需要对待标注目标场景数据中的图像信息进行预处理,以适应开放世界大模型的输入格式需求。

利用开放世界大模型的中间层,对预处理后的待标注目标场景数据进行图像特征提取,得到待标注目标场景数据对应的待标注数据图像特征。

步骤306,根据数据标注需求信息、待标注数据文本特征以及待标注数据图像特征,识别出目标模型标注类别以及目标模型标注逻辑。

具体地,以数据标注需求信息作为模型标注类别和模型标注逻辑的选择约束条件,根据待标注数据文本特征以及待标注数据图像特征,识别出能用于对待标注目标场景数据进行标注的初始目标模型标注类别。然而,在开放世界大模型中具有多个预设的模型标注类别,因此,计算初始目标模型标注类别与多个预设的模型标注类别之间的差异值,并且选择差异值为最小的预设模型标注类别作为用于对待标注目标场景数据进行标注的目标模型标注类别。最后,以选定的目标模型标注类别为约束条件,从开放世界大模型的多个预设的模型标注逻辑中选取与目标模型标注类别最为匹配的模型标注逻辑作为目标模型标注逻辑。

本实施例中,通过分别对待标注目标场景数据中的文本以及图像进行特征提取,并在数据标注需求信息的约束下,识别出目标模型标注类别以及目标模型标注逻辑,能够利用开放世界大模型的语义推理和上下文理解能力,提高后续进行图像标记的准确度。

在一个实施例中,如图4所示,根据数据标注需求信息、待标注数据文本特征以及待标注数据图像特征,识别出目标模型标注类别以及目标模型标注逻辑,包括:

步骤402,以数据标注需求信息作为约束条件,根据待标注数据文本特征以及待标注数据图像特征,识别出初始目标模型标注类别。

其中,初始目标模型标注类别可以是适合对待标注目标场景数据进行标注的类别,但未验证开放世界大模型中是否具有该类别。

具体地,将数据标注需求信息作为模型标注类别和模型标注逻辑的选择约束条件,将待标注数据文本特征以及待标注数据图像特征输入到开放世界大模型中的模型标注类别识别模块中,通过模型标注类别识别模块的识别,识别出能用于对待标注目标场景数据进行标注的初始目标模型标注类别。

步骤404,计算初始目标模型标注类别与开放世界大模型的预设模型标注类别之间的差异。

其中,预设模型标注类别可以是开放世界大模型中的预设的针对被标注数据的模型标注类别。

具体地,对初始目标模型标注类别与开放世界大模型的预设模型标注类别进行差异化计算,得到初始目标模型标注类别与开放世界大模型的预设模型标注类别之间的差异值,并作为模型标注类别差异结果。

步骤406,根据模型标注类别差异结果,确定目标模型标注类别。

其中,模型标注类别差异结果可以是初始目标模型标注类别与预设模型标注类别的差异程度。

具体地,预先设定用于对模型标注类别差异结果进行限定的模型标注类别差异阈值,如果多个模型标注类别差异结果小于模型标注类别差异阈值的情况下,则从多个模型标注类别差异结果中选择差异值最小的预设模型标注类别作为用于对待标注目标场景数据进行标注的目标模型标注类别。如果多个模型标注类别差异结果均大于模型标注类别差异阈值的情况下,则将初始目标模型标注类别作为目标模型标注类别,并将目标模型标注类别添加到开放世界大模型中,使得开放世界大模型可以拥有标注新的类别的能力,同时也保持了对原有类别的标注能力。

步骤408,根据目标模型标注类别,识别出目标模型标注逻辑。

具体地,以选定的目标模型标注类别为约束条件,计算开放世界大模型的多个预设的模型标注逻辑中目标模型标注类别之间的匹配值,再从开放世界大模型的多个预设的模型标注逻辑中选取与目标模型标注类别之间匹配程度最高的模型标注逻辑作为目标模型标注逻辑。

本实施例中,通过利用待标注数据文本特征以及待标注数据图像特征,识别出匹配待标注目标场景数据的目标模型标注类别以及目标模型标注逻辑,能够使得开放世界大模型具备学习新类别而不需要重复训练的能力,提高了图像标注的效率。

在一个实施例中,如图5所示,根据目标模型标注类别以及目标模型标注逻辑,对待标注目标场景数据进行标注,得到预标注目标场景数据,包括:

步骤502,根据目标模型标注类别以及目标模型标注逻辑,对当前的待标注数据信息进行标注,得到已标注数据信息。

其中,已标注数据信息可以是已经进行图像标注的数据信息。

具体地,遍历待标注目标场景数据中的各个待标注数据信息,并且在各个待标注数据信息中随机选取任意一个待标注数据信息作为当前的待标注数据信息,也可以按照固定的选择规律,从各个待标注数据信息中选取任意一个满足固定的选择规律的待标注数据信息作为当前的待标注数据信息。进一步,根据目标模型标注类别以及目标模型标注逻辑,使用开放世界大模型的深度神经网络的语义推理和上下文理解能力,对当前的待标注数据信息进行标注,得到当前的待标注数据信息对应的已标注数据信息。

步骤504,根据已标注数据信息,对目标模型标注逻辑进行调整,得到调整模型标注逻辑。

其中,调整模型标注逻辑可以是使用已标注数据信息对目标模型标注逻辑调整后得到的模型标注逻辑。

具体地,由于开放世界大模型具有自学习的特点,因此,在对待标注目标场景数据进行标注的过程中,开放世界大模型会随着每一个数据信息进行标注的同时,不断优化自己的目标模型标注逻辑。使用开放世界大模型的深度神经网络的语义推理和上下文理解能力,结合已标注数据信息对目标模型标注逻辑进行调整,得到调整后的目标模型标注逻辑。

步骤506,将下一个的待标注数据信息作为当前的待标注数据信息,以及将调整模型标注逻辑作为目标模型标注逻辑,返回执行根据目标模型标注类别以及目标模型标注逻辑,对当前的待标注数据信息进行标注,得到已标注数据信息的步骤,直到得到预标注目标场景数据。

具体地,服务器104将下一个的待标注数据信息作为当前的待标注数据信息,同时也将调整模型标注逻辑作为目标模型标注逻辑,返回执行“遍历待标注目标场景数据中的各个待标注数据信息,并且在各个待标注数据信息中随机选取任意一个待标注数据信息作为当前的待标注数据信息,也可以按照固定的选择规律,从各个待标注数据信息中选取任意一个满足固定的选择规律的待标注数据信息作为当前的待标注数据信息。进一步,根据目标模型标注类别以及目标模型标注逻辑,使用开放世界大模型的深度神经网络的语义推理和上下文理解能力,对当前的待标注数据信息进行标注,得到当前的待标注数据信息对应的已标注数据信息”的步骤,直到各个待标注数据信息均完成图像标注,得到预标注目标场景数据。

本实施例中,通过使用已标注数据信息对目标模型标注逻辑进行不断迭代,利用了各个已标注数据信息之间的上下文信息进行图像标注,能够使得开放世界大模型的神经网络更完善,在图像标注的过程中根据当前情况对语义推理和上下文理解进行调整,提高了图像标注的准确率和效率。

在一个实施例中,如图6所示,根据标注数据修改信息,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据,包括:

步骤602,根据标注数据修改信息,确定预标注目标场景数据中需要修改的标注的修改数据权重。

其中,修改数据权重可以是预标注目标场景数据中需要修改的标注信息的修改数据的权重。

具体地,由于预标注目标场景数据中具有多个未调整标注信息,未进行调整之前,各个未调整标注信息的权重均为1。根据标注数据修改信息,对各个未调整标注信息的权重进行降低,而每个未调整标注信息对应的修改标注信息的修改数据权重对应地则增加,即未调整标注信息的权重进行降低的量与对应的修改标注信息的修改数据权重增加的量相等,每个未调整标注信息的权重与对应的修改标注信息的权重之和为1,进而确定预标注目标场景数据中需要修改的标注的修改数据权重。

步骤604,根据标注数据修改信息以及修改数据权重,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

具体地,对于每一个标注数据修改信息,均使用修改数据权重与对应的标注数据修改信息进行融合,得到了各个加权标注数据修改信息;同理,对于每一个未调整标注信息,均使用1和修改数据权重的差值作为权重,分别与对应的未调整标注信息进行融合,得到了各个加权未调整标注信息。由于加权标注数据修改信息与加权未调整标注信息具有对应关系,因此针对任意一个加权未调整标注信息和加权标注数据修改信息,均通过融合的方式,得到已标注目标场景数据。

本实施例中,通过给出标注数据修改信息的权重以及给出未调整标注信息的权重,并将两者进行融合,能够避免开放世界大模型的图像标注因为额外的影响而导致错误,提高了图像标注的稳定性。

在一个实施例中,如图7所示,在获取目标场景对应的待标注目标场景数据以及数据标注需求信息步骤之前,方法还包括:

步骤702,获取训练用标签空间数据。

其中,训练用标签空间数据可以是用于对数据进行分类、分组或标记的所有可能标签的集合,其中,训练用标签空间数据可以是离散的,也可以是连续的,具体取决于任务的性质。

其中,训练用标签空间数据可以是两个或多个数据源或数据模态(如图像、文本、声音等)共享相同的标签集合。即不同数据源之间的标签在语义上是一致的,尽管它们可能表示不同的数据类型或特征。

其中,异构训练用标签空间数据可以是多个数据源或数据模态(如图像、文本、声音等)具有不同的标签集合的情况。即不同数据源之间的标签在语义上可能是不一致的,因为它们可能描述了不同的特征、属性或类别。

具体地,服务器104响应标注接口的指令,从标注接口处获取训练用标签空间数据,其中,训练用标签空间数据包括训练用标签空间数据以及异构训练用标签空间数据;并且将获取到的训练用标签空间数据以及异构训练用标签空间数据存储到存储单元中,当服务器需要对训练用标签空间数据以及异构训练用标签空间数据中的任意数据记录进行处理时,则从存储单元中调取至易失性存储资源以供中央处理器进行计算。其中,任意数据记录可以是单个数据输入至中央处理器,也可以为多个数据同时输入至中央处理器。

步骤704,根据训练用标签空间数据对待训练开放世界大模型进行训练,得到第一训练结果。

其中,第一训练结果可以是使用训练用标签空间数据对待训练开放世界大模型训练后得到的初步开放世界大模型。

具体地,将训练用标签空间数据输入到待训练开放世界大模型,通过待训练开放世界大模型的计算,得到关于训练用标签空间数据的第一损失值,根据第一损失值调整待训练开放世界大模型,直到第一损失值小于第一预设阈值,得到第一训练结果。

步骤706,根据异构训练用标签空间数据对待训练开放世界大模型进行训练,得到第二训练结果。

其中,第二训练结果可以是使用异构训练用标签空间数据对待训练开放世界大模型训练后得到的初步开放世界大模型。

具体地,将异构训练用标签空间数据输入到待训练开放世界大模型,通过待训练开放世界大模型采用解耦的方式进行计算,得到关于异构训练用标签空间数据的第二损失值,根据第二损失值调整待训练开放世界大模型,直到第二损失值小于第二预设阈值,得到第二训练结果。

步骤708,融合第一训练结果以及第二训练结果,得到开放世界大模型。

具体地,将具备第一训练结果的待训练开放世界大模型与具备第二训练结果的待训练开放世界大模型进行结合,得到开放世界大模型。

本实施例中,通过采用训练用标签空间数据和异构训练用标签空间数据分别训练待训练开放世界大模型,能够使得开放世界大模型在测试时可以直接使用测试标签的类嵌入来避免标签冲突,提高了开放世界大模型的稳定性。

在一个实施例中,如图8所示,在获取标注数据修改信息,根据标注数据修改信息,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据步骤之后,方法还包括:

步骤802,根据已标注目标场景数据,生成开放世界大模型的自适应特征信息。

其中,自适应特征信息可以是在机器学习和深度学习中,模型能够根据不同任务或不同数据的特点自动地适应学习和提取最有用的特征信息。这种特征学习信息的方式允许模型自主地调整其表示能力,以更好地捕捉数据的关键特征,从而提高模型的性能。

具体地,将已标注目标场景数据输入至开放世界大模型,通过开放世界大模型的特征提取层根据不同任务或不同数据的特点自动地适应学习和提取最有用的特征信息,得到自适应特征信息。

步骤804,根据自适应特征信息,生成开放世界大模型的模型优化数据。

其中,模型优化数据可以是增加开放世界大模型中的预设模型标注类别的数据。

具体地,将各个自适应特征信息进行整合后得到特征图,并调整特征图中各个自适应特征信息的权重,利用开放世界大模型的增量学习机制的知识蒸馏方法,生成开放世界大模型的模型优化数据,其中,模型优化数据用于增加开放世界大模型中的预设模型标注类别。

其中,当中的增量学习机制如图10所示,开放世界大模型的M

其中,B表示输入的最小batch-size,F表示特征图,L表示特征图的层数,α表示通过原有大模型M

分类损失用于优化特征提取过程中的网络参数,其表达式如下:

其中,η是一个可学习的比例参数,δ是一个常数,用于鼓励更大的类间分离,[·]+表示ReLU激活函数,y表示类别,g表示类别标签。

本实施例中,通过利用已标注目标场景数据生成的自适应特征信息对开放世界大模型进行优化,能够达到平衡对新数据的适应性和对旧数据的鲁棒性。

应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于开放世界大模型的半自动化标注方法的一种基于开放世界大模型的半自动化标注装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于开放世界大模型的半自动化标注装置实施例中的具体限定可以参见上文中对于一种基于开放世界大模型的半自动化标注方法的限定,在此不再赘述。

在一个实施例中,如图11所示,提供了一种基于开放世界大模型的半自动化标注装置,包括:数据获取模块1102、数据分析模块1104、数据标注模块1106和标注调整模块1108,其中:

数据获取模块1102,用于获取目标场景对应的待标注目标场景数据以及数据标注需求信息;

数据分析模块1104,用于将待标注目标场景数据以及数据标注需求信息输入开放世界大模型,确定目标模型标注类别以及目标模型标注逻辑;

数据标注模块1106,用于根据目标模型标注类别以及目标模型标注逻辑,对待标注目标场景数据进行标注,得到预标注目标场景数据;

标注调整模块1108,用于获取标注数据修改信息,根据标注数据修改信息,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

在一个实施例中,数据分析模块1104,还用于对待标注目标场景数据进行文本特征提取,得到待标注数据文本特征;对待标注目标场景数据进行图像特征提取,得到待标注数据图像特征;根据数据标注需求信息、待标注数据文本特征以及待标注数据图像特征,识别出目标模型标注类别以及目标模型标注逻辑。

在一个实施例中,数据分析模块1104,还用于以数据标注需求信息作为约束条件,根据待标注数据文本特征以及待标注数据图像特征,识别出初始目标模型标注类别;计算初始目标模型标注类别与开放世界大模型的预设模型标注类别之间的差异;根据模型标注类别差异结果,确定目标模型标注类别;根据目标模型标注类别,识别出目标模型标注逻辑。

在一个实施例中,数据标注模块1106,还用于根据目标模型标注类别以及目标模型标注逻辑,对当前的待标注数据信息进行标注,得到已标注数据信息;根据已标注数据信息,对目标模型标注逻辑进行调整,得到调整模型标注逻辑;将下一个的待标注数据信息作为当前的待标注数据信息,以及将调整模型标注逻辑作为目标模型标注逻辑,返回执行根据目标模型标注类别以及目标模型标注逻辑,对当前的待标注数据信息进行标注,得到已标注数据信息的步骤,直到得到预标注目标场景数据。

在一个实施例中,标注调整模块1108,还用于根据标注数据修改信息,确定预标注目标场景数据中需要修改的标注的修改数据权重;根据标注数据修改信息以及修改数据权重,对预标注目标场景数据中的标注进行调整,得到已标注目标场景数据。

在一个实施例中,数据获取模块1102,还用于获取训练用标签空间数据;训练用标签空间数据包括异构训练用标签空间数据;根据训练用标签空间数据对待训练开放世界大模型进行训练,得到第一训练结果;根据异构训练用标签空间数据对待训练开放世界大模型进行训练,得到第二训练结果;融合第一训练结果以及第二训练结果,得到开放世界大模型。

在一个实施例中,标注调整模块1108,还用于根据已标注目标场景数据,生成开放世界大模型的自适应特征信息;根据自适应特征信息,生成开放世界大模型的模型优化数据;模型优化数据用于增加开放世界大模型中的预设模型标注类别。

上述一种基于开放世界大模型的半自动化标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储服务器数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于开放世界大模型的半自动化标注方法。

本场景技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 一种基于深度学习的图像自动标注方法及装置
  • 一种基于自然语言处理的智能标注方法及装置
  • 基于表情识别的标注监控方法、装置及电子设备
  • 基于大模型的可交互式标注方法及系统
  • 一种基于图像分割大模型的快捷语义标注方法
技术分类

06120116485626