掌桥专利:专业的专利平台
掌桥专利
首页

图像数据的标注方法、电子设备和计算机可读介质

文献发布时间:2023-06-19 19:30:30


图像数据的标注方法、电子设备和计算机可读介质

技术领域

本发明涉及深度学习技术领域,更具体地涉及一种图像数据的标注方法、电子设备和计算机可读介质。

背景技术

深度学习的优异性能依赖于大量的标注数据,而数据的标注是一项非常耗时且消耗人力的任务,尤其是对于一些特殊领域的数据来说,标注员必须具备专业的知识才能实现对数据的正确标注,而这又增加了对标注员的培训过程。此外,标注员在标注时也不可避免的会出现标注错误的情况,而为了纠正这些错误的标注,又将进一步的耗费标注成本。

在分类任务的图像数据标注中,一种比较常见的标注加速方式是使用训练好的模型为图像打上预标签,之后由人工对预标签进行确认和修改,通过模型预测及人工确认的交替进行提高数据标注速度。然而,相比于分类任务的数据标注,图像检测数据的标注更加困难,一方面图像检测数据的标签不仅包括目标类别,同时还包括目标在图像中的位置,对预测框位置的标注及确认会耗费更多的时间;另一方面,一张图像可能存在多个目标,每个目标都可以看作独立的个体,又相互之间存在着一定的联系。

发明内容

在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。

根据本发明一方面,提供了一种图像数据的标注方法,所述方法包括:从待标注数据池中获取待标注的图像数据,将所述待标注的图像数据输入到预测模型,得到目标对象的预测结果;将包含所述预测结果的图像数据加入到预测结果池中;从所述预测结果池中获取包含所述预测结果的图像数据,将所述包含所述预测结果的图像数据输入到校准模块,并通过所述校准模块获取对所述预测结果校准所得的标注结果;将所述校准模块输出的包含所述标注结果的图像数据加入到已标注数据池中;从所述已标注数据池中获取包含所述标注结果的图像数据,利用所述包含所述标注结果的图像数据对所述预测模型进行训练。

在一个实施例中,所述包含所述标注结果的图像数据还包括包含框,所述包含框包含至少一个目标对象;所述方法还包括:截取所述包含框中的图像数据,以得到子图像,并将所述子图像加入到所述待标注数据池中;当完成对所述子图像的标注后,将所述子图像的标注结果更新到所述子图像对应的所述包含所述标注结果的图像数据中。

在一个实施例中,所述包含框为通过所述校准模块标注的包含框,或者,所述包含框为基于所述预测模型输出的预测结果生成的包含框。

在一个实施例中,所述从所述预测结果池中获取包含所述预测结果的图像数据,包括:按照目标比例从每个层级的图像数据中提取所述包含所述预测结果的图像数据,其中,第N个层级的图像数据是对第N-1个层级的图像数据中的包含框截取所得的,N大于或等于1。

在一个实施例中,所述预测结果包括预测框的位置和预测框的置信度;所述从所述预测结果池中获取包含所述预测结果的图像数据,包括:根据所述图像数据中多个预测框的置信度确定所述预测框的熵值;根据所述多个预测框的熵值确定所述图像数据的标注难度指数,获取所述标注难度指数最低的至少一个图像数据。

在一个实施例中,在从待标注数据池中获取待标注的图像数据,将所述待标注的图像数据输入到预测模型之前,所述方法还包括:从所述待标注数据池中获取待标注的图像数据,将所述待标注的图像数据输入到所述校准模块,并通过所述校准模块获取对所述待标注的图像数据标注所得的初始化标注结果;将所述校准模块输出的包含所述初始化标注结果的图像数据加入所述已标注数据池中,利用所述包含所述初始化标注结果的图像数据对所述预测模型进行训练。

在一个实施例中,所述预测模型包括预测模块和回归模块,所述预测模块用于识别所述待标注的图像数据中的目标对象,以得到初级预测结果;所述回归模块用于获取基于所述初级预测结果从所述图像数据中截取的局部图像数据,并识别所述局部图像数据中的目标对象,以得到二级预测结果;所述预测模型输出的所述预测结果为所述二级预测结果。

本发明实施例第二方面提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行如上所述的图像数据的标注方法。

本发明实施例第三方面提供一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序在运行时执行如上所述的图像数据的标注方法。

本发明实施例第四方面提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上所述的图像数据的标注方法。

根据本发明实施例的图像数据的标注方法、电子设备和计算机可读介质基于预测模型生成预测结果,对预测结果进行校准以得到标注结果,能够加快标注速度;同时,在标注过程中利用包含标注结果的图像数据对预测模型进行训练,提高了预测模型的准确度。

附图说明

通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的图像数据的标注方法的示例电子设备的示意性框图;

图2示出根据本发明实施例的图像数据的标注方法的示意性流程图;

图3示出根据本发明实施例的图像数据的标注方法的系统结构图;

图4示出根据本发明实施例的初始化阶段的示意图;

图5示出根据本发明实施例的初始化阶段的标注界面的示意图;

图6示出根据本发明实施例的快速标注阶段的示意图;

图7示出根据本发明实施例的快速标注阶段的标注界面的示意图;

图8示出根据本发明实施例的预测模型的示意图;

图9示出根据本发明实施例的电子设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

现有的图像数据的标注方法主要存在以下几个问题:

1、对于图像数据中的小目标物体,其标注往往需要通过缩放图像的方式完成,而这种方式需要反复在大尺度寻找目标和小尺度确认标注框中交替完成,增加了标注过程的复杂性;

2、当目标物体过小时,预测模型很难正确检测出目标对象,这种情况下,就需要人工进行标注,起不到模型辅助的优势;并且,一旦预测模型的准确度不够,修改预测框的复杂度比重新绘制标注框的复杂度更高。

针对上述问题,本发明实施例提出了一种图像数据的标注方法、电子设备和计算机可读介质。首先,参照图1来描述用于实现本发明实施例的图像数据的标注方法、电子设备和计算机可读介质的示例电子设备100。

如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像传感器110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地,用于实现根据本发明实施例的图像数据的标注方法、电子设备和计算机可读介质的示例电子设备可以被实现为诸如智能手机、平板电脑等。

下面,将参考图2描述根据本发明实施例的图像数据的标注方法200。如图2所示,本发明实施例的图像数据的标注方法200包括如下步骤:

在步骤S210,从待标注数据池中获取待标注的图像数据,将所述待标注的图像数据输入到预测模型,得到目标对象的预测结果;

在步骤S220,将包含所述预测结果的图像数据加入到预测结果池中;

在步骤S230,从所述预测结果池中获取包含所述预测结果的图像数据,将所述包含所述预测结果的图像数据输入到校准模块,并通过所述校准模块获取对所述预测结果校准所得的标注结果;

在步骤S240,将所述校准模块输出的包含所述标注结果的图像数据加入到已标注数据池中;

在步骤S250,从所述已标注数据池中获取包含所述标注结果的图像数据,利用所述包含所述标注结果的图像数据对所述预测模型进行训练。

本发明实施例的图像数据的标注方法200基于预测模型生成预测结果,通过校准模块对预测结果进行校准以得到标注结果,能够加快图像数据的标注速度;同时,在标注过程中利用包含标注结果的图像数据对预测模型进行训练,提高了预测模型的准确度。本发明实施例的标注方法可用于车牌、人脸、文字和其他任意物体的图像数据标注任务。

参见图3,其中示出了本发明实施例的图像数据的标注方法的系统结构图。其中,待标注数据池用于获取待标注的图像数据,预测模型用于从待标注数据池中获取待标注的图像数据并进行预测,以得到对至少一个目标对象的预测结果。预测结果包括包围目标对象的预测框的位置、预测框的置信度等。由于预测模型生成的预测结果可能存在漏检、误检等情况,因此,将预测模型输出的包含预测结果的图像数据加入到预测结果池中,从预测结果池中选择包含预测结果的图像数据并交由校准模块,校准模块可以将其推送给用户进行校准,例如调整预测框的位置、删除不包含目标对象的预测框、或增加未被识别到的目标对象的标注框等。已标注数据池用于获取校准模块校准后的包含标注结果的图像数据,一方面可以将标注完成的图像数据输出,另一方面可以利用包含标注结果的图像数据对预测模型进行训练,以提高预测模型的准确性。如此反复,最终完成对所有待标注图像数据的标注。下文主要以用户进行校准为例进行描述,但在一些实施例中,校准模块也可以利用其他机器学习模型对包含预测结果的图像数据进行校准。

示例性地,整个标注流程可以分为两个阶段:初始化阶段和快速标注阶段。在初始化阶段,预测模型未经过充分的训练,需要用户进行更多的手动标注,因此标注速度较慢。在快速标注阶段,预测模型已具备了一定的推理预测能力,能够输出相对准确的预测结果,此时只需对预测模型输出的预测结果进行校准,因此标注速度较快。在一些实施例中,预测模型可以是具备一定推理预测能力的模型,此时可以省去标注初始化的阶段,直接获取预测模型输出的预测结果,由用户对其进行校准。

示例性地,初始化阶段可以分为系统初始化及标注初始化两个部分。系统初始化即获取所有待标注的图像数据,据此初始化待标注数据池;已标注数据池和推理结果池则初始化为空。

完成系统初始化之后,从待标注数据池中获取待标注的图像数据,将待标注的图像数据输入到校准模块,推送给用户进行标注,并通过校准模块获取用户对待标注的图像数据标注所得的初始化标注结果。之后,将包含初始化标注结果的图像数据加入已标注数据池中,利用包含初始化标注结果的图像数据对预测模型进行训练。

在标注过程中,会存在待标注目标过小或目标过多的情况。对于过小目标来说,预测模型对其的检测能力较差,很难输出满足条件的预测框,同时用户在标注小物体时也需要手动进行图像数据的放大操作,会造成标注时间的消耗;对于多目标的情况来说,标注一个图像数据所需时间较长,需要消耗很长时间才能标注出足够训练预测模型的数据量,导致前期预测模型训练不足,难以获得较好的检测性能。同时,预测模型将图像数据中所有目标均检测正确的可能性不大,因此需要用户将未能检测出的目标全部手动标注后才能完成提交,这同样导致训练数据量增加缓慢。

针对上述问题,本发明实施例采用具有包含框的标注方式,在校准过程中,对于过小的目标,可以先用较大的包含框进行标注,包含框中包含至少一个目标对象;获取到具有包含框的图像数据后,可以截取包含框中的图像数据,加入到待标注数据池中。在后续标注时,一方面可以将包含框中的区域放大后再交由预测模型进行检测和交由校准模块进行校准,另一方面也可以等到预测模型训练更充分后再对其进行推理,从而获得更加准确的预测结果。同样地,对于多目标对象的情况,用户可以只标注一部分目标对象,剩余的目标对象用包含框进行标注,包含框中可以包括多个目标对象,从而尽快将尽可能多的图像数据加入到已标注数据池中,也可以等预测模型性能更好时再对其进行标注。

示例性地,包含框可以是通过校准模块标注的。将包含标注结果和包含框的图像数据加入已标注数据池,与此同时,截取包含框中的图像数据,以得到子图像,并将子图像加入到待标注数据池中,等待后续的预测或标注。当完成对子图像的标注后,可以将子图像的标注结果更新到子图像对应的包含标注结果的图像数据中,直到一个图像数据中所有包含框内的子图像完成标注后,视为该图像数据整体上完成标注。假设系统初始化阶段加入到待标注数据池的图像数据为第0级,从第0级图像数据的包含框中截取的子图像为第1级,从第1级子图像中截取的子图像为第2级,以此类推;第N个层级的图像数据是对第N-1个层级的图像数据中的包含框截取所得的,其中N大于或等于1。当子图像中只有标注框,而不再有包含框时,说明子图像对应的第0级图像数据完成全部的标注。

当已标注数据池不为空时,便开始利用已标注数据池中的包含标注结果的图像数据训练预测模型。示例性地,当利用具有标注结果和包含框的图像数据训练预测模型时,对于包含框中的区域不计算样本损失。具体地,对于包含框中的区域,既不计算正样本损失,也不计算负样本损失,从而避免包含框中的区域影响预测模型的准确性。

由于在训练过程中,预测模型也可以输出预测结果,因此,在初始化阶段,校准模块可以从待标注数据池中获取待标注的图像数据进行标注,也可以从预测结果池中获取预测模型输出的包含预测结果的图像数据进行校准。

在标注前期,可能会标注较多的包含框而使得预测模型获取到的正样本不足,难以获取到足够的正样本信息,从而严重影响预测模型的训练。为保证初始化阶段可以标注较为充足的正样本,本发明实施例的校准模块使用层次化采样策略对不同层级的图像数据按比例进行采样,避免进行校准的图像数据集中在第0级的原始图像数据而产生过多的包含框。具体地,如图4所示,从待标注数据池中获取待标注的图像数据时,按照可以目标比例从每个层级的图像数据中提取待标注的图像数据。类似地,从预测结果池中获取待校准的图像数据时,也按照可以目标比例从每个层级的图像数据中提取包含预测结果的图像数据。

本发明一个实施例的初始化阶段的校准界面如图5所示。校准模块会将待标注的图像数据推送到前端,交由用户进行校准。用户在校准时可以视情况选择标注目标框、忽略框或包含框,框的类型可以通过键盘数字进行选择,例如,数字1、2、3分别代表目标框、包含框、忽略框。在标注时,点击鼠标左键并拖动可以实现一个框的标注;对于标注不准的框,可以点击该框并拖拽进行调整;对于标错的框,可以点击鼠标右键进行删除。当标注完成后,可以点击“最终确认”按钮或点击回车进行提交。示例性地,在初始化阶段,标注难度较高,因此,当从待标注数据池或预测结果池中获取待标注的图像数据并输入到校准模块时,每次将一个图像数据输入到校准模块。

经过初始化阶段之后,预测模型获得了一定的预测能力,因此可以从初始化阶段过渡到快速标注阶段,在不断对预测模型进行训练的同时,由预测模型对待标注图像数据进行推理预测,得到预测结果。总体而言,快速标注阶段是预测模型的训练推理与校准模块的校准反复交替进行的过程。在快速标注阶段,校准难度下降,每次可以将至少两个图像数据输入到校准模块。

示例性地,若已标注数据池中的图像数据的数量小于第一阈值,和/或预测模型的训练次数小于第二阈值,则保持初始化阶段。若已标注数据池中的图像数据的数量大于或等于第一阈值,和/或预测模型的训练次数大于或等于第二阈值,则进入快速标注阶段。

如图6所示,在快速标注阶段,预测模型从待标注数据池中采样若干待标注的数据进行推理预测,将包含预测结果的待标注的图像数据加入到预测结果池中,同时,校准模块按照相应的排序策略从预测结果池中采样若干包含预测结果的图像数据推送给用户,交由用户进行校准。在用户标注期间,预测模型仍在不断地对待标注数据进行推理预测,更新预测结果池,保证预测结果池中的预测结果更加准确。此外,在此过程中还在不断地训练预测模型,提高预测模型的检测能力。随着已标注数据池中数据量的增加,可用于训练预测模型的图像数据也在不断丰富,使得预测模型能够得到更加充分的训练。

示例性地,如图8所示,针对数据量过少的情况下预测模型性能过差的问题,本发明实施例的预测模型在预测模块之后增加了单独的回归模块,用于对预测模块输出的结果进行校准。预测模块用于识别待标注的图像数据中的目标对象,以得到初级预测结果;回归模块用于获取基于初级预测结果从图像数据中截取的局部图像数据,并识别局部图像数据中的目标对象,以得到二级预测结果。预测模型输出的预测结果为回归模块输出的二级预测结果。

在利用预测模型输出预测结果时,输入到预测模块的是N个标准大小的待标注图像数据(包括但不限于RGB图片),输出则是每个待标注图像数据的初级预测结果,具体包括初级预测框的位置、大小及其置信度。在训练时,使用初级预测框的置信度与从已标注数据池中获得的正负样本标签计算交叉熵损失,对于属于正样本的预测框则使用初级预测框的位置和大小与真实的标注框的位置和大小计算iou损失,实现预测框的回归。示例性地,预测模块的主干(backbone)可以使用VGG、ResNet、EfficientNet等网络,并使用FCOS、YOLOX等预测框架实现;通过SGD、Adam等优化器可以实现检测模块的训练,初始学习率为1e-4。

需要注意的是,在训练数据中,除真实的标注框外,还存在为了延迟标注而生成或标注的包含框,对于处于包含框中的区域,既不计算正样本损失,也不计算负样本损失。

回归模块则使用预测模块的输出作为输入,对于预测模块输出的初级预测结果,若其中的初级预测框可以与真实的标注框匹配,则将基于该初级预测框放大截取出的局部图像数据作为回归模块的输入,输出为二级预测结果,具体包括二级预测框的位置、大小和置信度,而对应的真实的标注框则作为回归模块的标签,对输出的二级预测框与对应的真实的目标框计算最小均方误差,实现回归模块的训练。示例性地,回归模块可以使用ResNet、MobileNet等网络作为主干,使用SGD、Adam等优化器进行训练,初始学习率为1e-3。由于回归模块使用的输入数据是根据初级预测结果截取后得到的局部图像数据,可以在过滤掉周围不相关背景的情况下更多的关注目标对象本身。

在一些实施例中,为了利用到初级预测结果本身这一先验知识,因此,可以将初级预测框当作一种特殊的锚框输入到回归模块中,使回归模块输出二级预测框相对于锚框的偏移量。具体而言,若初级预测框的中心点坐标及宽高表示为x

相应地,二级预测框的坐标可以由以下方式获得:

/>

由此,将初级预测框作为先验知识输入到回归模块中,可以为回归模块提供一定的指导作用,从而进一步提升模型性能。

预测模型最终输出的预测结果的准确性并不能得到足够的保证,同时,图像数据中可能依旧存在较多的未标注目标,需要人工手动进行完整标注,因此,本发明实施例选择根据质量较差的预测结果生成包含框并输入到校准模块,从而缩短用户确认及手动框选的时间。具体地,可以将同一个图像数据中的至少两个预测框合并为包含框,或者将图像数据中的单个预测框放大为包含框。

示例性地,可以根据预测框的大小、形状、置信度等参数来作为生成包含框的标准。例如,可以根据预测框的面积判断是否需要合并预测框,将面积小于第三阈值的至少两个预测框合并为第二包含框。在合并时,可以利用贪心算法对所述至少两个预测框进行搜索,以损失最小的合并方式对所述至少两个预测框进行合并,如此合并到最后一个预测框,其中,损失的计算方式如下:

L=αL_area+βL_time+γL_shape+λL_score

其中,L_area表示合并后剩余标注面积,L_time表示合并后所需标注时间,L_shape表示合并后包含框的长宽比,L_score表示合并后剩余预测框的熵,熵由每个预测框的置信度计算得到。

在一些实施例中,为了适应更多的标注任务,提升灵活性和鲁棒性,还可以采用自适应预测框转化方案,使用端到端的模型对不同数据池学习不同的转化方式,采用训练好的预测框转化模型将至少两个预测框转化为第二包含框。

具体来说,对于模型输出的若干预测框,将其使用维度为6的向量b

从预测结果池中获取包含预测结果的图像数据并输入到校准模块时,可以寻找最容易标注的若干个图像数据并输入到校准模块。具体地,根据图像数据中多个预测框的置信度确定预测框的熵值;根据多个预测框的熵值确定图像数据的标注难度指数,根据图像数据的难度指数对图像数据进行排序,将标注难度指数最低的至少一个图像数据输入到校准模块。示例性地,标注难度指数的计算方式如下所示:

其中,p

示例性地,快速标注阶段的校准界面如图7所示。用户可以通过校准界面修改预测框的位置、增加预测框或删除预测框。与初始化阶段类似,用户可以按需选择标注为目标框还是包含框。确认并标注完成后,点击“最终确认”按钮或点击回车进行提交,校准模块将包含标注结果的图像数据加入到已标注数据池中,用于预测模型的后续训练,同时如果图像数据中还存在包含框,则将包含框中的区域截取出来,作为待标注的子图像加入到待标注数据池中,等待后续的采样、预测及校准。当截取出的子图像完成标注时,校准模块将其标注结果更新到子图像对应的0级图像数据中,即当0级图像数据中的所有包含框中的区域都被标注完成后,自身便完成了标注。当所有待标注图像数据均完成标注后,可点击“导出sds”保存标注数据。同时,在标注过程中,也可以随时保存已标注的图像数据。

经测试,基于本发明实施例的图像数据的标注方法,标注速度得到了2-10倍的提升,例如在车牌检测任务中,标注速度可以提升2-3倍,在建盏标注任务中可以提升7-8倍。使用包含框后,标注速度可以有效提升,例如,车牌标注的速度可以由不使用包含框时的1.4倍提升到1.8倍。同时,使用回归模型后,车牌标注的速度可以进一步提升到2.4倍。除了可以有效提高标注速度以外,本发明实施例的标注方法还能够提高标注体验,例如对于小目标物体的标注,省去了用户手动进行界面缩放这一步骤,使标注体验更加良好。

基于上面的描述,根据本发明实施例的图像数据的标注方法基于预测模型生成预测结果,通过校准模块对预测结果进行校准以得到标注结果,能够加快图像数据的标注速度;同时,在标注过程中利用包含标注结果的图像数据对预测模型进行训练,提高了预测模型的准确度。

示例性地,根据本发明实施例的图像数据的标注方法可以在具有存储器和处理器的设备、装置或者系统中实现。

示例性地,根据本发明实施例的图像数据的标注方法可以部署在个人终端处,诸如智能电话、平板电脑、个人计算机等。替代地,根据本发明实施例的图像数据的标注方法还可以部署在服务器端(或云端)。替代地,根据本发明实施例的图像数据的标注方法还可以分布地部署在服务器端(或云端)和个人终端处。替代地,根据本发明实施例的图像数据的标注方法还可以分布地部署在不同的个人终端处。

以上示例性地描述了根据本发明实施例的图像数据的标注方法所包括的示例性步骤流程。下面,参照图9描述根据本发明实施例的电子设备,图9示出了根据本发明实施例的电子设备900的示意性框图。本发明实施例的电子设备900包括存储器910以及处理器920。其中,存储器910存储用于实现根据本发明实施例的图像数据的标注方法中的相应步骤的程序代码。处理器920用于运行存储器910中存储的程序代码,以执行根据本发明实施例的图像数据的标注方法200的相应步骤。本发明实施例的图像数据的标注方法200具体可以参照上文,在此不做赘述。

此外,根据本申请实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本申请实施例的图像数据的标注方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

根据本申请实施例,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述图像数据的标注方法。

根据本发明实施例的图像数据的标注方法、电子设备以及计算机可读介质基于预测模型生成预测结果,通过校准模块对预测结果进行校准以得到标注结果,能够加快图像数据的标注速度;同时,在标注过程中利用包含标注结果的图像数据对预测模型进行训练,提高了预测模型的准确度。

尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者其他合适的处理器来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 图像降噪方法、装置、电子设备及计算机可读存储介质
  • 图像处理方法和装置、电子设备、计算机可读存储介质
  • 图像处理方法、装置、电子设备及计算机可读存储介质
  • 图像处理方法和装置、电子设备、计算机可读存储介质
  • 图像呈现方法、系统、电子设备和计算机可读存储介质
  • 图像标注方法、装置、电子设备和计算机可读介质
  • 图像标注方法、装置、电子设备及计算机可读存储介质
技术分类

06120115938355