掌桥专利:专业的专利平台
掌桥专利
首页

一种图像处理装置、方法、介质及系统

文献发布时间:2023-06-19 11:14:36


一种图像处理装置、方法、介质及系统

技术领域

本申请的一个或多个实施例通常涉及人工智能领域,具体涉及一种基于人工智能的图像处理装置、方法、介质及系统。

背景技术

近年来,深度学习技术在计算机视觉领域,尤其是图像分类领域,受到广泛应用,经过训练的图像分类模型可以为输入图像分配预定义的标签,其中,比较有代表性的图像分类模型是基于ImageNet数据集训练的ImageNet分类模型,其可以进行1000个类别的图像分类。

用于训练分类模型的样本图像通常为经过人工标注的图像,其中,属于目标类别的图像称为正样本图像,不属于目标类别的图像称为负样本图像。然而,现有技术中,对于样本图像的收集,绝大部分依赖于人工标注,人力成本和时间成本都较高。

发明内容

本申请的实施例提供了一种图像处理装置、方法、介质及系统。以下从多个方面介绍本申请,以下多个方面的实施方式和有益效果可互相参考。

第一方面,本申请实施例提供了一种图像处理装置,该装置可以包括特征提取模型建立模块,可以用于利用第一组图像获取特征提取模型;特征提取模块,可以用于利用特征提取模型提取第二组图像的特征;相似性计算模块,可以用于获取第一组图像的特征与第二组图像的特征之间的相似性;和样本图像选择模块,可以用于从第二组图像中选择第三组图像,其中第三组图像的特征与第一组图像的特征之间的相似性在第一预定范围内;其中,特征提取模型建立模块还可以用于根据第三组图像训练特征提取模型。

根据本申请的实施例,使用收集的第三组图像,例如样本图像,再训练特征提取模型,可以进一步地提高特征提取模型的鲁棒性和准确度,也可以进一步地提高选择出的第三组图像的准确度,进而提高样本收集的效率。

在一些实施例中,第一组图像可以包含在第二组图像中。例如,样本种子图像可以来源于未标注图像。

在一些实施例中,由于根据图像的特征之间的相似性来收集第三组图像,第三组图像的特征的数量可以大于第一组图像的特征的数量。

根据本申请的实施例,第三组图像可以从图像数量和特征数量两个维度对第一组图像进行扩充,因此,使用这样的第三组图像再训练特征提取模型,可以显著地提高特征提取模型的鲁棒性和准确度。

在一些实施例中,特征提取模块还可以用于利用特征提取模型提取第一组图像的特征,例如,在第一组图像不来源于第二组图像的情况下。

在一些实施例中,相似性计算模块还用于获取第一组图像的特征与第二组图像的特征之间的相似性,可以包括:对于特征提取模型的每一层,计算第一组图像的特征的特征向量和第二组图像的特征的特征向量之间的相似性。

在一些实施例中,相似性计算模块计算第一组图像的特征的特征向量和第二组图像的特征的特征向量之间的相似性,可以包括:通过余弦距离和/或EMD距离(Earth Mover's Distance,搬土距离)来计算第一组图像的特征的特征向量和第二组图像的特征的特征向量之间的相似性。

在一些实施例中,第一预定范围可以是[0.9,1],此时,第一组图像可以包含在第二组图像中。

在一些实施例中,第一组图像和第三组图像包括负样本图像,负样本图像是不属于目标类别的图像。

根据本申请的实施例收集的负样本图像可以提高目标类别分类模型的鲁棒性和准确度。

在一些实施例中,第一组图像和第三组图像包括正样本图像,正样本图像是属于目标类别的图像。

在一些实施例中,特征提取模型建立模块利用第一组图像获取特征提取模型,可以包括:计算第一组图像与ImageNet训练图像集合之间的相似性;在第一组图像与ImageNet训练图像集合之间的相似性在第二预定范围内的情况下,利用ImageNet训练图像集合获取特征提取模型;在第一组图像与ImageNet训练图像集合之间的相似性不在第二预定范围内的情况下,利用第一组图像获取特征提取模型。

根据本申请的实施例,在第一组图像与ImageNet训练图像集合之间的相似性较高的情况下,可以直接基于通过ImageNet训练图像集合训练的ImageNet模型来获取特征提取模型,如此可以降低建立特征提取模型的复杂度。

第二方面,本申请提供一种图像处理方法,该方法可以包括:利用第一组图像获取特征提取模型;利用特征提取模型提取第二组图像的特征;获取第一组图像的特征与第二组图像的特征之间的相似性,并从第二组图像中选择第三组图像,其中第三组图像的特征与第一组图像的特征之间的相似性在第一预定范围内;和根据第三组图像,训练特征提取模型。

根据本申请的实施例,使用收集的第三组图像,例如样本图像,再训练特征提取模型,可以进一步地提高特征提取模型的鲁棒性和准确度,也可以进一步地提高选择出的第三组图像的准确度,进而提高样本收集的效率。

在一些实施例中,第一组图像可以包含在第二组图像中。例如,样本种子图像可以来源于未标注图像。

在一些实施例中,由于根据图像的特征之间的相似性来收集第三组图像,第三组图像的特征的数量可以大于第一组图像的特征的数量。

根据本申请的实施例,第三组图像可以从图像数量和特征数量两个维度对第一组图像进行扩充,因此,使用这样的第三组图像再训练特征提取模型,可以显著地提高特征提取模型的鲁棒性和准确度。

在一些实施例中,该方法还包括利用特征提取模型提取第一组图像的特征,例如,在第一组图像不来源于第二组图像的情况下。

在一些实施例中,重复下列直至预定次数:利用特征提取模型提取第一组图像的特征和第二组图像的特征;获取第一组图像的特征与第二组图像的特征之间的相似性,并从第二组图像中选择第三组图像,其中第三组图像的特征与第一组图像的特征的相似性在预定范围内;和根据第三组图像,训练特征提取模型。

根据本申请的实施例,迭代进行第三组图像的收集和利用第三组图像再训练特征提取模型,可以极大地提高特征提取模型的鲁棒性和准确度。

在一些实施例中,获取第一组图像的特征与第二组图像的特征之间的相似性,可以包括:对于特征提取模型的每一层,计算第一组图像的特征的特征向量和第二组图像的特征的特征向量之间的相似性。

在一些实施例中,计算第一组图像的特征的特征向量和第二组图像的特征的特征向量之间的相似性,可以包括:通过余弦距离和/或EMD距离来计算第一组图像的特征的特征向量和第二组图像的特征的特征向量之间的相似性。

在一些实施例中,第一预定范围可以是[0.9,1],此时,第一组图像可以包含在第二组图像中。

在一些实施例中,第一组图像和第三组图像可以包括负样本图像,负样本图像是不属于目标类别的图像。

根据本申请的实施例收集的负样本图像可以提高目标类别分类模型的鲁棒性和准确度。

在一些实施例中,第一组图像和第三组图像可以包括正样本图像,正样本图像是属于目标类别的图像。

在一些实施例中,利用第一组图像获取特征提取模型,可以包括:计算第一组图像与ImageNet训练图像集合之间的相似性;在第一组图像与ImageNet训练图像集合之间的相似性在第二预定范围内的情况下,利用ImageNet训练图像集合获取特征提取模型;在第一组图像与ImageNet训练图像集合之间的相似性不在第二预定范围内的情况下,利用第一组图像获取特征提取模型。

根据本申请的实施例,在第一组图像与ImageNet训练图像集合之间的相似性较高的情况下,可以直接基于通过ImageNet训练图像集合训练的ImageNet模型来获取特征提取模型,如此可以降低建立特征提取模型的复杂度。

第三方面,本申请实施例还提供一种图像处理方法,该方法包括:利用第一组图像获取特征提取模型,其中,第一组图像包括负样本图像,负样本图像是不属于目标类别的图像;利用特征提取模型,提取第二组图像的特征。

根据本申请的实施例,可以通过基于负样本图像获取的特征提取模型提取第二组图像(例如未标注图像)的特征,以用于在第二组图像中收集与负样本图像的特征相似的图像,相对于现有技术中使用人工收集负样本图像,可以提升负样本图像收集的效率,同时也降低负样本图像收集的成本。

在一些实施例中,该方法还包括:利用特征提取模型提取第一组图像的特征;获取第一组图像的特征与第二组图像的特征之间的相似性,并从第二组图像中选择第三组图像,其中第三组图像的特征与第一组图像的特征之间的相似性在第一预定范围内;和根据第三组图像,训练特征提取模型。

根据本申请的实施例,使用收集的第三组图像,例如负样本图像,再训练特征提取模型,可以进一步地提高特征提取模型的鲁棒性和准确度,也可以进一步地提高选择出的第三组图像的准确度,进而提高样本收集的效率。

进一步地,根据本申请的实施例收集的负样本图像可以提高目标类别分类模型的鲁棒性和准确度。

第四方面,本申请实施例还提供一种系统,该系统包括:处理器;存储器,存储器中存储有指令,当指令被处理器运行时,使得处理器执行如上的任一种方法。

第五方面,本申请实施例还提供一种机器可读介质,机器可读介质中存储有指令,指令被机器运行时,使得机器执行如上的任一种方法。

附图说明

图1示出了根据本申请实施例的样本图像收集的应用场景的示例;

图2示出了根据本申请实施例的样本图像收集装置的结构示意图;

图3A-3C分别示出了根据本申请实施例的未标注图像、样本种子图像以及样本图像的示意图;

图4示出了根据本申请实施例的卷积神经网络的结构示意图;

图5示出了根据本申请实施例的负样本图像收集方法的流程示意图;

图6示出了根据本申请实施例的正样本图像收集方法的流程示意图。

具体实施方式

下面结合具体实施例和附图对本申请做进一步说明。可以理解的是,本申请的说明性实施例包括但不限于图像装置、方法、介质和系统,此处描述的具体实施例仅仅是为了解释本申请,而非对本申请的限定。此外,为了便于描述,附图中仅示出了与本申请相关的部分而非全部的结构或过程。

以下由特定的具体实施例说明本申请的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解,以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外,为了避免混乱或模糊本申请的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

此外,各种操作将以最有助于理解说明性实施例的方式被描述为多个离散操作;然而,描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是,这些操作不需要按呈现顺序执行。

除非上下文另有规定,否则术语“包含”,“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A和B)或者(A或B)”。

如这里所使用的,术语“模块”或“单元”可以指代、是或者包括:专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的(共享、专用或组)处理器和/或存储器、组合逻辑电路和/或提供所描述的功能的其他合适的组件。

在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质的途径分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制、但不限于、软盘、光盘、光盘、只读存储器(CD-ROM)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于通过电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)通过因特网传输信息的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中,以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可以不需要这样的特定布置和/或排序。在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包含结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。

应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元或是数据,但是这些单元或数据不应当受这些术语限制。使用这些术语仅仅是为了将一个特征与另一个特征进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一特征可以被称为第二特征,并且类似地第二特征可以被称为第一特征。

应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

本申请的实施例可以用于,但不限于,计算机视觉和人工智能领域。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。

图1示出了根据本申请实施例的样本图像收集的应用场景的示例,即样本图像收集系统100的框图。系统100可以但不限于是,便携式或移动设备、手机、平板电脑、电视、个人数字助理、膝上型设备、台式机、手持PC、服务器、网络设备、图形设备、视频游戏设备、机顶盒、蜂窝电话、便携式媒体播放器、手持设备、可穿戴设备(例如,显示眼镜或护目镜、头戴式显示器、手表、头戴设备、臂带、珠宝等)、虚拟现实和/或增强现实设备、物联网设备、工业控制设备、车载信息娱乐设备、流媒体客户端设备、电子书、阅读设备、POS机、以及其他电子设备。一般地,能够包含本申请中所公开的处理器和/或其它执行逻辑的多个装置和电子设备一般都是合适的。如图1所示,系统100可以包括一个或多个处理器110、协处理器120、控制器中枢130、存储器140、输入/输出(I/O)设备150,其中,处理器110、协处理器120、存储器140、I/O设备150耦合到控制器中枢130。在一些实施例中,控制器中枢803包括,但不局限于,图形存储器控制器中枢(GMCH)(未示出)和输入/输出中枢(IOH)(未示出),其中GMCH包括存储器和图形控制器并与IOH耦合。或者,存储器140和GMCH中的一个或两者可以被集成在处理器110内,存储器140和协处理器120直接耦合到处理器110,控制器中枢130与IOH处于单个芯片中。

在一些实施例中,处理器110可以包括专用处理器、微处理器、数字信号处理器等,和/或其任何组合。在一些实施例中,处理器110可以是单核处理器,多核处理器等,和/或其任何组合。

在一些实施例中,处理器110执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器110将这些协处理器指令识别为应当由附连的协处理器120执行的类型。因此,处理器110在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器120。协处理器120接受并执行所接收的协处理器指令。协处理器120的可选性质用虚线表示在图1中。

在一些实施例中,协处理器120是专用处理器,诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。

在一些实施例中,控制器中枢130可以包括集成图形加速器。对于至少一个实施例,控制器中枢130经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接160与处理器110进行通信。

存储器140可以包括及操作系统(OS)143、图像处理指令142以及图像集合141等。根据本申请的一些实施例,图像集合141可以包括待从中收集样本图像的多个图像,例如图2中的未标注图像10,图像集合141还可以包括作为样本图像收集基准的图像,例如图2中的样本种子图像20,图像集合141也可以包括其他种类的图像。根据本申请的一些实施例,图像处理指令142可被处理器110和/或协处理器120运行,以针对图像集合141执行样本图像的收集方法。操作系统143用于支撑所述图像处理指令142的运行,操作系统143可以包括但不限于是LINUX、Android、Microsoft Windows、iOS、Mac OS、鸿

存储器140可以包括一个或多有形的、非暂时性计算机可读介质。存储器140可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排,其包括存储介质,诸如硬盘或任何其它类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘;半导体器件,例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其它类型的介质。

需要说明的是,图1示出的样本图像收集系统100的架构可以具有其他的变体,例如,但不限于,处理器110和/或协处理器120的功能也可以由专用集成电路(ASIC)、电子电路、现场可编程逻辑门阵列(FPGA)、组合逻辑电路和/或提供所描述的功能的其他合适的组件来实现。

图2示出了根据本申请实施例的样本图像收集装置200的结构示意图。样本图像收集装置200用于根据样本种子图像20,从未标注图像10中收集与样本种子图像20相似的图像作为样本图像30。其中,未标注图像10是包括多个类别、但还未被分配类别标签的多个图像的集合。图3A示出了未标注图像10的一个示例,如图3A所示,未标注图像10可以包括猫类、狗类、鸟类、桥类等类别的图像,而且图3A中的每张图像都还未被分配类别标签,需要说明的是,图3A仅是未标注图像10的一个示例,未标注图像10可以包括其他类别的图像。另外,根据本申请的一些实施例,未标注图像可以是来自摄像装置、图像处理装置的图像,也可以是从互连网收集的图像,在此对未标注图像的来源不作限制。

样本种子图像20是已标注类型的多个图像的集合,例如不同于目标类别的负样本种子图像或者与目标类别一致的正样本种子图像。由于样本种子图像20的图像数量有限,因此,这里将其称为种子图像。根据本申请的一些实施例,在样本种子图像20包括负样本种子图像的情况下,样本种子图像20可以通过利用目标类别分类模型对未标注图像10进行分类以获得目标类别图像,并从目标类别图像中挑选出被目标类别分类模型错误归类的不属于该目标类别的图像来获得。在样本种子图像20包括正样本种子图像的情况下,样本种子图像20可以通过已知的目标类别样本图像获得,例如,用于训练目标类别分类模型的目标类别样本图像。根据本申请的另一些实施例,样本种子图像20可以通过其他来源获得,例如样本种子图像20可以包括从ImageNet图像集合中选择的图像、或者通过其他方式被分配类别标签的图像,其中,在一些情况下,ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库,其就像一个网络一样,拥有多个节点,每一个节点相当于一个子类别,一个节点含有至少500个对应物体的可供训练的图像,它实际上就是一个巨大的可供图像/视觉训练的图像库。图3B示出了样本种子图像20的一个示例,如图3B所示,样本种子图像20来源于未标注图像10,其可以包括猫类和狗类的图像,而且图3B中的每张图像都已分配对应的类别标签,需要说明的是,图3B仅是样本种子图像20的一个示例,样本种子图像20可以从其他来源获取,也可以包括其他类别的图像。另外,根据本申请的一些实施例,样本种子图像20可以是少量图像。

如图3B所示,根据具体的实施例,样本种子图像20可以是负样本种子图像21或正样本种子图像22,相对于要训练的目标类别分类模型,属于目标类别的图像称为正样本种子图像22,不属于目标类别的图像称为负样本种子图像21。例如,在图3B中,如果目标类别分类模型用于识别狗类图像,那么,正样本种子图像22可以包括狗类的图像,负样本种子图像21可以包括猫类的图像,需要说明的是,图3B仅是负样本种子图像21和正样本种子图像22的一个示例,负样本种子图像21和正样本种子图像22可以包括其他类别的图像。

图3C示出了样本图像30的一个示例,如图3C所示,样本图像30包括已分配类别标签的猫类和狗类的图像,其是图3A的未标注图像10中、与图3B的猫类和狗类的样本种子图像20相似的图像。需要说明的是,图3C仅是样本图像30的一个示例,样本图像30可以包括其他类别的图像。

根据本申请的一些实施例,如图3C所示,样本图像30可以包括负样本图像31和正样本图像32,如果样本种子图像20是正样本种子图像22,那么最终得到的样本图像30将是属于目标类别分类模型的目标类别的正样本图像32,如果样本种子图像20是负样本种子图像21,那么最终得到的样本图像30将是不属于目标类别分类模型的目标类别的负样本图像31。例如,在图3C中,如果目标类别分类模型用于识别狗类图像,那么,正样本图像32是属于狗类的图像,负样本图像31是属于猫类的图像。

回到图2,如图2所示,样本图像收集装置200包括特征提取模型建立模块210、特征提取模块220、相似性计算模块230、样本图像选择模块240。样本图像收集装置200的一个或多个模块可以由专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的(共享、专用或组)处理器和/或存储器、组合逻辑电路和/或提供所描述的功能的其他合适的组件构成。

特征提取模型建立模块210用于建立特征提取模型,特征提取模型能够提取输入图像的特征,特征提取模型可以例如,但不限于,基于卷积神经网络、深度信念网络或者具有特征提取层的其他类别的神经网络而获得。

图4示出了卷积神经网络的一种结构示意图,如图4所示,卷积神经网络可以包括输入层410、卷积层420、池化层430、全连接层440以及分类层450,其中输入层410可以对输入图像等数据进行去均值、归一化等预处理,并将结果输出至卷积层420;卷积层420可以对输入层的输出数据进行特征提取,并将结果输出至池化层430;池化层430可以对卷积层的输出数据进行特征选择和信息过滤,并将结果输出至下一卷积层420,最后一个池化层430将结果输出至全连接层440;全连接层440可以将池化层430的输出数据中的所有特征综合起来,并将结果输出至下一个全连接层440或者分类层450;分类层450根据全连接层440的输出数据对输入图像进行分类,并输出分类结果等数据,例如输入图像属于各个目标类别的概率。在特征提取模型基于卷积神经网络获得的情况下,特征提取模型可以由卷积神经网络的一个或多个层组成,例如,特征提取模型可以由卷积神经网络的卷积层420组成,或者可以由卷积神经网络的卷积层420和全连接层440组成,或者可以由卷积神经网络的全连接层440组成。需要说明的是,可以根据类似的原理,基于具有特征提取层的其他类别的神经网络获得特征提取模型。

根据本申请的一些实施例,特征提取模型建立模块210可以基于样本种子图像20建立特征提取模型,例如,特征提取模型建立模块210可以基于正样本种子图像22建立正样本特征提取模型,也可以基于负样本种子图像21建立负样本特征提取模型。

特征提取模块220用于将图像输入通过特征提取模型建立模块210建立的特征提取模型,以获取输入图像的特征,例如,输入图像在特征提取模型的各个层上的特征向量。在样本种子图像20来源于未标注图像10的情形下,特征提取模型的输入图像可以是未标注图像10,在样本种子图像20不来源于未标注图像10的情形下,特征提取模型的输入图像可以是未标注图像10和样本种子图像20。

相似性计算模块230用于获得未标注图像10的特征与样本种子图像20的特征之间的相似性。根据本申请的一些实施例,未标注图像10的特征与样本种子图像20的特征之间的相似性指的是类别相对应的未标注图像10与样本种子图像20之间的相似性。

根据本申请的一些实施例,相似性计算模块230可以计算在特征提取模型的每一层上,未标注图像10的特征向量和样本种子图像20的特征向量之间的相似性。根据本申请的一些实施例,相似性计算模块230可以通过计算在特征提取模型的每一层上,未标注图像10的特征向量和样本种子图像20的特征向量之间的距离来表征两者之间的相似性。所述距离包括但不限于是,余弦距离、EMD距离(Earth Mover's Distance,搬土距离)、欧式距离、曼哈顿距离、通过度量学习学到的距离或者其他距离。在此示例余弦距离的计算方法,其他算法不再赘述,余弦距离是通过计算两个向量内积空间夹角的余弦值来表征两个向量之间的相似性,其可以用如下公式1来表示:

sim

其中,i和j表示两个不同的图像;k表示特征提取模型的第k层;fv

根据本申请的一些实施例,相似性计算模块230可以基于在特征提取模型的每一层上,未标注图像10的特征向量和样本种子图像20的特征向量之间的相似性,计算未标注图像10的特征和样本种子图像20的特征之间的相似性,例如通过线性回归算法或其他算法。其中,该线性回归算法可以用如下公式2来表示:

其中,m表示特征提取模型包含的层数,m为正整数;k表示特征提取模型的第k层,k=1,...,m;sim

根据本申请的一些实施例,对于样本种子图像20的一个类别,相似性计算模块230和样本图像选择模块240可以遍历全部未标注图像10以选择属于该类别的样本图像30,或者,也可以遍历部分未标注图像10以选择属于该类别的样本图像30,例如,在样本图像30的数量已经满足要求的情况下,或者,已有部分未标注图像10被选择为其他类别的样本图像30的情况下。

如图2所示,根据本申请的一些实施例,通过样本图像选择模块240选择出的样本图像30,可以进一步地优化特征提取模型建立模块210建立的特征提取模型,然后优化后的特征提取模型也可以再用于样本图像30的获取,该迭代优化过程可以进行例如,但不限于,3次,如此,可以进一步地提高样本图像收集的准确度。另外,如图2所示,迭代优化过程结束后,样本图像30可以被输出,用于训练目标类别分类模型,或者用于其他需要大量丰富的已标注图像的应用。

以下,将通过负样本图像31的收集和正样本图像32的收集,进一步地介绍样本图像收集装置200的各个组件的功能。

1.负样本图像31的收集

特征提取模型建立模块210可以根据负样本种子图像21建立负样本特征提取模型。根据本申请的一些实施例,可以通过以下获取负样本种子图像21:

1)使用已标注的正样本图像集合训练目标类别分类模型,例如,图4中的卷积神经网络。

根据本申请的一些实施例,已标注的正样本图像集合可以包括从ImageNet图像集合选取的图像,也可以包括通过本申请的一些实施例收集的正样本图像32,或者,也可以是通过人工方式从未标注图像10中选择并标注的图像,在此对已标注的正样本图像集合的来源不作具体限定。根据本申请的一些实施例,已标注的正样本图像可以包括一个或多个类别的图像,例如但不限于狗类的图像。

根据本申请的一些实施例,可以使用反向传播算法(Back Propagation,BP)、牛顿梯度下降算法或其他算法来训练目标类别分类模型,其中在反向传播算法中,将输入信息输入神经网络模型,如果在输出层得不到期望的输出值,则基于输出值与期望值之间的误差确定目标函数,并根据目标函数反过来修正神经网络各层的参数,在牛顿梯度下降算法中,通过梯度下降法来一步步的迭代求解,最终得到使得目标函数具有最小值的神经网络各层的参数值。然而,由于没有使用负样本图像对目标类别分类模型进行训练,此时的目标类别分类模型的鲁棒性和准确度均有待提高。

2)使用目标类别分类模型对大量未标注图像10进行分类。

根据本申请的一些实施例,可以输出每一个未标注图像10属于各个目标类别的概率,或者输出每一个未标注图像10属于各个目标类别的概率中的最大概率,以及该最大概率对应的目标类别。

3)对于每一个目标类别,可以从未标注图像10中选择属于该目标类别的概率处于阈值区间内的图像。

根据本申请的一些实施例,阈值区间可以是目标类别分类模型容易发生分类错误(即,某个未标注图像10实际上不属于某个目标类别,但目标分类模型输出的该未标注图像10属于该目标类别的概率却大于预定值,例如,0.8或其他预定值)的概率区间,例如概率区间[0.8,0.9],或者其他的概率区间。例如,在目标类别是狗类的情况下,可以从图3A中示出的未标注图像10中选择属于狗类的概率在[0.8,0.9]区间内的图像。

4)通过人工,从选择的未标注图像10中挑选出不属于目标类别的图像,例如,在目标类别是狗类的情况下,可以从选择的属于狗类的概率在[0.8,0.9]区间内的未标注图像10中,挑选出不属于狗类的图像,例如,猫类的图像。这些图像可以通过人工、聚类算法或其他方式被分配类别标签后可以作为负样本种子图像21,例如图3B中示出的包括猫类的图像的负样本种子图像21。由于负样本种子图像21实质上是与正样本图像相似的图像,因此根据本申请的实施例确定的负样本种子图像21能够更有效地优化目标图像训练模型。

根据本申请的另一些实施例,也可以直接通过人工方式从未标注图像10中选择并标注少量图像作为负样本种子图像21,或者通过其他来源以及其他方式获得负样本种子图像21。

为了建立负样本特征提取模型,特征提取模型建立模块210可以获得负样本种子图像21的集合与ImageNet训练图像集合之间的相似性。根据本申请的一些实施例,对于负样本种子图像21的每一个类别,特征提取模型建立模块210可以从该类别内选择一个负样本种子图像21,从ImageNet训练图像集合的该类别的图像中选择一个ImageNet图像,利用特征提取算法(例如,LBP(Local Binary Pattern,局部二值模式)、Haar算法等)获取两个图像的特征向量,计算两个图像的特征向量之间的距离,例如,余弦距离、EMD距离、欧式距离、通过度量学习学到的距离或者其他距离,来获得这两个图像的特征向量之间的相似性,其可以表征这两个图像之间的相似性,也可以表征该类别的负样本种子图像21与ImageNet训练图像集合的该类别的图像之间的相似性。根据本申请的另一些实施例,对于负样本种子图像21的每一个类别,特征提取模型建立模块210可以计算该类别内多个负样本种子图像21与ImageNet训练图像集合的该类别内的多个图像之间的相似性,并将计算的各个相似性的均值作为该类别的负样本种子图像21与ImageNet训练图像集合的该类别的图像之间的相似性。最后,特征提取模型建立模块210基于为负样本种子图像21的各个类别计算的各个相似性的平均值、最大值、最小值或其他统计值,来表征负样本种子图像21的集合与ImageNet训练图像集合之间的相似性。

特征提取模型建立模块210还用于判断负样本种子图像21的集合与ImageNet训练图像集合之间的相似性是否在预定范围内,例如,[0.9,1]或其他范围。在负样本种子图像21的集合与ImageNet训练图像集合之间的相似性在预定范围内的情况下,特征提取模型建立模块210可以基于通过ImageNet训练图像集合训练的ImageNet模型获取负样本特征提取模型,以降低负样本特征提取模型建立的复杂度。根据本申请的一些实施例,在ImageNet模型是图4示出的卷积神经网络的情况下,ImageNet模型可以包括P个卷积层420和Q个全连接层440(其中,P和Q为正整数),特征提取模型建立模块210可以从ImageNet模型中选择M(M为正整数)个层来构成负样本特征提取模型,对于ImageNet模型的输入图像,这M个层上的输出向量将分别作为负样本特征提取模型的M个层上的特征向量。根据本申请的一些实施例,这M个层可以均为卷积层420,或者可以包括卷积层420和全连接层440,或者均为全连接层440。

在负样本种子图像21的集合与ImageNet训练图像集合之间的相似性不在预定范围内的情况下,特征提取模型建立模块210可以使用负样本种子图像21的集合,例如,基于反向传播算法、牛顿梯度下降算法或其他算法,来训练一个新的神经网络,例如,卷积神经网络,再基于上述原则获得负样本特征提取模型。

特征提取模块220将需要提取特征的图像(例如,未标注图像10,或者未标注图像10和负样本种子图像21)输入负样本特征提取模型,得到负样本特征提取模型的M个层上的特征向量。例如,对于图3B中示出的包括猫类的图像的负样本种子图像21,负样本特征提取模型的M个层上的特征向量可以与猫的眼睛、鼻子、耳朵等特征相关联。

对于负样本种子图像21的一个类别以及一张未标注图像10,相似性计算模块230可以分别计算该未标注图像10的特征与该类别内至少一个负样本种子图像21的特征之间的相似性。具体地,对于负样本特征提取模型的M个层中的每一个层,相似性计算模块230可以计算一个未标注图像10和一个负样本种子图像21在该层上的特征向量之间的距离,例如,余弦距离、EMD距离、欧氏距离、通过度量学习学到的距离或者其他距离,来表征这两个图像在该层上的特征之间的相似性;然后,使用线性回归算法或逻辑回归算法,基于这两个图像在各个层上的特征之间的相似性,计算这两个图像的特征之间的相似性。

对于负样本种子图像21的一个类别以及一张未标注图像10,样本图像选择模块240可以判断该未标注图像10的特征与该类别内至少一个负样本种子图像21的特征之间的相似性的均值、最大值、最小值或者其他的统计值是否在预定范围内,如果是,则样本图像选择模块240将该未标注图像10选择为该类别的负样本图像31。根据本申请的一些实施例,通过样本图像选择模块240选择出的负样本图像31可以包括,也可以不包括负样本种子图像21。根据本申请的一些实施例,所述预定范围可以是,但不限于,[0.9,1]或者[0.9,1)。需要说明的是,所述预定范围可以与判定负样本种子图像21的集合与ImageNet训练图像集合之间的相似性的预定范围相同或者不同。

例如,对于图3B中示出的包括猫类的图像的负样本种子图像21,样本图像选择模块240可以从图3A中示出的未标注图像10中选择出,与负样本种子图像21中的猫的眼睛、鼻子、耳朵、颜色等特征相似的猫的图像。因此,根据本申请的实施例,可以从图像数量以及图像特征的数量两个维度对负样本种子图像21进行扩充,并且,根据图像的特征之间的相似性来收集负样本图像31可以极大地提高准确度。

需要说明的是,在计算负样本种子图像21与ImageNet训练图像之间的相似性时,除了特征提取算法,还可以以类似于计算负样本种子图像21和未标注图像之间的相似性的方式,首先将负样本种子图像21和ImageNet训练图像输入预先训练好的卷积神经网络(通过大量类别的大规模图像训练的卷积神经网络,例如,通过Google的JFT Dataset训练的卷积神经网络),以卷积神经网络中指定的一个或多个层上(例如,卷积层和/或全连接层)的输出向量作为负样本种子图像21和ImageNet训练图像的特征向量,再通过计算在指定的各层上,负样本种子图像21和ImageNet训练图像的特征向量之间的相似性,来得到负样本种子图像21和ImageNet训练图像之间的相似性。

根据本申请的一些实施例,特征提取模型建立模块210可以使用样本图像选择模块240收集的负样本图像31对负样本特征提取模型进行再训练。根据本申请的一些实施例,特征提取模型建立模块210可以通过,例如,反向传播算法、牛顿梯度下降算法或其他算法,训练卷积神经网络,再基于上述原则获取负样本特征提取模型。由于负样本图像31对负样本种子图像21的特征数量以及图像数量进行了扩充,因此,经过负样本图像31再训练的负样本特征提取模型的鲁棒性和准确度将会更高。同样地,通过再训练的负样本特征提取模型提取未标注图像10和负样本种子图像21的特征,通过相似性计算模块230和样本图像选择模块240从未标注图像10中选择出的负样本图像31的准确度将进一步提高。根据本申请的实施例,通过样本图像收集装置200收集负样本图像31,并使用负样本图像31优化负样本特征提取模型,这个过程可以重复预定次数,例如,但不限于,3次。

根据本申请的实施例,根据负样本种子图像21从未标注图像10中选择出的负样本图像31,可以被标注与负样本种子图像21的各个类别相应的类别标签。

根据本申请的另一些实施例,经过迭代训练的负样本特征提取模型已经具有较好的鲁棒性和准确度,因此也可以通过分类模型的分类概率来选择与负样本种子图像21相似的图像。具体地,特征提取模块220可以将未标注图像10输入负样本特征提取模型,以获得未标注图像10的特征,相似性计算模块230可以使用分类模型,例如,SVM分类模型、Tensorflow分类模型或其他分类模型,基于未标注图像10的特征与负样本种子图像21的特征,获得每个未标注图像10属于负样本种子图像21的各个类别的概率,或者,获得每一个未标注图像10属于负样本种子图像21的各个类别的概率中的最大概率,以及该最大概率对应的负样本种子图像21的类别,然后对于负样本种子图像21的每个类别,样本图像选择模块240可以按照属于该类别的概率对未标注图像10进行排序,并选择概率排序处于前N位的图像作为该类别的负样本图像31,其中,N属于正整数。

根据本申请的一些实施例,收集的负样本图像31可以用于优化训练目标类别分类模型,也可以与负样本种子图像21一起训练新的图像分类模型,例如,图4中示出的卷积神经网络,或者用于其他需要大量丰富的已标注图像的应用。

在本申请的实施例中,可以根据少量负样本种子图像21从大量未标注图像10中收集大量负样本图像31,这大大提升了负样本图像31收集的效率,同时降低了负样本图像31收集的成本。

进一步地,根据图像的特征之间的相似性,从未标注图像中收集与负样本种子图像21相似的图像作为负样本图像31,相对于直接使用基于少量负样本种子图像21训练的卷积神经网络对未标注图像10进行分类,可以极大地提高收集的准确度,进而提高负样本收集效率。

进一步地,使用图像数量和特征数量多于负样本种子图像21的负样本图像31再训练负样本特征提取模型,可以进一步地提高负样本特征提取模型的鲁棒性和准确度,也可以进一步地提高选择出的负样本图像31的准确度,进而提高负样本收集效率。

2.正样本图像32的收集

特征提取模型建立模块210可以根据正样本种子图像22建立正样本特征提取模型。根据本申请的一些实施例,正样本种子图像22可以是已标注的图像,其可以是从ImageNet图像集合选取的图像,也可以是通过人工方式从未标注图像10或其他图像源中选择并标注的少量图像,在此对正样本种子图像22的来源不作具体限定。根据本申请的一些实施例,正样本种子图像22可以包括一个或多个类别的图像,例如,如图3B所示,正样本种子图像22可以包括狗类的图像。

为了建立正样本特征提取模型,特征提取模型建立模块210可以使用正样本种子图像22训练神经网络,例如基于反向传播算法、牛顿梯度下降算法或其他算法来训练,然后基于训练的神经网络来获取正样本特征提取模型。在神经网络是如图4所示的卷积神经网络的情况下,正样本特征提取模型的获取可以参照以上对负样本特征提取模型的相应描述,在此不再赘述。特征提取模块220将需要提取特征的图像(例如,未标注图像10,或者未标注图像10和正样本种子图像22)输入正样本特征提取模型,得到正样本特征提取模型的M个层输出的特征向量。例如,对于图3B中示出的包括狗类的图像的正样本种子图像22,正样本特征提取模型的M个层输出的特征向量可以与狗的眼睛、鼻子、耳朵、颜色特征等相关联。

对于正样本种子图像22的一个类别以及一张未标注图像10,相似性计算模块230可以分别计算该未标注图像10的特征与该类别内至少一个正样本种子图像22的特征之间的相似性,具体地,可以参照上述对负样本种子图像21的相应描述,在此不再赘述。

对于正样本种子图像22的一个类别以及一张未标注图像10,样本图像选择模块240可以判断该未标注图像10的特征与该类别内至少一个正样本种子图像22的特征之间的相似性的均值、最大值、最小值或者其他的统计值是否在预定范围内,如果是,则样本图像选择模块240将该未标注图像10选择为该类别的正样本图像32。根据本申请的一些实施例,上述预定范围可以例如,但不限于,[0.9,1]或者[0.9,1)。

例如,对于图3B中包括狗类的图像的正样本种子图像22,样本图像选择模块240可以从图3A中的未标注图像10中选择出,与正样本种子图像22中的狗的眼睛、鼻子、耳朵、颜色等特征相似的狗的图像。因此,根据本申请的实施例,可以从图像数量以及图像特征的数量两个维度对正样本种子图像22进行扩充,并且,根据图像的特征之间的相似性来收集正样本图像32可以极大地提高准确度。

可选地,特征提取模型建立模块210可以使用样本图像选择模块240收集的正样本图像32对正样本特征提取模型进行再训练,具体可以参照以上对于负样本图像31的相应描述,在此不再赘述。由于正样本图像32对正样本种子图像22的特征数量以及图像数量进行了扩充,因此,经过正样本图像32再训练的正样本特征提取模型的鲁棒性和准确度将会更高。同样地,通过再训练的正样本特征提取模型提取未标注图像10和正样本种子图像22的特征,通过相似性计算模块230和样本图像选择模块240从未标注图像10中选择出的正样本图像32的准确度将进一步提高。根据本申请的实施例,通过样本图像收集装置200收集正样本图像32,并使用正样本图像32再训练正样本特征提取模型,这个过程可以重复预定次数,例如,但不限于,3次。

根据本申请的实施例,根据正样本种子图像22从未标注图像10中选择出的正样本图像32,可以被标注与正样本种子图像22的各个类别相应的类别标签。

根据本申请的另一些实施例,经过迭代训练的正样本特征提取模型已经具有较好的鲁棒性和准确度,因此也可以通过分类模型的分类概率来选择与正样本种子图像22相似的图像,具体地,可以参照以上对于负样本图像31的相应描述,在此不再赘述。根据本申请的一些实施例,收集的正样本图像32可以用于优化训练目标类别分类模型,也可以与正样本种子图像22一起训练新的图像分类模型,例如,图4中示出的卷积神经网络模型,或者用于其他需要大量丰富的已标注图像的应用。

在本申请的实施例中,可以根据少量正样本种子图像22从大量未标注图像10中收集大量正样本图像32,这大大提升了正样本图像32收集的效率,同时降低了正样本图像32收集的成本。

进一步地,根据图像的特征之间的相似性,从未标注图像中收集与正样本种子图像22相似的图像作为正样本图像32,相对于直接使用基于少量正样本种子图像22训练的卷积神经网络对未标注图像进行分类,可以极大地提高收集的准确度,进而提高正样本收集效率。

进一步地,使用图像数量和特征数量多于正样本种子图像22的正样本图像32再训练正样本特征提取模型,可以进一步地提高正样本特征提取模型的鲁棒性和准确度,也可以进一步地提高选择出的正样本图像32的准确度,进而提高正样本收集效率。

图5是根据本申请实施例的示出了负样本图像31收集方法500的流程示意图,图2中的样本图像收集装置200的不同组件可以实施方法300的不同块或其他部分。对于上述装置实施例中未描述的内容,可以参见下述方法实施例,同样,对于方法实施例中未描述的内容,可参见上述装置实施例。在块502中,使用已标注的正样本图像集合训练目标类别分类模型。根据本申请的一些实施例,已标注的正样本图像集合可以包括从ImageNet图像集合选取的图像,也可以包括通过本申请的一些实施例收集的正样本图像32,或者,也可以是通过人工方式从未标注图像10中选择并标注的图像,在此对已标注的正样本图像集合的来源不作具体限定。根据本申请的一些实施例,已标注的正样本图像可以包括一个或多个类别的图像,例如但不限于狗类的图像。

根据本申请的一些实施例,可以使用反向传播算法、牛顿梯度下降算法或其他算法来训练目标类别分类模型,例如,如图4示出的卷积神经网络。然而,由于没有使用负样本图像对目标类别分类模型进行训练,此时的目标类别分类模型的鲁棒性和准确度均有待提高。

在块504中,使用目标类别分类模型对未标注图像10进行分类。根据本申请的一些实施例,可以输出每一个未标注图像10属于各个目标类别的概率,或者输出每一个未标注图像10属于各个目标类别的概率中的最大概率,以及该最大概率对应的目标类别。

在块506中,对于每一个目标类别,可以从未标注图像10中选择属于该目标类别的概率处于阈值区间内的图像。

根据本申请的一些实施例,阈值区间可以是目标类别分类模型容易发生分类错误(即,某个未标注图像10实际上不属于某个目标类别,但目标分类模型输出的该未标注图像10属于该目标类别的概率却大于预定值,例如0.8或其他预定值)的概率区间,例如概率区间[0.8,0.9],或者其他的概率区间。例如,在目标类别是狗类的情况下,可以从图3A中示出的未标注图像10中选择属于狗类的概率在[0.8,0.9]区间内的图像。

在块508中,从选择的未标注图像中确定负样本种子图像21。根据本申请的一些实施例,可以通过人工方式,从选择的未标注图像10中挑选出不属于目标类别的图像,例如,在目标类别是狗类的情况下,可以从未标注图像10中的属于狗类的概率在[0.8,0.9]区间内的图像中,挑选出不属于狗类的图像,例如,猫类的图像。这些图像在通过人工、聚类算法或其他方式被分配类别标签后,可以作为负样本种子图像21,例如图3B中示出的包括猫类的图像的负样本种子图像21。由于负样本种子图像21实质上是与正样本图像相似的图像,因此根据本申请的实施例确定的负样本种子图像21能够更有效地优化目标图像训练模型。

需要说明的是,虽然通过块502至块508,从通过目标类别分类模型分类的未标注图像10中,挑选出目标类别分类模型分类错误的图像作为负样本种子图像21,但也可以直接通过人工方式从未标注图像10中选择并标注少量图像作为负样本种子图像21,或者通过其他来源和其他方式获得负样本种子图像21。

在块510中,通过特征提取模型建立模块210,获得负样本种子图像21的集合与ImageNet训练图像集合之间的相似性。

根据本申请的一些实施例,对于负样本种子图像21的每一个类别,特征提取模型建立模块210可以从该类别内选择一个负样本种子图像21,从ImageNet训练图像集合的该类别的图像中选择一个ImageNet图像,利用特征提取算法(例如,LBP(Local BinaryPattern,局部二值模式)、Haar算法等)获取两个图像的特征向量,计算两个图像的特征向量之间的距离,例如,余弦距离、EMD距离、欧式距离、通过度量学习学到的距离或者其他距离,来获得这两个图像的特征向量之间的相似性,其可以表征这两个图像之间的相似性,也可以表征该类别的负样本种子图像21与ImageNet训练图像集合的该类别的图像之间的相似性。根据本申请的另一些实施例,对于负样本种子图像21的每一个类别,特征提取模型建立模块210可以计算该类别内多个负样本种子图像21与ImageNet训练图像集合的该类别内的多个图像之间的相似性,并将计算的各个相似性的均值作为该类别的负样本种子图像21与ImageNet训练图像集合的该类别的图像之间的相似性。最后,特征提取模型建立模块210基于为负样本种子图像21的各个类别计算的各个相似性的平均值、最大值、最小值或其他统计值,来表征负样本种子图像21的集合与ImageNet训练图像集合之间的相似性。

在块512中,通过特征提取模型建立模块210,判断负样本种子图像21的集合与ImageNet训练图像集合之间的相似性是否在预定范围内,例如,[0.9,1]或其他范围。如果是,则执行块314,如果不是,则执行块316。

在块514中,通过特征提取模型建立模块210,基于通过ImageNet训练图像集合训练的ImageNet模型获取负样本特征提取模型,以降低负样本特征提取模型建立的复杂度。根据本申请的一些实施例,在ImageNet模型是图4示出的卷积神经网络的情况下,ImageNet模型可以包括P个卷积层420和Q个全连接层440(其中,P和Q为正整数),特征提取模型建立模块210可以从ImageNet模型中选择M(M为正整数)个层来构成负样本特征提取模型,对于ImageNet模型的输入图像,这M个层上的输出向量将分别作为负样本特征提取模型的M个层上的特征向量。根据本申请的一些实施例,这M个层可以均为卷积层420,或者可以包括卷积层420和全连接层440,或者均为全连接层440。

在块516中,通过特征提取模型建立模块210,使用负样本种子图像21的集合,例如,基于反向传播算法、牛顿梯度下降算法或其他算法,来训练一个新的神经网络,例如,卷积神经网络,再基于上述原则获得负样本特征提取模型。

在块518中,通过特征提取模块220,将未标注图像10和负样本种子图像21输入负样本特征提取模型,以获得未标注图像10和负样本种子图像21的特征。根据本申请的另一些实施例,在负样本种子图像21来源于未标注图像10的情形下,可以将未标注图像10输入负样本特征提取模型,以获得未标注图像10(包括负样本种子图像21)的特征。

根据本申请的一些实施例,未标注图像10的特征、负样本种子图像21的特征可以是负样本特征提取模型的M个层上的特征向量。例如,对于图3B中示出的包括猫类的图像的负样本种子图像21,负样本特征提取模型的M个层上的特征向量可以与猫的眼睛、鼻子、耳朵等特征相关联。

在块520中,通过相似性计算模块230,获得未标注图像10的特征与负样本种子图像21的特征之间的相似性,通过样本图像选择模块240,从未标注图像10中选择与负样本种子图像21相似的图像作为负样本图像31。

根据本申请的一些实施例,未标注图像10的特征与负样本种子图像21的特征之间的相似性指的是类别相对应的未标注图像10与负样本种子图像21之间的相似性。根据本申请的一些实施例,相似性计算模块230可以通过计算在负样本特征提取模型的每一层上,未标注图像10的特征向量和样本种子图像20的特征向量之间的距离来表征两者之间的相似性。所述距离例如但不限于是,余弦距离、EMD距离、欧式距离、曼哈顿距离、通过度量学习学到的距离或者其他距离。

根据本申请的一些实施例,相似性计算模块230可以基于在负样本特征提取模型的每一层上,未标注图像10的特征向量和样本种子图像20的特征向量之间的相似性,计算未标注图像10的特征和样本种子图像20的特征之间的相似性,例如通过线性回归算法、逻辑回归算法或其他算法。根据本申请的一些实施例,相似性可以以[0,1]之间的数值来表征,数值越大,相似性越大。

根据本申请的一些实施例,对于负样本种子图像21的各个类别,通过样本图像选择模块240,可以从未标注图像10中选择与各个类别内的一个或多个负样本种子图像21的特征的相似性在预定范围内的图像,作为各个类别的负样本图像31。根据本申请的一些实施例,通过样本图像选择模块240选择出的负样本图像31可以包括,也可以不包括负样本种子图像21。根据本申请的一些实施例,所述预定范围可以是,但不限于,[0.9,1]或者[0.9,1)。需要说明的是,所述预定范围可以与判定负样本种子图像21的集合与ImageNet训练图像集合之间的相似性的预定范围相同或不同。

根据本申请的一些实施例,对于负样本种子图像21的一个类别,可以遍历全部未标注图像10以选择属于该类别的负样本图像31,或者,也可以遍历部分未标注图像10以选择属于该类别的负样本图像31,例如,在负样本图像31的数量已经满足要求的情况下,或者,已有部分未标注图像10被选择为其他类别的负样本图像31的情况下。

根据本申请的实施例,对于负样本种子图像21的一个类别以及一张未标注图像10,相似性计算模块230可以分别计算该未标注图像10的特征与该类别内至少一个负样本种子图像21的特征之间的相似性。具体地,对于负样本特征提取模型的M个层中的每一个层,相似性计算模块230可以计算一个未标注图像10和一个负样本种子图像21在该层上的特征向量之间的距离,例如,余弦距离、EMD距离、欧氏距离、通过度量学习学到的距离或者其他距离,来表征这两个图像在该层上的特征之间的相似性;然后,使用线性回归算法或逻辑回归算法,基于这两个图像在各个层上的特征之间的相似性,计算这两个图像的特征之间的相似性。

根据本申请的实施例,对于负样本种子图像21的一个类别以及一张未标注图像10,样本图像选择模块240可以判断该未标注图像10的特征与该类别内至少一个负样本种子图像21的特征之间的相似性的均值、最大值、最小值或者其他的统计值是否在预定范围内,如果是,则样本图像选择模块240将该未标注图像10选择为该类别的负样本图像31。根据本申请的一些实施例,上述预定范围可以例如,但不限于[0.9,1]或者[0.9,1)。

例如,对于图3B中示出的包括猫类的图像的负样本种子图像21,样本图像选择模块240可以从图3A中示出的未标注图像10中选择出,包括与负样本种子图像21中的猫的眼睛、鼻子、耳朵、颜色等特征相似的猫的图像。因此,根据本申请的实施例,可以从图像数量以及图像特征的数量两个维度对负样本种子图像21进行扩充,并且,根据图像的特征之间的相似性来收集负样本图像31可以极大地提高准确度。

需要说明的是,在计算负样本种子图像21与ImageNet训练图像之间的相似性时,除了特征提取算法,还可以以类似于计算负样本种子图像21和未标注图像之间的相似性的方式,首先将负样本种子图像21和ImageNet训练图像输入预先训练好的卷积神经网络(通过大量类别的大规模图像训练的卷积神经网络,例如,通过Google的JFT Dataset训练的卷积神经网络),以卷积神经网络中指定的一个或多个层上(例如,卷积层和/或全连接层)的输出向量作为负样本种子图像21和ImageNet训练图像的特征向量,再通过计算在指定的各层上,负样本种子图像21和ImageNet训练图像的特征向量之间的相似性,来得到负样本种子图像21和ImageNet训练图像之间的相似性。

在块522中,判断是否再训练负样本特征提取模型,若是,则执行块524,若否,则结束流程。

在块524中,收集的负样本图像31被用于再训练负样本特征提取模型。根据本申请的一些实施例,可以通过特征提取模型建立模块210,使用例如反向传播算法、牛顿梯度下降算法或其他算法,训练卷积神经网络,再基于上述原则获取负样本特征提取模型。由于负样本图像31对负样本种子图像21的图像数量以及特征数量进行了扩充,因此,经过负样本图像31再训练的负样本特征提取模型的鲁棒性和准确度将会更高。

在块524执行结束之后,返回执行块518。通过再训练的负样本特征提取模型提取未标注图像10和负样本种子图像21的特征,通过相似性计算模块230和样本图像选择模块240从未标注图像10中选择出的负样本图像31的准确度将进一步提高。

根据本申请的一些实施例,块518至块524的迭代过程可以重复预定次数,例如,但不限于3次。

根据本申请的一些实施例,根据负样本种子图像21从未标注图像10中选择出的负样本图像31,可以被标注与负样本种子图像21的各个类别相应的类别标签。

根据本申请的另一些实施例,经过迭代训练的负样本特征提取模型已经具有较好的鲁棒性和准确度,因此也可以通过分类模型的分类概率来选择与负样本种子图像21相似的图像。具体地,可以通过特征提取模块220,将未标注图像10输入负样本特征提取模型,以获得未标注图像10的特征,通过相似性计算模块230,使用分类模型,例如,SVM分类模型、Tensorflow分类模型或其他分类模型,基于未标注图像10的特征与负样本种子图像21的特征,获得每个未标注图像10属于负样本种子图像21的各个类别的概率,或者,获得每一个未标注图像10属于负样本种子图像21的各个类别的概率中的最大概率,以及该最大概率对应的负样本种子图像21的类别,然后对于负样本种子图像21的每个类别,通过样本图像选择模块240,按照属于该类别的概率对未标注图像10进行排序,并选择概率排序处于前N位的图像作为该类别的负样本图像31,其中,N属于正整数。

根据本申请的一些实施例,收集的负样本图像31可以用于优化训练目标类别分类模型,也可以与负样本种子图像21一起训练新的图像分类模型,例如,图4中示出的卷积神经网络,或者用于其他需要大量丰富的已标注图像的应用。

在本申请的实施例中,可以根据少量负样本种子图像21从大量未标注图像10中收集大量负样本图像31,这大大提升了负样本图像31收集的效率,同时降低了负样本图像31收集的成本。

进一步地,根据图像的特征之间的相似性,从未标注图像中收集与负样本种子图像21相似的图像作为负样本图像31,相对于直接使用基于负样本种子图像21获得的神经网络对未标注图像进行分类,可以极大地提高收集的准确度,进而提高负样本图像收集效率。

进一步地,使用图像数量和特征数量多于负样本种子图像21的负样本图像31再训练负样本特征提取模型,可以进一步地提高负样本特征提取模型的鲁棒性和准确度,也可以进一步地提高选择出的负样本图像31的准确度,进而提高负样本图像收集效率。

图6是根据本申请实施例的示出了正样本图像32的收集方法600的流程示意图,图2中的样本图像收集装置的不同组件可以实施方法600的不同块或其他部分。对于上述装置实施例中未描述的内容,可以参见下述方法实施例,同样,对于方法实施例中未描述的内容,可参见上述装置实施例。

在块602中,通过特征提取模型建立模块210,使用正样本种子图像22训练神经网络,并基于神经网络获取正样本特征提取模型。

根据本申请的一些实施例,正样本种子图像22可以是已标注的图像,其可以是从ImageNet图像集合选取的图像,也可以是通过人工方式从未标注图像10或其他图像源中选择并标注的少量图像,在此对正样本种子图像22的来源不作具体限定。根据本申请的一些实施例,正样本种子图像22可以包括一个或多个类别的图像,例如,如图3B中所示,正样本种子图像22可以包括狗类的图像。

根据本申请的一些实施例,可以基于反向传播算法、牛顿梯度下降算法或其他算法来训练神经网络,例如,但不限于,卷积神经网络。在神经网络是如图4所示的卷积神经网络的情况下,正样本特征提取模型的获取可以参照以上对负样本特征提取模型的相应描述,在此不再赘述。

在块604中,通过特征提取模块220,将未标注图像10和正样本种子图像22输入正样本特征提取模型,以获得未标注图像10和正样本种子图像22的特征。根据本申请的一些实施例,在正样本种子图像22来源于未标注图像10的情形下,通过特征提取模块220,可以将未标注图像10输入正样本特征提取模型,以获取未标注图像10(包括正样本种子图像22)的特征。

根据本申请的一些实施例,未标注图像10的特征、正样本种子图像22的特征可以是正样本特征提取模型的M个层上的特征向量。例如,对于图3B中示出的包括狗类的图像的正样本种子图像22,正样本特征提取模型的M个层上的特征向量可以与狗的眼睛、鼻子、耳朵等特征相关联。

在块606中,通过相似性计算模块230,获得未标注图像10的特征与正样本种子图像22的特征之间的相似性,通过样本图像选择模块240,从未标注图像10中收集与正样本种子图像22相似的正样本图像32。

根据本申请的一些实施例,未标注图像10的特征与正样本种子图像22的特征之间的相似性指的是类别相对应的未标注图像10与正样本种子图像22之间的相似性。根据本申请的一些实施例,相似性计算模块230可以通过计算在正样本特征提取模型的每一层上,未标注图像10的特征向量和样本种子图像20的特征向量之间的距离来表征两者之间的相似性。所述距离例如但不限于是,余弦距离、EMD距离、欧式距离、曼哈顿距离、通过度量学习学到的距离或者其他距离。

根据本申请的一些实施例,相似性计算模块230可以基于在正样本特征提取模型的每一层上,未标注图像10的特征向量和样本种子图像20的特征向量之间的相似性,计算未标注图像10的特征和样本种子图像20的特征之间的相似性,例如通过线性回归算法、逻辑回归算法或其他算法。根据本申请的一些实施例,相似性可以以[0,1]之间的数值来表征,数值越大,相似性越大。

根据本申请的一些实施例,对于正样本种子图像22的各个类别,通过样本图像选择模块240,可以从未标注图像10中选择与各个类别内的一个或多个正样本种子图像22的特征的相似性在预定范围内的图像,作为各个类别的正样本图像32。根据本申请的一些实施例,通过样本图像选择模块240选择出的正样本图像32可以包括,也可以不包括正样本种子图像22。根据本申请的一些实施例,所述预定范围可以是,但不限于,[0.9,1]或者[0.9,1)。

根据本申请的一些实施例,对于正样本种子图像22的一个类别,可以遍历全部未标注图像10以选择属于该类别的正样本图像32,或者,也可以遍历部分未标注图像10以选择属于该类别的正样本图像32,例如,在正样本图像32的数量已经满足要求的情况下,或者,已有部分未标注图像10被选择为其他类别的正样本图像32的情况下。

根据本申请的实施例,对于正样本种子图像22的一个类别以及一张未标注图像10,相似性计算模块230可以分别计算该未标注图像10的特征与该类别内至少一个正样本种子图像22的特征之间的相似性,具体地,可以参照上述对负样本种子图像21的相应描述,在此不再赘述。根据本申请的实施例,对于正样本种子图像22的一个类别以及一张未标注图像10,样本图像选择模块240可以判断该未标注图像10的特征与该类别内至少一个正样本种子图像22的特征之间的相似性的均值、最大值、最小值或者其他的统计值是否在预定范围内,如果是,则样本图像选择模块240将该未标注图像10选择为该类别的正样本图像32。根据本申请的一些实施例,上述预定范围可以例如,但不限于,[0.9,1]或者[0.9,1)。

例如,对于图3B中包括狗类的图像的正样本种子图像22,样本图像选择模块240可以从图3A中的未标注图像10中选择出,与正样本种子图像22中的狗的眼睛、鼻子、耳朵、颜色等特征相似的狗的图像。因此,根据本申请的实施例,可以从图像数量以及图像特征的数量两个维度对正样本种子图像22进行扩充,并且,根据图像的特征之间的相似性来收集正样本图像32可以极大地提高准确度。

在块608中,判断是否继续再训练正样本特征提取模型,若是,则执行块610,若否,则结束流程。

在块610中,收集的正样本图像32被用于再训练正样本特征提取模型,具体可以参照以上对于负样本图像31的相应描述,在此不再赘述。由于正样本图像32对正样本种子图像22的图像数量以及特征数量进行了扩充,因此,经过正样本图像32再训练的正样本特征提取模型的鲁棒性和准确度将会更高。

在块610执行结束之后,返回执行块604。通过再训练后的正样本特征提取模型提取未标注图像10和正样本种子图像22的特征,通过相似性计算模块230和样本图像选择模块240从未标注图像10中选择出的正样本图像32的准确度将进一步提高。

根据本申请的一些实施例,块604至块610的迭代过程可以重复预定次数,例如,但不限于3次。

根据本申请的一些实施例,根据正样本种子图像22从未标注图像10中选择出的正样本图像32,可以被标注与正样本种子图像22的各个类别相应的类别标签。

根据本申请的另一些实施例,经过迭代训练的正样本特征提取模型已经具有较好的鲁棒性和准确度,因此也可以通过分类模型的分类概率来选择与正样本种子图像22相似的图像,具体地,可以参照以上对于负样本图像31的相应描述,在此不再赘述。

根据本申请的一些实施例,收集的正样本图像32可以用于优化训练目标类别分类模型,也可以与正样本种子图像22一起训练新的图像分类模型,例如,图4中示出的卷积神经网络模型,或者用于其他需要大量丰富的已标注图像的应用。

在本申请的实施例中,可以根据少量正样本种子图像22从大量未标注图像10中收集大量正样本图像32,这大大提升了正样本图像32收集的效率,同时降低了正样本图像32收集的成本。

进一步地,根据图像的特征之间的相似性,从未标注图像中收集与正样本种子图像22相似的图像作为正样本图像32,相对于直接使用基于正样本种子图像22训练的神经网络对未标注图像进行分类,可以极大地提高收集的准确度,进而提高正样本图像收集效率。

进一步地,使用图像数量和特征数量多于正样本种子图像22的正样本图像32再训练正样本特征提取模型,可以进一步地提高正样本特征提取模型的鲁棒性和准确度,也可以进一步地提高选择出的正样本图像32的准确度,进而提高正样本图像收集效率。

本文公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令,以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。

至少一些实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,指令表示处理器中的各种逻辑,指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的机器可读介质上,并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

这样的机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排,其包括存储介质,诸如:硬盘任何其它类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘;半导体器件,例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其它类型的介质。

因此,本申请的各实施例还包括非瞬态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。

相关技术
  • 衣服图像处理系统、衣服图像处理系统的控制方法、衣服图像处理装置、衣服图像处理装置的控制方法、程序、以及信息存储介质
  • 图像形成装置、该装置用的打印机复合系统和介质输送装置、向上述图像形成装置提供图像数据的信息处理装置以及具备这些的图像形成系统和图像形成方法
技术分类

06120112858586