掌桥专利:专业的专利平台
掌桥专利
首页

数据增强方法、装置、电子设备及可读存储介质

文献发布时间:2023-06-19 12:19:35


数据增强方法、装置、电子设备及可读存储介质

技术领域

本申请涉及人工智能(Artificial Intelligence,AI)中的图像处理技术领域,具体涉及一种数据增强方法、装置、电子设备及可读存储介质。

背景技术

随着技术的飞速发展,基于人工智能的目标检测、实例分割等图像处理技术在计算机辅助检测中被广泛应用。

图像处理技术包括学习阶段和预测阶段。学习阶段,利用大量的样本训练出一个AI模型,如目标检测模型等。预测阶段,将待处理图像输入至AI 模型并得到输出结果。为了训练出准确的AI模型,学习阶段需要准备大量的样本,以覆盖各种可能的情况。由于原始样本的数量比较少等原因,因此,需要基于原始样本进行数据增强以扩充样本。常见的数据增强方式包括基于多图的数据增强等。该数据增强方式将原始样本的背景划分为不同的区域,不同的区域贴上前景实例。例如,在天空区域贴上飞机、水瓶等前景实例。当天空区域贴上水瓶等前景实例时,该增强图像内容不一致,没有真实感。

然而,通过上述的数据增强方式得到的增强图像容易产生内容不一致情况,导致样本分布不均匀,进而导致训练出的模型准确度低。

发明内容

本申请实施例公开了一种数据增强方法、装置、电子设备及可读存储介质,基于目标实例的热力图进行数据增强以扩充样本,使得训练样本均匀分布,进而训练出准确的模型。

第一方面,本申请实施例提供一种数据增强方法,包括:

将目标图像输入预测模型,以通过所述预测模型得到所述目标图像中目标实例的热力图,所述热力图用于指示所述目标实例在所述目标图像上每个位置的出现概率,所述目标实例是所述目标图像中的任意一个实例;

根据所述热力图,确定所述目标实例的贴图位置,所述贴图位置用于指示所述目标实例移动后的位置;

将所述目标实例移动至所述贴图位置以得到增强图像。

第二方面,本申请实施例提供一种数据增强装置,包括:

第一确定模块,用于将目标图像输入预测模型,以通过所述预测模型得到所述目标图像中目标实例的热力图,所述热力图用于指示所述目标实例在所述目标图像上每个位置的出现概率,所述目标实例是所述目标图像中的任意一个实例;

第二确定模块,用于根据所述热力图,确定所述目标实例的贴图位置,所述贴图位置用于指示所述目标实例移动后的位置;

增强模块,用于将所述目标实例移动至所述贴图位置以得到增强图像。

第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时使得所述电子设备实现如上第一方面或第一方面各种可能的实现方式所述的方法。

第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令在被处理器执行时用于实现如上第一方面或第一方面各种可能的实现方式所述的方法。

第五方面,本申请实施例提供一种包含计算程序的计算机程序产品,所述计算机程序被处理器执行时实现如上第一方面或第一方面各种可能的实现方式所述的方法。

本申请实施例提供的数据增强方法、装置、电子设备及可读存储介质,预先训练一个预测模型,数据增强过程中,将目标图像输入至预测模型,使得模型输出目标图像中目标实例的热力图,根据热力图确定目标实例的移动量,并根据移动量移动目标实例从而得到增强图像。采用该种方案,数据增强过程,利用目标实例的热力图来引导目标实例的贴图位置,生成的增强图像作为训练样本,使得训练样本分布均匀,且基于该些训练样本训练出的模型不会过于拟合,性能更好,精度更好。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1A是随机遮挡的示意图;

图1B是混合图像的示意图;

图2A是不同类别样本分布不均匀的一种数量统计示意图;

图2B是不同类别样本分布不均匀的另一种数量统计示意图;

图3A是利用GAN增强数据的示意图;

图3B是通过粘贴复制增强数据的示意图;

图4是利用内容一致性来引导实例的贴图位置的过程示意图;

图5是用于生成本申请数据增强方法所使用的预测模型的模型生成系统的架构图;

图6是本申请实施例提供的数据增强方法的流程图;

图7是本申请实施例提供的数据增强方法中目标实例的热力图的示意图;

图8是本申请实施例提供的数据增强方法中目标图像和增强图像的示意图;

图9是本申请实施例提供的数据增强方法中轮廓线的示意图;

图10是本申请实施例提供的数据增强方法的另一流程图;

图11是本申请实施例提供的数据增强方法中预测阶段的过程示意图;

图12为本申请实施例提供的数据增强装置的一种结构示意图;

图13为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

图像处理过程中需要基于大量的样本训练出模型,然后,利用训练好的模型进行图像处理,如目标检测、实例分割、人脸识别等。为了训练出准确的模型,需要大量的样本,如数以万计甚至更多的样本,样本包括正样本和负样本。当样本集中的训练样本比较少时,需要通过数据增强的方式进行样本扩充。

数据增强是指用于产生增强图像的技术,该增强图像即为新的训练样本。常见的数据增强方法包括基于单图的数据增强和基于多图的数据增强。

基于单图的数据增强方法包括下述几种:

1)随机裁剪、缩放、翻转。

以随机翻转为例,随机翻转过程中,对原始图像随机翻转得到增强图像,随机翻转角度不同,则得到的增强不行不同。

2)随机对比度增强。

对原始图像进行对比度调整,对于同一张原始图像调整对比度从而得到不同的增强图像。

3)随机颜色调整。

对原始图像进行颜色进行调整,如调整红、绿、蓝三颜色的比重,从而得到不同的增强图像。

4)随机亮度调整。

该种方式中,对原始图像的亮度进行随机调整,从而得到不同的增强图像。

5)随机遮挡。

图1A是随机遮挡的示意图。请参照图1A,第一列是原始图像,第二列是掩模,掩模和原始图像的尺寸相同,每个掩模被分成多个区域,每个区域包含一些像素点。不同区域对原始图像的遮挡程度不同,当然也可以相同。随机遮挡过程中,可根据需求设计掩模。

第一列是未遮挡的原始图像,利用第二列的掩模对第一列的原始图像进行遮挡后得到第三列的图像。第三列的图像为增强图像。

6)图像混合。

图1B是混合图像的示意图。请参照图1B,对星星图像和小树图像分别设置权重,然后,对该两幅图像进行加权融合即可得到混合图像,即最右边的图像。最右边的图像为增强图像。

经验证发现:基于单图的数据增强方法是在不改变图像内容的情况下进行的简单的数据增强,尽管这些数据增强在一定程度上丰富了样本,弥补了某些维度上样本的不足,维度可以为不同明暗程度、不同角度、不同尺寸的等。但是,对于长尾效应基本是无效的。例如,在一个样本集中,不同类别样本数量分布严重不平衡。示例性的,可参见图2A和图2B。

图2A是不同类别样本分布不均匀的一种数量统计示意图。请参照图2A,样本类别包括前景图像和背景图像,背景图像的数量远远大于前景图像的数量。也就是说,前景、背景样本不均衡。

图2B是不同类别样本分布不均匀的另一种数量统计示意图。请参照图2B,前景图像包含很多个类别,但是只有一个类别的数量比较庞大,其余类别的前景图像的数量都很少。也就是说,不同类别的前景样本数量不均衡。

根据上述可知:当某些类别的样本的数量很小是时,若采用上述基于单图的数据增强方式对稀少样本进行数据增强,则相当于对数据进行复制,会导致最终训练出的模型过于拟合。

基于多图的数据增强方式包括:利用生成式对抗网络(GAN,GenerativeAdversarial Networks)增强数据的方式、通过复制粘贴增强(copy-paste augmentation)的方式。

图3A是利用GAN增强数据的示意图。请参照图3A,椭圆所示为预先通过 GAN生成的实例(instance)。之后,将实例合成到背景图像中从而达到数据增强的目的。对轮船背景和飞机背景的图像加入实例,就能够得到2个增强图像。其中,实例也称为前景、前景图像等。显然,该种方式得到的增强图像具有明显的内容不一致问题,即增强图像没有真实感。

图3B是通过粘贴复制增强数据的示意图。请参照图3B,预先将有效的图像中的实例抠出来存储在数据库中得到实例库,然后将这些粘贴到原始图像①-④中。一种方式中,贴图过程中使用上下文指导(using context guidance),从实例库中找出适合的图像贴到原始图像中得到增强图像。例如,对于原始图像①,合适的实例为一朵小花;对于原始图像②,合适的实例为一只小狗;对于原始图像③,合适的实例为太阳;对于原始图像④,合适的实例为一只蝴蝶。该种方式,利用内容一致性来引导实例的贴图位置。引导过程中,先确定原始图像的背景类别,如天空等;然后,根据背景类别选择合适的实例,并将实例贴到合适的位置。基于该种方式得到的增强图像①’-④’没有明显的内容不一致问题。

另一种方式是随机实例放置(random instance placement),对于每一张原始图像,随机的从实例库中抽取一个实例进行贴图。例如,对于原始图像①,合随机抽取的实例为鱼缸;对于原始图像②,随机抽取的实例为太阳;对于原始图像③,随机抽取的实例为矿泉水瓶;对于原始图像④,随机抽取的实例为绽放的烟花。显然,该种方式得到的增强图像①”-④”具有明显的内容不一致问题。

若增强图像具有明显的内容不一致问题,则基于该些增强图像训AI模型的过程中无法收敛,导致AI模型的性能差。

但是,若利用内容一致性来引导实例的贴图位置,则要求原始图像不同类别的背景界限分明。示例性的,请参照图4。

图4是利用内容一致性来引导实例的贴图位置的过程示意图。请参照图4,数据增强过程中,首先,利用检测或者分割方法,从原始图像中确定出不同类别的背景,如大山、水面、岸边等。不同类别的背景也称之为感兴趣区域 (region of interest,ROI)。

接着,将不同类别的背景输入至上下文卷积神经网络(context ConvolutionalNeural Networks,context CNN)。Context CNN模型用于预测适用于各类别的背景的实例。

之后,根据预测结果从实例库中为各个类别的背景选择合适的实例并贴在合适的位置,从而得到增强图像。例如,对于岸边,选择小狗这一实例。对于水面,选择出的实例为小鸭。

最后,利用增强图像训练AI模型。

显然,上述利用内容一致性来引导实例的贴图位置获取增强图像的方式,要求原始图像不同类别的背景界限分明的情形。只有当不同类别的背景界限分明的情况下,才能正确有效的检测出不同类别的背景。然而,当背景复杂时,单纯利用检测算法很难获取不同背景区域及类别。

基于此,本申请实施例提供一种数据增强方法、装置、电子设备及可读存储介质,基于目标实例的热力图进行数据增强以扩充样本,使得训练样本均匀分布,进而训练出准确的模型。

图5是用于生成本申请数据增强方法所使用的预测模型的模型生成系统的架构图。请参照图5,在一种实施例中,模型生成系统可全部部署在云环境中。云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台。其中,云数据中心包括云服务提供商拥有的大量基础资源,包括计算资源、存储资源或网络资源等。计算资源可以是大量的计算识别,如服务器等。以云数据中心包括的计算资源是运行有虚拟机的服务器为例,模型生成系统可独立步数在云数据中心的服务器或虚拟机上。模型生成系统也可以分布式部署在云数据中心的多台服务器上、或者分布式部署在云数据中心的多台虚拟机上、或者分布式部署在云数据中心的服务器和虚拟上。

如图5所示,模型生成系统例如可以由云服务提供商在云服务平台抽象成一种模型生成服务提供给用户,用户在云服务平台购买该云服务后(例如,可预充值再根据最终资源的使用情况进行结算),云环境利用部署在云数据中心的模型生成系统向用户提供模型生成服务。用户在使用模型生成服务时,可以通过应用程序接口(application programinterface,API)或者图形用户接口(GraphicalUserInterface,GUI)指定需要模型完成的任务(即任务目标)、并上传数据集至云环境,云环境中的模型生成系统接收用户的任务目标和数据集,执行自动生成模型的操作,模型生成系统通过API或者GUI向用户返回自动生成的预测模型。该预测模型可被用户下载或者在线使用,用于完成数据增强。

本申请实施例所述的数据增强方法包括两个阶段:学习阶段和预测阶段。学习阶段,利用图5所示架构训练出预测模型。之后,在预测阶段,使用该预测模型确定目标图像包含的实例的热力图,根据热力图计算实例的贴图位置,并将实例挪动到贴图位置从而生成增强图像,实现数据增强。

图6是本申请实施例提供的数据增强方法的流程图,本实施例的执行主体是电子设备,该电子设备可以为下载了基于图5架构训练出的预测模型的电子设备,也可以为图5中的云环境。本实施例包括:

601、将目标图像输入至预测模型,以通过所述预测模型得到所述目标图像中目标实例的热力图。

其中,所述热力图用于指示所述目标实例在所述目标图像上每个位置的出现概率,所述目标实例是所述目标图像中的任意一个实例。

示例性的,电子设备上预先下载基于图5架构训练出的预测模型。或者,电子设备为图5中的云环境。加载了预测模型后,每次向预测模型输入目标图像后,该预测模型都能够输出目标实例的热力图。目标实例是目标图像上的任意一个实例。

通常情况下,目标图图像包括前景和背景,前景为目标图像的主题。例如,目标图像为人物图像,则人物为前景,其他为背景。前景也称之为目标图像上的实例。对于任意一个实例(以下称之为目标实例),通过预测模型能够得到该实例的热力图。

本申请实施例中,热力图和目标图像的尺寸大小相同,用来指示目标实例在目标图像上每个位置的出现概率。也就是说,热力图是目标实例在满足内容一致性的情况下,在目标图像上可能出现的位置的概率图。

例如,按照目标实例的大小,将目标图像分为多个区域,每个区域的大小和目标实例的大小相同。对于每一个区域,根据热力图中该区域的热力,就能够计算出目标实例在该区域出现的概率。概率越大,说明目标实例挪动至该区域后得到的增强图像的内容一致,不会发生内容不一致的问题。概率越小,说明目标实例挪动到该区域得到增强图像后,该增强图像很有可能发生内容不一致问题,即增强图像不真实,增强图像上的目标实例很突兀。

图7是本申请实施例提供的数据增强方法中目标实例的热力图的示意图。请参照图7,701为原始的目标图像,该目标图像上的实例包括大树和小花。

当目标实例为大树时,如702中黑色封闭区域所示,根据目标实例确定出的热力图即为703。将热力图渲染到目标图像上得到渲染图,如704所示。

当目标实例为洗手池时,如705中的椭圆所示,根据目标实例确定出的热力图即为706。将热力图渲染到目标图像上得到渲染图,如707所示。

请参照图7,黑色区域表示概率低的区域,明亮区域表示高概率区域。

需要说的是,虽然图7以及本申请其他图像相关附图中,图像均是黑白图像。然而,本申请实施例并不以此为限制,其他实现方式中,目标图像、热力图、渲染图等都可以彩色图像。热力图中冷色调区域表示低概率区域,暖色调区域表示高概率区域,即目标实例在该区域出现的概率比较高(也可以理解为目标实例的中心点在该区域出现的概率比较高)。

602、根据所述热力图,确定所述目标实例的贴图位置,所述贴图位置用于指示所述目标实例移动后的位置。

由于热力图中即为目标实例在满足内容一致性的情况下,在目标图像上可能出现的位置的概率图。因此,电子设备可根据热力图确定出目标实例的贴图位置,该贴图位置可以理解为目标实例移动后的位置。例如,电子设备以热力图中概率最高的像素点作为目标实例的中心点在目标图像中的原始位置,将该像素点作为圆心,N个像素为半径,从而确定出一个圆,将圆形区域内的点作为目标实例移动后中心点的位置。

603、将所述目标实例移动至所述贴图位置以得到增强图像。

图8是本申请实施例提供的数据增强方法中目标图像和增强图像的示意图。请参照图8,原始的目标图像中目标实例例如为小狗和太阳,如图中实线椭圆所示。增强图像中,小狗向前挪动了一定距离,同理,太阳也挪动了一定的距离,如图中虚线椭圆所示。

本申请实施例提供的数据增强方法,预先训练一个预测模型,数据增强过程中,将目标图像输入至预测模型,使得模型输出目标图像中目标实例的热力图,根据热力图确定目标实例的贴图位置,并将目标实例移动至贴图位置以得到增强图像。采用该种方案,数据增强过程,利用目标实例的热力图来引导目标实例的贴图位置,生成的增强图像作为训练样本,使得训练样本分布均匀,且基于该些训练样本训练出的模型不会过于拟合,性能更好,精度更好。

可选的,上述实施例中,电子设备将目标图像输入预测模型,以通过所述预测模型得到所述目标图像中目标实例的热力图之前,还预先训练预测模型。训练预测模型的过程中,电子设备确定样本集中每个样本图像包含的每个样本实例的热力图。之后,电子设备利用所述每个样本实例的热力图和所述样本集中的每个样本图像对编码解码模型进行模型训练,以训练出所述预测模型。

示例性的,样本集中包含多个样本图像,每个样本图像包含一个或多个样本实例。对于每一个样本图像中的每一个样本实例,电子设备确定该样本实例的热力图,该热力图用于指示样本实例在包含该样本实例的样本图像上每个位置出现的概率。

电子设备得到每个样本图像中每个样本实例的热力图之后,利用每个样本实例的热力图和样本集中的每个样本图像对编码解码模型进行模型训练,以训练出预测模型。

采用该种方案,实现准确训练出预测模型的目的。

可选的,上述实施例中,电子设备利用所述每个样本实例的热力图和所述样本集中的每个样本图像对编码解码模型进行模型训练,以训练出所述预测模型的过程中,先构建编码解码模型,之后,利用所述每个样本实例的热力图标注对应的样本实例;将标注后的样本实例输入所述编码解码模型,对所述编码解码模型进行模型训练,以训练出所述预测模型。

示例性的,预测模型的初始模块例如为编码解码(Encoder-Decoder)模型。电子设备得到各个样本实例的热力图后,将热力图作为标注数据(ground truth,GT),对样本集中的样本图像进行标注,将标注后的样本图像作为输入编码解码模型的输入,对编码解码模型进行训练直至编码解码模型收敛,将收敛的编码解码模型作为预测模型。

采用该种方案,电子设备将热力图作为标注数据,将原始的样本图像作为输入,实现训练出准确的预测模型的目的。

可选的,上述实施例中,电子设备确定样本集中每个样本图像包含的每个样本实例的热力图时,首先,确定第一样本实例的第一外观描述符,以及第二样本实例的第二外观描述符,所述第一外观描述符用于描述所述第一样本实例的轮廓,所述第一样本实例是所述样本集中的任意一个样本实例,所述第一样本实例和所述第二样本实例包含于所述样本集中的同一个样本图像中。之后,确定所述第一外观描述符和各所述第二外观描述符之间的外观距离,得到距离集合,最后,根据所述第一外观描述符和所述距离集合,确定所述第一样本实例的热力图。

示例性的,任意一个实例的外观描述符D(·)外观描述符可以用如下公式(1) 表示:

D(c

公式(1)中,(c

电子设备确定第一样本实例的第一外观描述符时,膨胀所述第一样本实例的轮廓以得到至少一条轮廓线。之后,根据所述第一样本实例的中心点的坐标,以及所述至少一条轮廓线中各轮廓线的位置,确定所述第一外观描述符。具体实现时,各轮廓线的权重可根据需求灵活设置,例如,预先设置各轮廓线的权重取预设值。再如。所述至少一条轮廓线中目标轮廓线的权重和所述目标轮廓线与所述第一样本实例的距离正相关,所述目标轮廓线是所述至少一条轮廓线中的任意一条轮廓线,也就是说,距离第一样本实例越近,则该轮廓线的权重越大。示例性的,请参照图9。

图9是本申请实施例提供的数据增强方法中轮廓线的示意图。请参照图 9,右边为原始图像,实例为果盘,左边为果盘的轮廓线。左边图像中,内外黑色区域之间具有三个不同深度区域,该三个不同深度区域即为果盘的三个轮廓线,如图中的第一条轮廓线、第二条轮廓线和第三条轮廓线。

其中,第一条轮廓线即为最内部的轮廓线。按照先验,每条轮廓线对应的w的取值和该轮廓线与实例的靠近程度有关,越靠近实例的轮廓线的w值越大。即:w

根据上述公式(1)就能够确定出第一样本实例的第一外观描述符,以及样本图像中各第二样本实例的第二外观描述符,第一外观描述符用于描述第一样本实例的轮廓,第二外观描述符用于描述第二样本实例的轮廓。

电子设备确定出第一样本实例的第一外观描述符,以及样本图像中各第二样本实例的第二外观描述符后,确定所述第一外观描述符和各所述第二外观描述符之间的距离,得到距离集合。

外观距离用于定义为外观描述符之间的局部外观一致性度量。令第一外观描述符为D

根据公式(2),以第一样本实例具有3条轮廓线为例,I表示像素值, I

电子设备将第一外观描述符作为第一样本实例的原始位置,遍历样本图像中其余像素点,计算所有可能的d(D

公式(3)中,M=max(d(D

如此一来,就能够得到第一样本实例的概率图,第一样本实例的概率图和样本图像中的像素一一对应,即可得到第一样本实例的热力图,具体可参见图7,此处不再赘述。

采用该种方案,实现准确生成第一样本实例的热力的目的。

可选的,上述实施例中,电子设备根据所述热力图,确定所述目标实例的贴图位置时,对热力图进行蒙特卡诺采样以得到多个贴图位置。

示例性的,电子设备得到热力图后,需要将热力图转化为目标实例的贴图位置,即将目标实例移动的移动量。由于未增强时,目标实例的中心点在目标图像上的位置是已知的,因此确定贴图位置实际上是确定目标实例新的中心点的坐标(x,y)。此时,电子设备采用蒙特卡洛方法采样得到新的中心点的坐标,蒙特卡洛也称之为蒙特卡罗(Monte CarloSimulation)、接收- 拒绝采样等。

采用该种方案,实现准确确定出贴图位置的目的。

可选的,上述实施例中,电子设备将所述目标实例移动至所述贴图位置以得到增强图像之前,还确定旋转因子和缩放因子,所述旋转因子用于指示所述目标实例的旋转量,所述缩放因子用于指示所述目标实例的缩放程度,根据所述旋转因子和所述缩放因子缩放所述目标实例。

示例性的,电子设备除了挪动目标实例以得到增强图像外,还可以在移动的基础上对目标实例进行缩放、旋转等。此时,电子设备根据所述移动量移动所述目标实例以得到增强图像时,首先,对正态分布进行均匀采样以确定多个旋转因子和缩放因子。之后,电子设备根据所述多个贴图位置、所述多个旋转因子和缩放因子确定多个映射关系,每个映射关系指示一组贴图位置、旋转因子和缩放因子。最后,根据所述多个映射关系中的每个映射关系对所述目标实例移动、缩放或旋转以生成所述增强图像。

示例性的,旋转因子也可以称之为旋转权重,缩放因子也可以称之为缩放权重等。他们独立与中心点的坐标。由于旋转因子、缩放因子服从[0,1]上的均匀分布,因此,对正态分布曲线直接均匀采样即可获得多个旋转因子和多个缩放因子。

电子设备得到多个贴图位置、多个旋转因子、多个缩放因子后,确定一个映射表,该映射表包含多个映射关系,每个映射关系包含一个贴图位置、一个旋转因子和一个缩放因子。电子设备根据每个映射关系指示的移动量、旋转因子和缩放因子对目标实例进行移动、旋转或缩放,从而得到多个增强图像。得到多个增强图像后,电子设备从多个增强图像中选择出内容一致性最优的一个或多个增强图像,将该些增强图像作为最优增强图像用于AI模型的训练。

采用该种方案,数据增强中结合移动、旋转和缩放多个维度,从而产生丰富的增强图像,利于样本均匀分布,进而提升模型训练的准确度和速度。

上述实施例中,电子设备得动增强图像后,将目标图像和增强图像作为训练样本训练目标检测模型,并根据目标检测模型进行目标检测等。另外,还可以利用增强图像训练实例分割模型等其他AI模型,本申请实施例并不限制。

采用该种方案,利用增强图像训练AI模型,训练出的AI模型准确性高、训练速度快。

图10是本申请实施例提供的数据增强方法的另一流程图。本实施例包含学习阶段和预测阶段。本实施例包括:

1001、计算每个样本图像中每个样本实例的热力图。

1002、搭建编码解码模型。

本步骤中,搭建一个用于确定内容一致性热力图的预测网络,该预测网络可以是编码解码模型等。也就是说,预测模型的初始模型是编码解码模型。

1003、将热力图作为标注数据,将样本图像作为输入,训练编码解码模型得到预测模型。

1004、将目标图像输入预测模型,以得到目标图像中目标实例的热力图。

示例性的,请参照图11。图11是本申请实施例提供的数据增强方法中预测阶段的过程示意图。

请参照图11,预测模型的输入是目标图像,输出是目标图像中目标实例的热力图。编码器(encoder)是DeepLabV3等。编码器的输入尺寸与输出尺寸比(output stride)例如为16等。最后一个阶段(stage)的膨胀率为2。空间金字塔池模块(Atrous Spatial PyramidPooling module,ASPP)有四个不同的速度(rate),额外一个全局平均池化。输入目标图像后,目标图像经由空洞卷积(AtrousConV)到达ASPP。AtrousConV是动态卷积神经网络(Dynamic Convolution Neural Network,DCNN)的一部分。

解码器(decoder)把编码器的输出结果上采样4倍,然后与resnet中下采样前的Conv2特征组合(concat)一起,再进行3×3的卷积,最后上采样 4倍得到最终结果。

1005、根据热力图确定目标实例的贴图位置以及目标实例的旋转因子、缩放因子。

1006、根据贴图位置、旋转因子和缩放因子挪动目标实例,从而得到增强图像。

本申请实施例提供的数据增强方法不同于以往的数据增强方法,本申请实施例供的数据增强方法可以避免基于单图的数据增强方法导致的AI模型过拟合问题,而且,本申请实施例提供的数据增强方法能使得训练样本的分布更加均匀。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

图12为本申请实施例提供的数据增强装置的一种结构示意图。该数据增强装置1200包括:第一确定模块1201、第二确定模块1202和增强模块1203。

第一确定模块1201,用于将目标图像输入预测模型,以通过所述预测模型得到所述目标图像中目标实例的热力图,所述热力图用于指示所述目标实例在所述目标图像上每个位置的出现概率,所述目标实例是所述目标图像中的任意一个实例;

第二确定模块1202,用于根据所述热力图,确定所述目标实例的贴图位置,所述贴图位置用于指示所述目标实例移动后的位置;

增强模块1203,用于将所述目标实例移动至所述贴图位置以得到增强图像。

可选的,再请参照图12,一种可行的实现方式中,上述的数据增强装置 1200还包括:

训练模块1204,用于在所述第一确定模块1201将目标图像输入预测模型,以通过所述预测模型得到所述目标图像中目标实例的热力图之前,确定样本集中每个样本图像包含的每个样本实例的热力图;利用所述每个样本实例的热力图和所述样本集中的每个样本图像对编码解码模型进行模型训练,以训练出所述预测模型。

一种可行的实现方式中,所述训练模块1204利用所述每个样本实例的热力图和所述样本集中的每个样本图像对编码解码模型进行模型训练,以训练出所述预测模型时,搭建编码解码模型;利用所述每个样本实例的热力图标注对应的样本实例;将标注后的样本实例输入所述编码解码模型,对所述编码解码模型进行模型训练,以训练出所述预测模型。

一种可行的实现方式中,所述训练模块1204确定样本集中每个样本图像包含的每个样本实例的热力图时,用于确定第一样本实例的第一外观描述符,以及第二样本实例的第二外观描述符,所述第一外观描述符用于描述所述第一样本实例的轮廓,所述第一样本实例是所述样本集中的任意一个样本实例,所述第一样本实例和所述第二样本实例包含于所述样本集中的同一个样本图像中;确定所述第一外观描述符和各所述第二外观描述符之间的外观距离,得到距离集合;根据所述第一外观描述符和所述距离集合,确定所述第一样本实例的热力图。

一种可行的实现方式中,所述训练模块1204确定第一样本实例的第一外观描述符时,用于膨胀所述第一样本实例的轮廓以得到至少一条轮廓线;根据所述第一样本实例的中心点的坐标,以及所述至少一条轮廓线中各轮廓线的位置,确定所述第一外观描述符。

一种可行的实现方式中,所述至少一条轮廓线中目标轮廓线的权重和所述目标轮廓线与所述第一样本实例的距离正相关,所述目标轮廓线是所述至少一条轮廓线中的任意一条轮廓线。

一种可行的实现方式中,所述增强模块将所述目标实例移动至所述贴图位置以得到增强图像之前,还确定旋转因子和缩放因子,所述旋转因子用于指示所述目标实例的旋转量,所述缩放因子用于指示所述目标实例的缩放程度;根据所述旋转因子和所述缩放因子缩放所述目标实例。

本申请实施例提供的数据增强装置,可以执行上述实施例中电子设备的动作,其实现原理和技术效果类似,在此不再赘述。

图13为本申请实施例提供的一种电子设备的结构示意图。如图13所示,该电子设备1300包括:

处理器1301和存储器1302;

所述存储器1302存储计算机指令;

所述处理器1301执行所述存储器1302存储的计算机指令,使得所述处理器1301执行如上所述的数据增强方法。

处理器1301的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

可选地,该电子设备13000还包括通信部件1303。其中,处理器1301、存储器1302以及通信部件1303可以通过总线1304连接。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现如上所述的数据增强方法。

本申请实施例还提供一种计算机程序产品,该计算机程序产品包含计算机程序,计算机程序被处理器执行时实现如上所述的数据增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

相关技术
  • 数据增强方法、装置、电子设备及可读存储介质
  • 图像增强方法、装置、电子设备及计算机可读存储介质
技术分类

06120113254086