掌桥专利:专业的专利平台
掌桥专利
首页

数据增强方法、训练方法、计算机装置及存储介质

文献发布时间:2023-06-19 09:29:07


数据增强方法、训练方法、计算机装置及存储介质

技术领域

本申请实施例涉及人工智能技术领域,尤其涉及数据增强方法、训练方法、计算机装置及存储介质。

背景技术

在众多计算机视觉应用场景中,例如目标识别等,目标检测是其重要的前置步骤。具体的,通过处理所采集图像中的目标相关特征以定位目标所在区域。

所述目标可以是人、物等。在目标检测中会用到目标检测模型,例如深度神经网络模型等。这些模型需要通过训练数据进行训练以学习到目标检测的规律。然而,训练数据往往是很有限的,为了克服数据不足的问题,于是产生了数据增强的方法来对现有数据进行多种方式的模拟,以几乎没有成本的方式生成尽可能与真实数据相似的数据,对于图像数据而言,对应数据增强方法可以是对图像进行尺寸变化、角度变化、伸缩、拼接等处理方式实现。

虽然现有的数据增强方法可以在很大一部分程度上缓和数据不足的问题,同时避免学习得到的模型过拟合于当前数据,但是使用数据增强方法都较为随意或模式固定,并没有精细到明确需要得到哪些特点的增强数据,以及增强数据的组合等,无法快速灵活地自动产生具有所需特点的增强数据,当增强数据用于目标检测模型训练时,往往无法适合于目标特点甚至破坏了目标,反而影响训练效率;而且,所采用的数据增强方法都是与通用目标检测相关,并没有专门针对某些细分的目标进行优化。举例来说,以文本为目标的检测中,文本的特点在于主要是附着于两维平面,且有着长度方向数特征多而高度方向特征较少、以及受尺度变化的影响较小的特点;目标检测的应用场景还有自然场景中人、物的检测等,相比之下,如果通用场景的数据增强方法,所产生的增强数据可能并不能凸显出文本的特点。

因此,如何提供一种改进的数据增强方案,以解决上述问题,已成为业界亟待解决的技术问题。

发明内容

有鉴于此,本申请实施例中提供数据增强方法、训练方法、计算机装置及存储介质,解决现有技术中的技术问题。

本申请实施例提供了一种数据增强方法,包括:

获取待增强数据集;

生成对应待增强数据集的第一随机值;

判断所述第一随机值所落入的预设取值范围;

确定所述预设取值范围预先关联的数据增强操作;

通过确定的数据增强操作处理所述待增强数据集,获得增强数据集。

可选的,所述预设取值范围有多个,所述多个预设取值范围之间的大小决定第一随机值落入其中各预设取值范围的概率大小;每个预设取值范围关联有数据增强操作,且所述多个预设取值范围各自所关联的数据增强操作不同。

可选的,各个所述预设取值范围之间重叠或连续。

可选的,所述确定所述预设取值范围预先关联的数据增强操作,包括:

查询同第一随机值所落入的预设取值范围预先建立有关联关系的数据增强操作;

在查询到数据增强操作时,将查询到的数据增强操作确定为与所述预设取值范围关联的数据增强操作。

可选的,所述通过确定的数据增强操作处理所述待增强数据集,获得增强数据集,包括:

获取待增强数据集中的当前待增强图像,所述当前待增强图像具有用于标注目标的增强前标注图像区域;

通过确定的数据增强操作对所述待增强图像进行处理,获得增强图像,所述待增强图像中的增强前标注图像区域变化为所述增强图像中的增强后标注图像区域;其中,所述增强图像归于所述增强数据集。

可选的,所述数据增强操作的种类包括以下中的至少一种:对当前待增强图像的无畸变拉长或缩短操作;在长度和/或高度上拉长或缩短操作;对多个已有图像进行拼接或缩小/放大后拼接。

可选的,所述无畸变拉长操作包括:于待增强图像中,在待增强图像中增强前标注图像区域的至少一侧填充包含相同类型的目标的图像内容,以形成增强后标注图像区域;

所述无畸变缩短操作包括:于待增强图像中,对增强前标注图像区域进行裁剪以形成增强后标注图像区域,或者分隔设置增强前标注图像区域的各部分以形成增强后标注图像区域。

可选的,所述包含相同类型的目标的图像内容包括以下至少一种:增强前标注图像区域的至少部分;或者,已有图像中的标注图像区域。

可选的,所述数据增强操作还包括以下至少一种处理步骤:

若数据增强操作中对待增强图像扩大,则执行缩小或裁切处理以得到与待增强图像尺度相同的增强图像;

若数据增强操作中对待增强图像缩小,则执行扩大或预设像素值的填充处理以得到同待增强图像尺度相同的增强图像;

若数据增强操作令待增强图像中产生了像素信息缺失区域,对像素信息缺失区域执行预设像素值的填充。

可选的,所述待增强数据集为一训练数据集的子集,所述训练数据集用于目标检测模型的训练。

可选的,所述子集是随机选取的。

可选的,所述的数据增强方法包括:

生成对应所述子集的参考信息;

判断所述参考信息是否满足预设增强条件;

若是,则表示该子集需要数据增强而作为待增强数据集;

若否,则表示该子集不需要数据增强。

可选的,所述待增强数据集与训练数据集向目标检测模型输入的至少一个批次的样本数量一致。

可选的,所述目标包括:文本。

本申请实施例提供了一种模型训练方法,包括:

通过所述的数据增强方法得到增强数据集;

将所述增强数据集输入目标检测模型以对其训练。

本申请实施例提供了一种数据增强装置,包括:

待增强数据获取模块,用于获取待增强数据集;

随机生成模块,用于生成对应待增强数据集的第一随机值;

判断模块,用于判断所述第一随机值所落入的预设取值范围;

增强操作确定模块,用于确定所述预设取值范围预先关联的数据增强操作;

增强处理模块,用于通过确定的数据增强操作处理所述待增强数据集,获得增强数据集。

本申请实施例提供了一种模型训练装置,包括:

增强数据获取模块,用于获取增强数据集,所述增强数据集是通过所述的数据增强方法生成的;

训练模块,将所述增强数据集输入目标检测模型以对其训练。

本申请实施例提供了一种计算机装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述的数据增强方法或所述的模型训练方法的步骤。

本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时执行所述的数据增强方法或模型训练方法的步骤。

与现有技术相比,本申请实施例的技术方案具有以下有益效果:

一方面,通过随机值配合预设取值范围来选择数据增强操作的方法,可以控制所需求的增强数据集的特点,相比于现有技术的数据增强操作,更加灵活且可控。

另一方面,各种数据增强操作可以使用更适配于具体目标特点的类型,使得所生成的增强数据集也更适合于相应的目标检测模型的训练;例如该目标为文本等,对应生成的增强数据集能更符合文本的长度方向特征多且高度方向特征少、尺度变化影响小等特点,用于训练得到准确性更好的文本检测模型,尤其是长文本检测模型。

附图说明

图1展示为本申请实施例中数据增强方法的流程示意图。

图2展示为本申请实施例中数据增强操作选择的原理示意图。

图3展示为本申请实施例中图1的S104的具体步骤示意图。

图4A展示为本申请实施例中对待增强图像进行拉长的数据增强操作的过程示意图。

图4B展示为本申请实施例中对待增强图像进行缩短的数据增强操作的过程示意图。

图5展示为本申请实施例中对多个已有图像进行缩小及拼接的数据增强操作的过程示意图。

图6A展示为本申请实施例中对待增强图像进行无畸变拉长的数据增强操作的过程示意图。

图6B展示为本申请实施例中对待增强图像进行无畸变缩短的一种数据增强操作的过程示意图。

图6C展示为本申请实施例中对待增强图像进行无畸变缩短的又一种数据增强操作的过程示意图。

图7展示为本申请实施例中图1的S101的具体步骤示意图。

图8展示为本申请实施例中的模型训练方法的流程示意图。

图9展示为本申请实施例中数据增强装置的模块示意图。

图10展示为本申请实施例中模型训练装置的模块示意图。

图11展示为本申请实施例中计算机装置的结构示意图。

具体实施方式

根据现有技术可知,目标检测中所针对的“目标”实际上存在诸多类型,不同类型之间的特点不同,如果都使用通用的比如一种的固定方式进行数据增强,所得到的增强数据往往难以贴合所需要针对的目标的特点,在用于相应的目标检测模型的训练时会影响训练效果(如对改善训练过拟合的效果不佳)、训练得到的目标检测模型检测目标的准确性不佳等。

以文本检测为例进行详细说明。文本检测属于目标检测的一个分支,其具体指将图像内的含有文本的区域进行定位。文本检测的质量对于后续文字识别的效果具有至关重要的影响。

虽然绝大多数文本检测的方法均基于通用目标检测的方法,但是文本检测与通用目标检测在算法的实际实现上仍会存在较大的差异,表现在:与通用目标检测相比,文本检测面对更为极端的长宽比,形状的不规则,特别是文本在长度方向上的变动区间非常大,短到一个字符,长到整个页面等;这会导致通用目标检测方法往往难以直接应用于文本检测中。

目标检测中所使用目标检测模型(例如深度神经网络模型等)需要通过训练数据进行训练以学习到目标检测的规律。虽然现有的数据增强方法可以在很大一部分程度上缓和数据不足的问题,同时避免学习得到的模型过拟合于当前数据。

然而,由于文字检测和通用目标检测在任务特性上存在很大的差异,所以现有的数据增强方法直接迁移应用于文本检测在训练效果上并不佳。

主要差异在于,在自然场景中,文本检测相比于人、物检测,在远近距离上的尺度变化所造成的影响并不突出,而例如人、物等目标检测中需要考虑其远近的多尺度变化问题,因此通用的数据增强方式如伸缩、缩放等尺寸变化,所产生的增强数据训练文本检测模型时未必能达到所需求的文本相关特征变化的效果。

另外,文本检测具有变长的问题,同样的文本行,其长度差距可能非常悬殊,相当于高度不变的长度方向上的单一维度多尺度问题。现有的尺度模拟,而且文本行的高度本身像素比较少,在数据增强的伸缩操作之后可能会造成几乎无法辨认的问题,也就数据增强方法反而造成对特征的破坏。

本申请实施例中针对上述现有技术的问题,提供相应的解决方案。

如图1所示,展示本申请实施例中数据增强方法的流程示意图。

如图所示,所述数据增强方法包括:

步骤S101:获取待增强数据集。

在一些示例中,所述待增强数据集可以包含至少一待增强图像,所述待增强图像可以例如为图片形式,也可以是视频流形式,然视频实际上即为多帧连续图片的序列,其原理是一致的。

可选的,所述待增强数据集可以是取自一训练数据集的子集,该训练数据集用于训练目标检测模型。

所述待增强图像中具有增强前标注图像区域。所述增强前标注图像区域可以是目标所在的区域。例如,当目标为一行文本时,所述标注可以是文本框(Text Box),而在待增强图像中标出所述增强前标注图像区域,对应该行文本的文本框所选中的区域。

在一些示例中,所述标注可以由人工来选定,也可以由目标检测算法来检测得到。

需说明的是,所述目标检测模型可以是用于进行文本检测的,但是也可以是用于其它目标检测,并非以本申请实施例中示例性的文本为限制。

在一些示例中,所述待增强数据集是所述训练数据集的子集,指的是所述待增强数据集可以是训练数据集的部分,也可以是它的全部。在具体实施中,所述待增强数据集与训练数据集向目标检测模型输入的至少一个批次(batch)的样本数量一致。所述批次指的是训练过程中每次向目标检测模型输入的一部分数据,以图像为例来说,可能是预定数量的带有标注的图片,即所述待增强数据集可以是一个或者多个批次(batch)的数据的大小,当需要进行数据增强时,从训练数据集抽出例如一个批次的训练数据,进行之后的数据增强操作。

在一些示例中,所述子集可以是随机选取的。例如,对应训练数据集中的每个batch或图像生成随机索引,根据索引来选择子集等。

在图1中,还展示有:

步骤S102:生成对应待增强数据集的第一随机值。

步骤S103:判断所述第一随机值所落入的预设取值范围;

步骤S104:确定所述预设取值范围预先关联的数据增强操作;

步骤S105:通过确定的数据增强操作处理所述待增强数据集,获得增强数据集。

在一些示例中,所述预设取值范围可以为一个,则当第一随机值落入预设取值范围时,能获得关联的数据增强操作;当第一随机值未落入该预设取值范围时,则可不进行数据增强操作。

在又一些示例中,所述预设取值范围有多个,所述多个预设取值范围之间的大小决定第一随机值落入其中各预设取值范围的概率大小;每个预设取值范围关联有数据增强操作,且所述多个预设取值范围各自所关联的数据增强操作不同。

其中,对于预设取值范围是离散的情形,预设取值范围的大小是根据其可取值的数量所确定,比如以1~9的整数集合作为预设取值范围A,以2~5的整数集合作为预设取值范围B,则预设取值范围A比B大;或者,对于预设取值范围是连续的情形,预设取值范围的大小是根据其在数轴上长度所确定,比如[1,5]的实数范围比[1,3]的实数范围大。

因而,两个预设取值范围之间的大小关系,即比较它们可取值的数量的多寡,或比较它们在数轴上的长度。一个预设取值范围,其可取值的数量越多或在数轴上的长度越长,则第一随机值落入它的概率越大;相应可以理解的,第一随机值落入某个预设取值范围的概率越大,则选择与该预设取值范围关联的数据增强操作的概率就越大。

如图2所示,设得到第一随机值v0,假设有4个预设取值范围是实数的取值范围,分别为[b0,b1],(b1,b2],(b2,b3],(b3,b4],通过预设[b0,b1],(b1,b2],(b2,b3],(b3,b4]的长度关系就能控制第一随机值分别落入它们的概率大小。其中,“(”表示预设取值范围中不包含端点值,如(5,10]中不包含5;“[”和“]”表示预设取值范围包含端点值,如[1,3]中包含1和3。

为更直观说明原理,在上述4个预设取值范围中,可假设[b0,b1]为[1,2],(b1,b2]为(2,6],(b2,b3]为(6,14],(b3,b4]为(10,11]。其中,在以整数为刻度的数轴上,以相邻两个整数之间的长度为1格,则在数轴上,[1,2]占1格长度,(2,6]占4格长度,(6,14]占9格长度,(10,11]占1格长度,那么这4个预设取值范围的大小关系近似表示为1:4:9:1的比例关系,则v0落入各预设取值范围的概率之间也遵循这样的比例关系,在此4个预设取值范围中,v0落入(6,14]的概率是最大的,落入(2,6]的概率次之,另外两个最低。

在具体示例中,由于每个预设取值范围关联有数据增强操作,不用的预设取值范围所关联的数据增强操作可以是不同的,控制第一随机值v0落入每个预设取值范围的概率大小,也就能控制选择关联的数据增强操作的概率大小。例如图2中的数据增强操作1~4,可能分别是不同特点的数据增强方式,而(b2,b3]为上述(6,14],则相比[b0,b1]为[1,2],(b1,b2]为(2,6]和(b3,b4]为(10,11],v0落入(b2,b3]的概率最大,其关联的是数据增强操作3。

虽然在以上示例中,展示的4个预设取值范围之间是连续的,例如[b0,b1]和(b1,b2],但是在其它示例中,各预设取值范围之间也可以是分隔的,并非以上述为限。

以预设取值范围之间存在分隔为例,两个预设取值范围[1,3]和[5,10]之间是间隔而不重叠的,同样可以参照上例,通过预设它们的大小关系,来决定它们的概率大小。例如,[1,3]和[5,10]的长度比例为2:5,对应它们的概率大小的关系。

通过上述示例可见,通过设置预设取值范围的大小,就可以决定第一随机值落入的概率大小,实现对预设取值范围关联的数据增强操作的概率性地获得,从而可以达到灵活快速得到更贴合实际需求特点的增强数据集的目的。

在具体实施中,步骤S104中的确定所述预设取值范围预先关联的数据增强操作,可以具体包括:查询同第一随机值所落入的预设取值范围预先建立有关联关系的数据增强操作;在查询到数据增强操作时,将查询到的数据增强操作确定为与所述预设取值范围关联的数据增强操作。

举例来说,当发现第一随机值为1,判断其落入预设取值范围[3,5]中,则在存储的数据中查询预设取值范围[3,5]预先关联的数据增强操作,经查询,存在数据增强操作D与预设取值范围[3,5]预先关联,则获得确定的数据增强操作D,以用于对待增强数据集进行数据增强的处理。

如图3所示,步骤S104中通过确定的数据增强操作处理所述待增强数据集,获得增强数据集,可以包括:

步骤S301:获取待增强数据集中的当前待增强图像,所述当前待增强图像具有用于标注目标的增强前标注图像区域;

步骤S302:通过确定的数据增强操作对所述待增强图像进行处理,获得增强图像,所述待增强图像中的增强前标注图像区域变化为所述增强图像中的增强后标注图像区域;其中,所述增强图像归于所述增强数据集。

在一些示例中,所述数据增强操作的种类包括以下中的至少一种:对待增强图像的无畸变拉长或缩短操作;在长度和/或高度上拉长或缩短操作;对多个已有图像进行拼接或缩小/放大后拼接。

由于上述拉长、缩短、缩小/放大的操作会使待增强图像扩大或缩小,从而超出或者不足原尺寸;又或者,操作过程中可能会对待增强图像中的局部进行裁切,导致形成信息缺失区域。为使得到的增强图像相比于待增强图像的尺度不变、或消除信息缺失区域,故可选的,所述数据增强操作还可包括以下至少一种处理步骤:

第一种:若数据增强操作中对待增强图像扩大,则执行缩小或裁切处理以得到与待增强图像尺度相同的增强图像。

例如,在待增强图像拉长后,对超出待增强图像尺度的部分进行裁切,例如待增强图像右侧边缘沿长度拉升,以使其尺度从224×224变化为236×224,再将右侧超出的12×224的部分裁切掉,得到增强图像。

第二种:若数据增强操作中对待增强图像缩小,则执行扩大或预设像素值的填充处理以得到同待增强图像尺度相同的增强图像;

例如,待增强图像右侧边缘沿长度方向缩短,以使其像素覆盖范围从224×224变化为212×224,则右侧出现了12×224的信息缺失区域,对此信息缺失区域进行预设像素值的填充处理得到增强图像;其中,所述预设像素值可例如为0,则实际为通过补0的方式进行填充;当然此仅为举例而非限制预设像素值的取值。

第三种:若数据增强操作令待增强图像中产生了像素信息缺失区域,对像素信息缺失区域执行预设像素值的填充

例如,在无畸变缩短操作中可能会因局部裁切产生空白的部分,也需要进行预设像素值的填充。

此外,可以理解的是,在对多个已有图像进行拼接或放大/缩小后拼接时,对它们的缩放比例进行控制,以维持生成的增强图像的尺度相比于待增强图像不变。例如,待增强图像为224×224的图片,通过对两张224×224的第一图片各在长度方向缩短50%,即形成两张112×224的图片,然后在长度方向上拼接形成224×224的增强图像。

再说明增强前标注图像区域变化为增强后标注图像区域的原理。以图像拉长方式的数据增强方式为例,假设增强前标注图像区域为一行文本的文本框,当待增强图像在长度方向拉长之后,该增强前标注图像区域即文本框也会随之拉长,作为增强后标注图像区域。

需特别说明的是,对于图像中的文本而言,其长度上变化对特征的影响可能大大超过高度上的变化,故在增强前标注区域对应的是文本时,所述在长度和/或高度上拉长或缩短操作对应可以优化为:对待增强图像进行长度上的拉长或缩短。相应的,待增强图像标注区域即文本框也会随之拉长或缩短而变化为增强后标注图像区域。

如图4A和4B所示,分别展示对待增强图像进行拉长和缩短的数据增强操作的过程示意图。

如图4A所示,最左侧展示为待增强图像401,待增强图像401中的增强前标注图像区域402为一行文本“ABCDE”。对该待增强图像401在长度方向上向右拉升后,呈现如图4A中部的拉长后图像。再对拉长后图像超出待增强图像401原尺度的部分X(斜纹所示)进行裁切,得到图4A中最右侧的数据增强后的增强图像403,增强前标注图像区域402随之转换为此增强图像403中的增强后标注图像区域404。

再如图4B所示,最左侧展示为待增强图像401,待增强图像401中的增强前标注图像区域402为一行文本“ABCDE”。对该待增强图像401在长度方向上从右向左缩短后,呈现如图4B中部的缩短后图像。再对缩短后图像不足待增强图像401的原尺度的部分Y(点状图案所示)进行预设像素值的填充,得到图4B中最右侧的数据增强后的增强图像403’,增强前标注图像区域402随之变化为此增强图像403’中的增强后标注图像区域404’。

可以理解的是,对待增强图像进行高度方向上的拉长或缩短的操作与上述长度方向上的操作原理相似,故此处不作展开描述。然需注意的是,在目标为文本时,由于其高度方向上的尺度变化产生的信息变化较少,故可以不必实施对其高度方向上的拉长或缩短的操作;同理,当对多个已有图像进行拼接或缩小/放大后拼接的数据增强操作时,可以是仅在长度方向上对所述多个待增强图像进行缩小或放大后拼接,当然放大后拼接会超出单个待增强图像的,也需要进行裁切。

由于数据增强操作过程中裁切、填充的方式在图4A和图4B中已展示,且为简化表述,故如图5所示,仅展示对多个已有图像进行缩小后拼接的数据增强操作的过程示意图。其中,在训练数据的增强场景中,所述已有图像可以是训练集中的训练图像,或对训练图像的增强图像。当然,也可以是其它来源的图像,如通过拍摄、网络获取、图像数据库等。

在图5中,左侧展示待拼接的4个尺寸相同的已有图像501~504,对4个待增强图像501~504均缩小至原尺寸的1/4,然后进行“田”字形的长度和宽度方向的两两拼接,从而形成右侧与单张待增强图像的尺度相同的增强图像505。例如,待增强图像501~504均为224×224大小的图像,缩小至1/4时,尺寸为56×56大小,4张经拼接后恢复224×224大小的增强图像505。

根据图4A和4B可以发现,对待增强图像直接进行拉伸、缩放操作,会使文本框中的文本产生畸变,即在图4A和图4B中“ABCDE”随操作发生形变。故更为优选的,可以采用所述无畸变拉长或缩短的数据增强操作,尤其对于文本而言,其畸变可能会导致原始特征信息的丢失,故需尽量避免。

在一些示例中,所述无畸变拉长操作包括:于待增强图像中,在增强前标注图像区域的至少一侧填充包含相同类型的目标的图像内容,以形成增强后标注图像区域。举例来说,如图6A所示,展示无畸变拉长操作的过程示意图。

图6A中左侧显示的待增强图像601中,标注有增强前标注图像区域,即文本框T1中的一行文本“ABCDE”;所述无畸变拉长操作可以是在“ABCDE”的一侧填充相同目标类型的扩展图像区域的,例如同样是文本类型的文本框T2,内容为“FGH”,填充在“ABCDE”右侧,形成右侧的增强图像602及其中的增强后标注图像区域T2:“ABCDEFGH”。

需说明的是,图6A中的扩展图像区域的填充方式、填充位置皆为示意性地例举,在实际情形中也可以在T1的左侧等位置进行填充,并非以图示为限。

对于填充的所述图像内容中具有与增强前标注图像区域相同类型的目标,指的是目标的标签相同,如都是人、动物、植物、文字等。举例来说,若待增强图像中的增强前标注图像区域标注的目标是文本,则所填充图像内容中同样包含文本。或者,所述图像内容也可以是增强前标注图像区域的一部分,例如文本框“ABCDE”中的“DE”部分图像作为填充的图像内容,经无畸变拉长操作后将“DE”的图像区域填充到“ABCDE”的右侧,形成增强后标注图像区域,即文本框“ABCDEDE”。

在一些示例中,所述无畸变缩短操作包括:对待增强图像中增强前标注图像区域进行裁剪以形成增强后标注图像区域;或者对增强前标注图像区域设置分隔的各部分以形成增强后标注图像区域。

例如图6B所示,图6B中左侧显示的待增强图像601中,标注有增强前标注图像区域,即文本框T1中的一行文本“ABCDE”;所述无畸变缩短操作可以是将“ABCDE”中的“DE”部分裁切掉,并进行补0,形成右侧的增强图像602’及其中的增强后标注图像区域“ABC”。

需说明的是,图6B中的文本裁剪方式仅为示意性地例举,在实际情形中可以任意裁剪,并非以图6B中裁去完整的“DE”部分为限。

又例如图6C所示,图6C中左侧显示的待增强图像601中,标注有增强前标注图像区域,即文本框T1中的一行文本“ABCDE”;所述无畸变缩短操作可以是将“ABCDE”中“AB”、“CD”和“E”的部分进行分隔,间隔区域可进行补0(例如图中右侧的斜纹区域所示),在其它示例中也可以填充其它的部分文本的图像区域,以形成右侧的增强图像602”及其中的多个缩短的增强后标注图像区域“AB”、“CD”及“E”。

需说明的是,图6C中的文本裁剪方式仅为示意性地例举,在实际情形中可以任意分隔,并非以图6C中的分隔方式为限。

需说明的是,虽然在上述图6A、6B示例中是针对以文本为所标注的目标而执行的在文本框的长度方向上的拼接增长或裁剪/分隔缩短,更适合于每个文本框是对应一行文本的特点,但在其它目标类型的示例中,也可以在高度方向或其它方向上执行操作,并非以此示例为限。

在一些示例中,由于所述待增强数据集可以是根据一训练数据集的子集得到,例如至少一个批次,则还可以设置对该子集是否需要为需要进行数据增强的待增强数据集的判断机制。

在具体实施中,如图7所示,所述步骤S101的获取待增强数据集可以具体包括:

步骤S701:生成对应所述子集的参考信息;

步骤S702:判断所述参考信息是否满足预设增强条件;

步骤S703:若是,则表示该子集需要数据增强而作为待增强数据集;

步骤S704:若否,则表示该子集不需要数据增强。

示例性地,所述参考信息可以例如为一第二随机值,所述预设增强条件可以是与之前的概率选择数据增强操作的方式相似,即判断该第二随机值落在哪个预设取值区间而确定是否需要数据增强,由于只需要“是”或“否”的二分类,故可以仅设置两个取值区间,例如设第二随机值为v0,比较阈值为a,当v0≤a,则判断为是,以所述子集作为待增强数据集;当v0>a,则判断为否,不进行数据增强。

可选的,在此示例中,此两个取值区间的宽度设置,即比较阈值a的设置,可以与例如子集对应的数据位于整个训练数据集中的先后位置相关,或者与已训练的时间或次数相关,当已训练时间越久或次数越多,或已使用训练数据集中越靠后的数据时,说明所训练的目标检测模型出现过拟合的可能性越高,故需对子集进行数据增强操作的概率越大。

又或者,在一些示例中,也可以直接将子集对应的数据位于整个训练数据集中的先后位置、与已训练的时间及已训练次数中的一种或多种组合作为所述参考信息,并判断参考信息是否满足预设的先后位置阈值、已训练的时间阈值及已训练次数阈值中的一种或多种组合作为预设增强条件,若是,表示满足预设增强条件,进行数据增强;若否,则不进行数据增强。

如图8所示,展示本申请实施例中提供的模型训练方法的流程示意图。

所述模型训练方法包括:

步骤S801:通过所述的数据增强方法得到增强数据集。

可以通过前述实施例(例如图1中的方法流程)处理所获取的待增强数据集来得到增强数据集。所述待增强数据集可以是训练数据集的子集,所述训练数据集包括一或多个待增强图像,每个待增强图像标注有至少一个增强前标注图像区域,所述增强前标注图像区域可以为目标所在区域,例如各行文本所在的文本框等;所述待增强数据集中的待增强图像经随机选择的数据增强操作增强后,形成增强图像,且相应的增强前标注图像区域随之变化为增强图像中的增强后标注图像区域,以形成增强数据集。

步骤S802:将所述增强数据集输入目标检测模型以对其训练。

所述目标检测模型用于从图像中检测目标所在位置,例如文本、人、物等。通过将增强数据集输入目标检测模型,获得目标检测结果,将目标检测结果与输入的待增强图像中的增强前标注图像区域进行比较,以计算损失,根据损失来调整目标检测模型的参数,从而优化目标检测结果的准确性。在具体实施中,步骤S802中还可以包括通过损失的变化、训练时间、迭代周期次数等来判断是否达到训练目标,如损失变化趋于稳定收敛等等,或达到训练达到时间阈值、次数阈值等等;若未达成,则继续输入训练数据进行迭代;若达成,则可完成训练。

以目标是文本为例,文本检测模型可由深度神经网络来实现,例如在自然场景文本检测技术中使用的FasterRCNN、CTPN(Connectionist Text Proposal Network)、EAST(Efficient and Accurate Scene Text Detector,效率且准确的场景文本检测器)等等,在此不一一列举。

本申请上述实施例中提供了多种适合文本检测特点的数据增强操作方式,尤其在例如文本检测中面对不定长文本检测的难题时,尤其是光学字符识别(Optical CharacterRecognition, OCR)的应用场景中,在数据量有限的情况下,能产生更为丰富的结合文本的特点的数据,以达到更好的提升文本检测模型的效果。

虽然如此,但并不意味着本申请的方案只限于训练文本检测模型,其同样可适用于其它目标检测模型的训练,而非以举例为限。

如图9所示,展示本申请实施例中的数据增强装置的模块示意图。需说明的是,所述数据增强装置900的具体实现或变化例可以参考前述实施例中的数据增强方法,在此实施例中不作重复赘述。

所述数据增强装置900包括:

待增强数据获取模块901,用于获取待增强数据集;

随机生成模块902,用于生成对应待增强数据集的第一随机值;

判断模块903,用于判断所述第一随机值所落入的预设取值范围;

增强操作确定模块904,用于确定所述预设取值范围预先关联的数据增强操作;

增强处理模块905,用于通过确定的数据增强操作处理所述待增强数据集,获得增强数据集。

可选的,所述预设取值范围有多个,所述多个预设取值范围之间的大小决定第一随机值落入其中各预设取值范围的概率大小;每个预设取值范围关联有数据增强操作,且所述多个预设取值范围各自所关联的数据增强操作不同。

可选的,各个所述预设取值范围之间重叠或连续。

可选的,所述确定所述预设取值范围预先关联的数据增强操作,包括:

查询同第一随机值所落入的预设取值范围预先建立有关联关系的数据增强操作;

在查询到数据增强操作时,将查询到的数据增强操作确定为与所述预设取值范围关联的数据增强操作。

可选的,所述通过确定的数据增强操作处理所述待增强数据集,获得增强数据集,包括:

获取待增强数据集中的当前待增强图像,所述当前待增强图像具有用于标注目标的增强前标注图像区域;

通过确定的数据增强操作对所述待增强图像进行处理,获得增强图像,所述待增强图像中的增强前标注图像区域变化为所述增强图像中的增强后标注图像区域;其中,所述增强图像归于所述增强数据集。

可选的,所述数据增强操作的种类包括以下中的至少一种:对当前待增强图像的无畸变拉长或缩短操作;在长度和/或高度上拉长或缩短操作;对多个已有图像进行拼接或缩小/放大后拼接。

可选的,所述无畸变拉长操作包括:于待增强图像中,在待增强图像中增强前标注图像区域的至少一侧填充包含相同类型的目标的图像内容,以形成增强后标注图像区域;

所述无畸变缩短操作包括:于待增强图像中,对增强前标注图像区域进行裁剪以形成增强后标注图像区域,或者分隔设置增强前标注图像区域的各部分以形成增强后标注图像区域。

可选的,所述包含相同类型的目标的图像内容包括以下至少一种:增强前标注图像区域的至少部分;或者,已有图像中的标注图像区域。

可选的,所述数据增强操作还包括以下至少一种处理步骤:

若数据增强操作中对待增强图像扩大,则执行缩小或裁切处理以得到与待增强图像尺度相同的增强图像;

若数据增强操作中对待增强图像缩小,则执行扩大或预设像素值的填充处理以得到同待增强图像尺度相同的增强图像;

若数据增强操作令待增强图像中产生了像素信息缺失区域,对像素信息缺失区域执行预设像素值的填充。

可选的,所述待增强数据集为一训练数据集的子集,所述训练数据集用于目标检测模型的训练。

可选的,所述子集是随机选取的。

可选的,所述的数据增强方法包括:

生成对应所述子集的参考信息;

判断所述参考信息是否满足预设增强条件;

若是,则表示该子集需要数据增强而作为待增强数据集;

若否,则表示该子集不需要数据增强。

可选的,所述待增强数据集与训练数据集向目标检测模型输入的至少一个批次的样本数量一致。

可选的,所述目标包括:文本。

如图10所示,展示本申请实施例中的模型训练装置的模块示意图。需说明的是,所述模型训练装置的具体实现或变化例可以参考前述实施例中的模型训练方法,在此实施例中不作重复赘述。

所述模型训练装置100包括:

增强数据获取模块101,用于获取增强数据集;所述增强数据集是通过前述实施例(例如图1~7等实施例)中的数据增强方法得到的;

训练模块102,将所述增强数据集输入目标检测模型103以对其训练。

如图11所示,展示本本申请实施例中的计算机装置的结构示意图。

所述计算机装置110包括存储器111和处理器112,所述存储器111上存储有可在所述处理器112上运行的计算机程序,所述处理器112运行所述计算机程序时执行前述例如图1实施例的数据增强方法、其子流程(图3、图7等实施例)、或图8实施例所示的模型训练方法中的步骤。

在一些示例中,所述处理器112可以是实现计算功能的组合,例如包含一个或多个微处理器组合,中央处理器(CPU)、数字信号处理(Digital Signal Processing,DSP)、ASIC、片上系统(System On Chip,SoC)等;所述存储器111可能包含高速RAM存储器,也可能还包括非易失性存储器(Non-volatileMemory),例如至少一个磁盘存储器。

在一些示例中,所述计算机装置110可以实现于例如服务器、服务器组、台式机、笔记本电脑、智能手机、平板电脑、智能手环、智能手表、或其它智能设备、或这些智能设备通信连接而形成的处理系统。

本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时执行所述的数据增强方法或模型训练方法的步骤。

本申请实施例还可以提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时执行前述例如图1实施例的数据增强方法、其子流程(图3、图7等实施例)、或图8实施例所示的模型训练方法中的步骤。

即,上述本发明实施例中的数据格式化方法被实现为可存储在记录介质(诸如CDROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法/步骤。此外,当通用计算机访问用于实现在此示出的方法/步骤的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法/步骤的专用计算机。

与现有技术相比,本申请实施例的技术方案具有以下有益效果:

一方面,通过随机值配合预设取值范围来选择数据增强操作的方法,可以控制所需求的增强数据集的特点,相比于现有技术的数据增强操作,更加灵活且可控。

另一方面,各种数据增强操作可以使用更适配于具体目标特点的类型,使得所生成的增强数据集也更适合于相应的目标检测模型的训练;例如该目标为文本等,对应生成的增强数据集能更符合文本的长度方向特征多且高度方向特征少、尺度变化影响小等特点,用于训练得到准确性更好的文本检测模型,尤其是长文本检测模型。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

例如,前述图9、10实施例等中的各个功能模块可以是软件实现;或者也可以是软硬件配合实现,例如通过计算机装置实施例中的处理器运行存储器的计算机程序实现;或者,也可以是通过硬件电路实现。

此外,在本申请各个实施例中的各功能模块可以集成在一个处理部件中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个部件中。上述集成的部件既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的部件如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。

例如,前述图9、10所示实施例中各个功能模块(或子模块)可以是独立、单一的程序实现,也可以是一程序中的不同程序段分别实现,在某些实施场景中,这些功能模块可以位于一个物理设备,也可以位于不同的物理设备但相互通信耦合。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

例如,前述图1、图3、图7、图8等实施例中的方法等,其中的各个步骤的顺序可以在具体场景中加以变化,并非以上述描述为限。

虽然本说明书实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本说明书实施例的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

相关技术
  • 数据增强方法、训练方法、计算机装置及存储介质
  • 表情数据库的增强方法、训练方法、计算设备及存储介质
技术分类

06120112179977