掌桥专利:专业的专利平台
掌桥专利
首页

一种基于人机交互的半自动标注方法及系统

文献发布时间:2023-06-19 11:26:00


一种基于人机交互的半自动标注方法及系统

技术领域

本发明属于目标检测领域,具体涉及一种利用额外的点击作为先验信息,通过与RGB图像进行融合达到标注目的的方法,特别涉及一种基于人机交互的半自动标注方法及系统。

背景技术

随着互联网、机器学习、大数据和云计算等技术的飞速发展,各种信息数据以指数级的速度在持续增长,在大数据时代背景下,计算机视觉发展已经相对成熟,因而滋生出多样化的行业应用。标注数据集对深度学习而言是很重要的一步,但是标注数据是件很繁琐的工作,而半自动标注可以减轻工作量。即使现在有开源的半自动标注工具,但使用的前提是模型的精度越高越好,如果检测结果不准确,就会增加工作量,导致无法使用。而且使用半自动标注工具可能有出现检测结果不准确,有目标未被检测出来等情况,因此需要手动标注进行完善。但是由于模型的效率和精度很难达到平衡,所以就目前来看主流方法还是全人工标注。

但人工标注数据集有以下几项弊端:

1、数据标注人工成本高:目标检测算法需要海量标注样本,而目前海量的数据标注任务依赖人工方式实现,“有多少人工,就有多少智能”,造成制作标注数据集的成本高。

2、人工标注的质量难以保证:不同的标注人员和标注团队存在判定尺度不一致问题,标注任务受标注人员和审查人员主观影响大,会引入一定的标注误差,数据一致性难以保证。

3、目标检测数据集标注门槛高:相比于海量的数据标注需求,专业领域的标注人员过于稀缺,导致标注门槛高,标注的尺度也难以保持一致。

发明内容

本发明的目的在于克服上述技术缺陷,提出提供了一种在Faster rcnn模型基础上基于模拟点击融合RGB通道实现半自动标注的方法,该方法通过提供模拟点击作为先验信息,根据这些信息限定预测框的生成范围。这种方法可以在Faster rcnn漏检目标时再给图片一个位置信息用来检测目标,并克服了Faster rcnn在检测目标时因为光照条件,遮挡,阴影等情况的影响,容易错检或漏检的问题。而且根据预先提供的位置信息来限制预测框生成的基础上,抑制了错检框产生的概率,有效的实现了基于人机交互的半自动标注过程,并提高了模型的检测效果和鲁棒性。

为实现上述目的,本发明的实施例1提出了一种基于人机交互的半自动标注方法,所述方法包括:

将待标注的RGB图像与产生的第一高斯热图进行融合;

对融合图像进行预处理;

将预处理后的融合图像输入预先建立和训练好的半自动标注模型,对待标注RGB图像标注多个预测框;

当有预测框不满足要求,则通过产生第二高斯热图对不满足要求的预测框进行修正操作。

作为上述方法的一种改进,所述将待标注的RGB图像与产生的第一高斯热图进行融合;具体包括:

利用与待标注的RGB图像对应的xml文件中左上坐标和右下坐标,在待标注RGB图像上确定目标所在区域,然后将目标所在区域内的所有像素点设为255,将目标所在区域外的像素点设为0,由此生成Mask图像;

在Mask图像的中心范围随机生成多个模拟点,由此生成第一高斯热图heat

其中,(x,y)为图片上的点坐标,(x

将待标注的RGB图像与生成的第一高斯热图heat

作为上述方法的一种改进,所述半自动标注模型为加入注意力机制的Resnet50+FPN结构。

作为上述方法的一种改进,所述方法还包括:对半自动标注模型进行训练的步骤,具体包括:

建立用于训练模型的数据集;数据集包括:标签文件集和图像文件集,标签文件集包括多个xml文件,图像文件集包括多个RGB图像,xml文件和RGB图像是一一对应的;

遍历数据集中的每一个RGB图像,利用对应的xml文件中左上坐标和右下坐标,在RGB图像上确定目标所在区域,然后将目标所在区域内的所有像素点设为255,将目标所在区域外的像素点设为0;由此生成Mask图像,然后利用Mask图像生成第一高斯热图;

将三通道RGB图像与第一高斯热图进行融合,之后对融合后的图像进行预处理;作为半自动标注模型的输入;

设定半自动标注模型训练的编码器和解码器的尺寸大小、批处理数量、训练轮次数和各轮的学习率,对模型进行训练。

作为上述方法的一种改进,所述当有预测框不满足要求,则通过产生第二高斯热图对不满足要求的预测框进行修正操作;具体包括:

步骤S1)对模型输出的每个预测框与GT框进行交并比计算,得到IOU的值;若IOU大于阈值,则不对此预测框进行修正处理,否则对该预测框进行处理,进入步骤S2);

步骤S2)将需要修正的预测框与xml文件的坐标进行偏差计算,根据偏差重新随机生成多个模拟点,由此生成第二高斯热图heat

其中,(x,y)为图像上的点坐标,(x

步骤S3)将三通道RGB图像与生成的第二高斯热图的单通道进行拼接,重新输入半自动标注模型,输出标注预测框的图像,转入步骤S1),直至所有的预测框与GT框的交并比小于阈值。

本发明的实施例2提出了一种基于人机交互的半自动标注系统,所述系统包括:训练好的半自动标注模型、融合模块、预处理模块、标注模块和修正模块;

所述融合模块,用于将待标注的RGB图像与产生的第一高斯热图进行融合;

所述预处理模块,用于对融合图像进行预处理;

所述标注模块,用于将预处理后的融合图像输入训练好的半自动标注模型,对待标注RGB图像标注多个预测框;

所述修正模块,用于当有预测框不满足要求,则通过产生第二高斯热图对不满足要求的预测框进行修正。

与现有的技术相比,本发明的优势在于:

1、本发明的方法首先将额外点击作为先验信息来对目标进行检测,进而达到半自动标注的预期效果;然后通过对错检目标的惩罚降低误检率,进一步提升检测效果;

2、本发明的方法的半自动标注模型不仅大幅度提升了原有模型的精度,并对不同的数据集也有很好的迁移效果;可以摆脱人工标注费时费力的弊端,只需要人为提供一个目标所在位置的先验信息,模型就可以主动加强对当前位置附近的检测;

3、本发明的方法中因为预测的位置可能有时会稍有偏差,因此需要人为的进行修正,但人为修正同样存在着开销大,耗时长的问题;所以本发明加了一个修正部分,对预测结果不理想的目标进行修正使其预测正确;

4、本发明对原有结构进行改进,在交互式检测的基础上又加了一个修正操作,使其达到修正目的。

附图说明

图1为本发明的实施例1的基于人机交互的半自动标注方法的示意图;

图2为本发明的半自动标注模型结构图;

图3为半自动标注模型的SKNet部分的示意图;

具体实施方式:

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例以及相应的附图对本申请技术方案进行清楚、完整地描述。应当理解,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义:

RGB图像:是指通过单目相机采集得到的彩色图像,为三通道图像。

标签:表示用于目标检测神经网络监督训练的类别标签,对彩色图像的每个目标的类别进行了标注。

如图1所示,本发明的实施例1提出了一种基于人机交互的半自动标注方法,具体实施步骤如下:

步骤1)将待标注的RGB图像与模拟点击产生的高斯热图进行融合;具体包括:

步骤101)通过与待标注图像对应的xml文件生成一个Mask图像;

利用xml文件中左上坐标和右下坐标在待标注RGB图像上确定目标所在区域,然后将目标所在区域内的所有像素点设为255(设为任何大于0的数都可以),将目标所在区域外的像素点设为0,这样就可以将目标所在区域与背景区域划分开;由此生成Mask图像,Mask图像为灰度图像;

步骤102)利用Mask图像生成第一高斯热图;

在Mask图像的中心范围随机生成一个点,以这个点为中心生成第一高斯热图,如果模拟点击是多个点就将生成的所有的高斯热图进行相加,形成第一高斯热图;将生成的第一高斯热图作为先验信息与待标注的RGB图像进行融合,并提高错检目标的惩罚系数降低误检率;

模拟点击的坐标即高斯热图的中心点,因为每张图片的目标可能不止一个,所以产生的第一高斯热图采用相加的方式来起作用。

生成第一高斯热图heat

其中,(x,y)为图片上的点坐标,(x

由于经过上述过程后得到的是一个矩阵,要把其转化为与图片相同的格式,因此要对上述结果进行处理。处理过程为建立一个与图片尺寸相同大小的矩阵,并对其进行初始化,初始化后的维度为(h,w,1),h为图像的高,w为图像的宽,1为通道数。因为此时得到的类型是一个数组,而期望的数据类型是一个张量,所以需要将数组类型转换为张量类型。

步骤103)将待标注的RGB图像与生成的第一高斯热图进行融合;

首先判断RGB图像与上述过程生成的高斯热图维度是否相同,如果维度相同,则将RGB图像与第一高斯热图进行add操作。

步骤2)对融合后的图像进行预处理:将图像进行白化,翻转,剪裁等操作;

步骤3)构建并训练半自动标注模型模型,将预处理后的融合后的图像输入半自动标注模型模型,对融合后的图像标注预测框;

步骤301)构建半自动标注模型;

如图2所示,半自动标注模型的基础骨干采取有监督模型,骨干网络选取Resnet50,选用FPN结构对骨干网络进行优化。因为Faster RCNN中的RPN是通过最后一层的特征来做的。最后一层的特征经过3x3卷积,得到256个channel的卷积层,再分别经过两个1x1卷积得到类别得分和边框回归结果。这里将特征层之后的RPN子网络称之为网络头部(network head)。特征层上的每一个点用anchor的方式预设了9个框。这些框本身包含不同的尺度和不同的长宽比例。

FPN针对RPN的改进是将网络头部应用到每一个P层。由于每个P层相对于原始图片具有不同的尺度信息,因此作者将原始RPN中的尺度信息分离,让每个P层只处理单一的尺度信息。具体的,对{32

为了进一步提高模型精度,本发明在骨干网络的前面部分加了注意力机制,注意力机制采用sknet方法,如图3所示;

具体地,Selective Kernel Networks启发自皮质神经元根据不同的刺激可动态调节其自身的receptive field,是结合了SE operator,Merge-and-Run Mappings,以及attention on inception block思想的产物。从设计理念上来讲也比较simple,即对所有大于1的卷积kernel进行Selective Kernel改造,充分利用group/depthwise卷积带来的较小的理论parameters和flops的便利,使增加多路与动态选择的设计也不会带来很大的overhead(但实际group/depthwise的加速优化目前还不是特别好,导致实际速度还是略有一些慢的),具体可以参考表1。这样的设计使得任何网络进行Selective Kernel化就变得非常容易,只需要对大于1的卷积进行切换即可。

表1

步骤302)对半自动标注模型进行训练;

模型将自身的输入值作为神经网络的监督标签值,下面描述半自动标注模型的示例性训练流程。

步骤302-1)建立用于训练模型的数据集;数据集包括:标签文件集和图像文件集,标签文件集包括多个xml文件,图像文件集包括多个RGB图像,xml文件和RGB图像是一一对应的。

步骤302-2)遍历数据集中的每一个RGB图像,利用xml文件中左上坐标和右下坐标在RGB图像上确定目标所在区域,然后将目标所在区域内的所有像素点设为255(设为任何大于0的数都可以),将目标所在区域外的像素点设为0,这样就可以将目标所在区域与背景区域划分开;由此生成Mask图像,然后利用Mask图像生成第一高斯热图;

步骤302-3)将三通道RGB图像与第一高斯热图进行融合,之后对融合后的图像进行预处理;作为半自动标注模型的输入;

步骤302-4)基于工具PyTorch实现有监督神经网络,设定网络的编码器和解码器的尺寸大小、批处理数量、训练轮次数、各轮的学习率等需要人为定义的超参数之后,开始训练,对label编码过程可以获得GT框对应的IOU较大的先验框,并计算了真实框对应的所有IOU(交并比,Intersection-over-Union)较大的anchor应该有的预测结果,找到每一张用于训练的图片的每一个真实框对应的anchor,即IOU最大的先验框。对于利用网络预测得到的预测框的位置并不是实际的框的位置,需要与先验框结合处理后才能得到最后的框的位置。

解码过程需要两个参数,卷积后的location和anchor。之后根据损失函数计算误差,利用反向传播算法更新网络参数,完成第一轮训练,直到完成所有轮的训练。为了加快网络的训练速度,在训练网络时,网络的激活函数选取为ReLU函数。

其中RPN的损失函数为:

其中:

p

t

L

L

Faster rcnn的损失函数为:

L

p:分类器预测的概率分布;u:真实的类别标签;t

步骤302-5)当预测框不理想时,可进行修正操作,具体包括:

步骤302-5-1)当对一批数据进行训练时,对模型输出的每个预测框与GT框(目标预测区域)进行交并比计算,得到IOU的值;若IOU大于某个阈值,则默认不对此预测框进行修正处理,否则对该预测框进行处理,进入步骤301-5-2);此时阈值设为0.7,意思是交并比小于0.7的预测框都要重新处理。

步骤302-5-2)将需要修正的预测框与对应的xml文件的坐标进行偏差计算,根据偏差重新随机生成多个模拟点,由此生成第二高斯热图heat

其中,(x,y)为图像上的点坐标,(x

步骤302-5-3)然后将三通道RGB图像与第二高斯热图的单通道进行拼接,网络的输入大小为(batch_size,3,h,w),拼接后的网络输入为(batch_size,4,h,w)。

将训练好的模型进一步优化,实现人机交互的可视化同时对数据集的迁移性进行测试,并尽量提高迁移效果。

步骤303)将预处理后的融合后的图像输入训练好的半自动标注模型,对融合后的图像标注多个预测框;

步骤4)当步骤303)中输出的预测框中存在不理想的预测框时,对不理想的预测框进行修正,包括:

将修正作为一个独立的部分,若是预测情况不理想,则修正部分开始起作用。通过计算GT框与预测框之间的偏差生成新的模拟点,从而使模型更好的检测目标。

步骤401)根据IOU的值判断是否需要修正;

对模型输出的每个预测框与GT框(目标预测区域)进行交并比计算,得到IOU的值;若IOU大于某个阈值,则默认不对此预测框进行修正处理,否则对该预测框进行处理,进入步骤402);此时阈值设为0.7,意思是交并比小于0.7的预测框都要重新处理。

步骤402)将需要修正的预测框与xml文件的坐标进行偏差计算,根据偏差重新随机生成多个模拟点,由此生成第二高斯热图heat

其中,(x,y)为图像上的点坐标,(x

步骤403)将三通道RGB图像与生成的第二高斯热图的单通道进行融合,重新输入半自动标注模型,输出标注预测框的图像,转入步骤401),直至所有的预测框交并比小于0.7。

本发明的实施例2提出了一种基于人机交互的半自动标注系统,包括:训练好的半自动标注模型、融合模块、预处理模块、标注模块和修正模块;

融合模块,用于将待标注的RGB图像与产生的第一高斯热图进行融合;

预处理模块,用于对融合图像进行预处理;

标注模块,用于将预处理后的融合图像输入训练好的半自动标注模型,对待标注RGB图像标注多个预测框;

修正模块,用于当有预测框不满足要求,则通过产生第二高斯热图对不满足要求的预测框进行修正。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种基于人机交互的半自动标注方法及系统
  • 一种基于深度学习的计算机视觉数据集半自动标注方法及系统
技术分类

06120112922463