掌桥专利:专业的专利平台
掌桥专利
首页

一种倾斜矩形范围框标注方式

文献发布时间:2023-06-19 11:39:06



技术领域

本发明涉及到计算机视觉中的目标检测和跟踪算法,特别是基于监督学习的目标检测和跟踪算法,属于目标检测和跟踪算法中范围框标注方式的一种。该矩形范围框标注方式可以用于目标检测和跟踪算法的范围框输出、锚点框设置、样本标注。

背景技术

目标检测和跟踪算法具有巨大的价值,一直以来都是热门研究领域。现阶段绝大多数目标检测算法只能支持边平行于图像像素行和列的矩形范围框(后文中称之为正框),其记录的是中心点坐标、宽、高。对于倾斜范围框(后文称之为斜框),目前也有多种标注方式。第一种,记录中心点坐标、宽、高、旋转角,这是非常常见的标注方式。第二种,记录中心点到四边的距离以及旋转角,参考论文《EAST:An Efficient and Accurate Scene TextDetector》。第三种,记录四个顶点坐标,也很常见,优势是可以表示任意四边形,如果用来表示矩形会有三个冗余量。第四种,按顺时针顺序记录矩形四个顶点中的前两个和第二个顶点到第三个顶点的距离,参考论文《R2CNN:Rotational Region CNN for OrientationRobust Scene Text Detection》。第五种,记录斜框的外接正框以及斜框四个顶点与正框四个顶点顺时针方向的偏移量,参考论文《Gliding vertex on the horizontal boundingbox for multi-oriented object detection》。

背景技术的问题

对于正框,缺陷是显而易见的。对于宽高比大、密集排列、朝向任意的目标,该种标注方式会导致交并比(IOU)不能反映真实的情况。尤其是航空影像、卫星影像上容易出现宽高比大、密集排列、朝向任意的目标,比如停车场里的大汽车,港口里停靠的轮船。

对于斜框的第一种标注方式,如果交换w和h的值,再将θ加上或者减去2kπ+π/2,就能够表示同一个范围框。由于同一个范围框有多种不同的数值表示方式,会导致近似范围框之间的数值差异有大大小小多种情况。如果近似范围框之间的数值差异大,对于基于监督分类的方法来说,就是损失函数的取值异常,不利于模型训练。关于该缺陷的更详细情况可以参考论文《SCRDet:Towards More Robust Detection for Small,Cluttered andRotated Objects》。斜框的第二种和第一种本质是一样的,宽高的一半就是中心点离四边的距离,他们有相同的缺陷。

对于斜框的第三种标注方式,也会出现同一个范围框有多种数值表示的情况。避免损失异常的现行方式是按照坐标值排序顶点,然后计算对应顶点之间的差异,详情可以参考论文《DOTA:A Large-scale Dataset for Object Detection in Aerial Images》。这种处理方式也是有问题的,对坐标值排序会改变数值维度间的对应关系,也就是说,在某次损失计算过程中预测向量的第一维对应真值向量的第二维,在另外一次损失计算过程中第一维可能对应第三维。这种对应关系的随机性同样不利于模型训练。斜框的第四种标注方式就是将第三种标注方式表示矩形框时的冗余量去除后的结果,同样会出现同一个范围框有多种数值表示的情况。

第五种斜框标注方式的目的是为了先预测正框再进一步预测真实的斜框,在预测正框时将正锚点框向斜框的外接正框回归。但是要想斜框预测得准确,正框也得预测准确,增加了预测目标数量,也就增加了预测(回归)难度,同样不利于模型训练。

发明内容

为了避免背景技术中的问题,本发明提供了一种倾斜矩形范围框标注方式,其用于标注的量是“中心点C的坐标、中心点到任意一个顶点D的向量

为了减少同一个范围框对应的数值表示,要求ρ的取值范围为[0,1),也就是

由于同一个范围框仍有两种数值表示,需要采用某种手段避免损失异常,也就说让模型的预测结果与这两种数组表示之间求得一样的损失值。因为这两种表示之间仅有向量

参考附图2,

更进一步,由于同一个范围框的两种表示之间仅有向量

既然数值表示减少到了一个,损失的计算也会更加方便。当从特征向量直接预测一个目标框时,x

当用特征向量预测锚点框到目标框的回归参数时,可以直接人为规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归。那么就不用计算s的损失。

如果是正框,显然向量

要获得范围框四个顶点的坐标,可以通过求解以下方程组的方式实现。方程组中的

方程组中的第一个式子表示向量

附图说明

图1是标注方式的示意图;

图2是计算

图1中X表示表示图像行方向上的坐标轴,Y表示图像列方向上的坐标轴,C表示范围框的中心点,D、E为范围框的某两个顶点,P为

图2中

有益效果

本发明提供的倾斜矩形范围框标注方式解决了背景技术的问题,对于模型训练有重大积极意义。本发明提供了同一个范围框仅有两种数值表示的标注方式,且这两种数值表示中仅有(u,v)互为相反数,其它数值都相等。再引入一个量s表示

具体实施方式

下面是本发明的实施例。本发明不局限于下面的优选实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或者相近似的技术方案,均属于本发明的保护范围。

【实施例1】

对样本图像进行标注时对其中x

【实施例2】

规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归,从锚点框到目标框的回归参数可以用如下公式定义。

t

其中

相关技术
  • 一种改进的倾斜矩形范围框标注方式
  • 一种改进的倾斜矩形范围框标注方式
技术分类

06120113002711