掌桥专利:专业的专利平台
掌桥专利
首页

一种确定出一个图像批次高宽比的方法

文献发布时间:2024-04-18 19:58:21


一种确定出一个图像批次高宽比的方法

技术领域

本发明属于计算机图像处理领域,尤其涉及一种确定出一个图像批次高宽比的方法。

背景技术

在深度学习时,通常使用加速器(加速器由硬件和与之配套的软件构成,例如GPU套件或TPU套件)来加速运算,在处理图像相关的任务时,通常将多个图像数据组成一个批次一次输入到加速器中处理,其效率高于多次执行单个图像数据处理。在图像有关的应用场景中,一个批次的数据集可能包含各种不同分辨率和高宽比的图像,也可能包含具有不同尺寸的图像,加速器要求输入批次中的图像具有统一尺寸,因此需要对批次中的图像根据需要进行缩放和/或填充到同样大小的尺寸。为充分利用算力资源,批次中图像像素所占的比例应该尽量大,填充区域的比例应该最小。因此,如何选择合适的缩放后批次分辨率是一个值得研究的问题。

当前在深度学习系统中,普遍采样的方法是基线方法,简记为baseline,先设置一个最大尺寸MaxSize,如令MaxSize=640像素,对批次内的每个图像,将其宽度和高度中较大的维度缩放到该最大尺寸,缩放维持高宽比不变,则较小的维度必然小于最大尺寸,最后统计所有缩放后图像的最大宽度和高度,作为批次的输入维度。

为了提高处理数据的效率,缩放后的图像尽量“紧实”,即图像内容的平均占比尽量高,填充部分的占比尽量小,这就需要确定出一个图像批次尽可能好的高宽比。现有显然基线方法并不符合上述原则,举例来说,若一个批次中大部分图像都是高度大于宽度,仅有一幅图像宽度大于高度,则最终高宽比就为1:1,造成大部分图像需要较多的填充,浪费的算力资源较多。

综上,现有的一个图像批次高宽比计算的方法存在会浪费算力资源较多的缺陷。

发明内容

本发明的目的在于,提供一种确定出一个图像批次高宽比的方法。本发明具有可以减少算力资源浪费的优点。

本发明的技术方案:一种确定出一个图像批次高宽比的方法,将一个图像批次的分辨率记为(h,w),一个图像批次高宽比记为P,P=h/w;

获取一个批次内每张图像的分别率,第i张图像的分辨率记为(Hi,Wi),第i张图像的高宽比为Ri,Ri=Hi/Wi;

根据如下公式确定出p值:

前述的确定出一个图像批次高宽比的方法中,上述公式一的求解方法,包括以下步骤,

a、对将一个图像批次中的所有图像的Ri值从小到大极性排序,得到数列R

b、将一个批次内的所有图像缩放后的平均图像占比记为y(p),设最优p值位于R

c、对公式二进行一阶求导,得公式三,

d、二阶求导,得公式四,

e、二阶导数恒为正,说明在区间(R

f、根据公式五和公式二可以得公式一:

与现有技术相比,本发明给出了得到最佳p值,即最佳高宽比的计算公式,按照公式得到的p值下,批次中图像像素所占的比例实现了最大化,相应的填充区域的比例实现了最小化,避免了算力资源的浪费。因此,本发明具有可以减少算力资源浪费的优点。

附图说明

图1是实施例1中y(p)函数的多峰示意图。

图2是实施例1中y(p)函数的单峰示意图。

图3是实验与对比2中按照现有方法确定p值后对各个图像缩放填充的示意图。

图4是实验与对比2中按照本发明确定p值后对各个图像缩放填充的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。

实施例1(最佳实施例)。分析:设一个批次中包含N个图像{I

令批次的高宽比为P,P=h/w;令第i个图像的高宽比为R

一个批次内的所有图像缩放后的平均图像占比y(p)为:

则,目标为最大化平均图像占比y(p)对应的p值为:

其中,R为P的理论值域的实数域。

具体求解过程如下:

首先,对图像根据R

设最优p值落在R

公式二进行一阶求导求一阶导数,得公式三:

二阶求导,得公式四:

如图1和图2所示为y(p)的曲线,其中,all–y(p)在所有p点的曲线,vertex-y(p)在依次图像高宽比各点的曲线,max-y(p)的最大值位置。

二阶导数恒为正,说明在区间(R

根据公式五和公式二可以得公式一:

在上述条件下获取到的一个图像批次高宽比的P值,即可最大化的减少批次图像的填充量,减少算力资源浪费。从而得出一种确定出一个图像批次较好高宽比的方法。实施例1的方法简称为ours。

实施例2。R

实施例3。在最小Ri和最大Ri之间等步长搜索极值,分段数为2N,确定出p值。实施例3的方法简称linear。

对比1。

使用深度学习目标检测模型训练常用的COCO2017训练数据集的所有118287幅图像,按照常规的流程,每轮训练时对图像进行随机排列。分别按照现有baseline、middle、linear和ours确定出p值,并计算y(p)。得到表1结果。

表1

从表1中可以看出,ours的y(p)数值最大,可最大化的减少批次图像的填充量,减少算力资源浪费。

对比2。现有一个批次共三种图像,第一张图像高度1、宽度0.6,第二张图像高度1、宽度0.7,第三张图像高度0.6、宽度1,数值单位相同。

按照现有方法(即baseline)计算后,确定出的p值明显为1,缩放填充后的效果如图3所示,灰色为图像区域,白色为填充区域,平均利用率只有0.63。

按照本发明的方法确定出p值后,缩放填充的效果如图4所示,平均利用率为0.85,y(p)值显著增加。

相关技术
  • 一种确定人眼图像中瞳孔图像边缘点的方法及装置
  • 一种图像噪声确定方法及终端设备
  • 一种基于双目图像确定视差图的方法及装置
  • 在图像中确定可能代表个体的至少一个手指的至少一个区域的方法
  • 比较图像特别是虹膜识别的方法以及实现通过应用统计学习模型确定的至少一个质量测度的方法
技术分类

06120116485823