掌桥专利:专业的专利平台
掌桥专利
首页

全景图片的检测方法、装置、终端及存储介质

文献发布时间:2023-06-19 10:19:37


全景图片的检测方法、装置、终端及存储介质

技术领域

本申请涉及图像处理技术领域,特别是涉及一种全景图片的检测方法、装置、终端及存储介质。

背景技术

全景照片,(Panoramic photo,或者Panorama)通常是指符合人的双眼正常有效视角(大约水平90度,垂直70度)或包括双眼余光视角(大约水平180度,垂直90度)以上,乃至360度完整场景范围拍摄的照片。全景图片的用途十分广泛,除了可以在展览馆做虚拟现实展示,景区展览以外,更多的是使用在街景服务中。谷歌地图早在2007年就正式推出街景服务,国内的主要地图服务提供商,如腾讯,百度等相关产品也上线了街景服务。全景图像一般使用专业的VR全景相机拍摄,拍摄后生成的图片采用特殊的投影方式保存。等距柱状投影是目前应用最为广泛的一种360°全景投影方式,其将子午线映射为等间距的垂直直线,将纬线映射为等间距的水平直线,这种格式比较直观,并且投影是矩形的。但这种投影既不是等面积也不是保形的。因此在两个极点的位置会产生极大的形变。因需要对人脸、车牌等隐私信息进行打码保护和标注著名景点及景区内介绍等,无论是街景全景图片还是VR全景图片的目标检测都是十分重要的任务。然而因为投影格式的原因,处于两级的物体的待检测物体因其一个像素被拉长而会有很大的形变,这样的形变严重影响了检测的性能。现有方案,如改变卷积核形状等需要对目标检测网络进行修改,操作复杂,工程量大,且有无法使用现有的目标检测框架,性能不佳。

发明内容

本申请提供一种全景图片的检测方法、装置、终端及存储介质,以解决现有全景图片检测中,处于两级的物体因形变过大而导致检测不准确的问题。

为解决上述技术问题,本申请采用的一个技术方案是:提供一种全景图片的检测方法,包括:将获取到的等距柱状投影全景图片划分为多张并排的球极平面投影图片;将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框信息;基于检测框信息对检测框进行坐标投影变换,以将检测框标注至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片。

作为本申请的进一步改进,将获取到的等距柱状投影全景图片划分为多张并排的球极平面投影图片,包括:将等距柱状投影全景图片划分为四张并排的球极平面投影图片,每张球极平面投影图片的水平和垂直跨度均为180°,相邻球极平面投影图片水平重叠90°的区域。

作为本申请的进一步改进,将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框信息,包括:将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框,以及检测框的检测类别和致信分数;确定相邻球极平面投影图片的同一检测类别对应的一个或多个检测框。

作为本申请的进一步改进,基于检测框信息对检测框进行坐标投影变换,以将检测框标注至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片,包括:当检测类别对应一个检测框时,将检测框作为检测类别的目标检测框;当检测类别对应多个检测框时,根据致信分数计算每个检测框的检测框分数,并选取检测框分数最高的检测框作为检测类别的目标检测框;获取目标检测框的中心点坐标并进行坐标投影变换,以将目标检测框投影至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片。

作为本申请的进一步改进,根据致信分数计算每个检测框的检测框分数,包括:确认不同的球极平面投影图片上,检测类别相同的多个待定检测框;获取目标球极平面投影图片的第一中心坐标和处于目标球极平面投影图片上的第一待定检测框的第二中心坐标,并计算第一中心坐标和第二中心坐标之间的欧氏距离;随机选取其他球极平面投影图片上与第一待定检测框检测类别相同的第二待定检测框;计算第一待定检测框和第二待定检测框的交并比;根据第一待定检测框的致信分数、欧氏距离、交并比,计算得到第一待定检测框的检测框分数。

作为本申请的进一步改进,检测框分数的计算公式为:

其中,s′

作为本申请的进一步改进,还包括预先训练检测网络,预先训练检测网络的步骤,包括:基于AutoML建立初始的检测网络;获取训练样本,并利用训练样本训练初始的检测网络,直至满足预先训练指标时,得到训练好的检测网络。

为解决上述技术问题,本申请采用的另一个技术方案是:提供一种全景图片的检测装置,包括:划分模块,用于将获取到的等距柱状投影全景图片划分为多张并排的球极平面投影图片;检测模块,用于将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框信息;投影模块,用于基于检测框信息对检测框进行坐标投影变换,以将检测框标注至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片。

为解决上述技术问题,本申请采用的再一个技术方案是:提供一种终端,终端包括处理器、与处理器耦接的存储器,存储器中存储有程序指令,程序指令被处理器执行时,使得处理器执行上述中任一项的全景图片的检测方法的步骤。

为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述中任一项的全景图片的检测方法的程序文件。

本申请的有益效果是:本申请的全景图片的检测方法通过将等距柱状投影全景图片划分为多张并排的球极平面投影图片,然后将每张球极平面投影图片输入至预先训练好的检测网络中进行检测,得到每张球极平面投影图片检测框信息,再根据检测框信息将每张球极平面投影图片检测框投影至等距柱状投影全景图片上,生成带有检测框的等距柱状投影全景图片,完成对等距柱状投影全景图片的图片检测,其采用将等距柱状投影全景图片分割为多张子投影图片来降低图片上在两级处的物体产生的形变,从而提高了检测的准确度和性能。

附图说明

图1是本申请第一实施例的全景图片的检测方法的流程示意图;

图2是本申请第二实施例的全景图片的检测方法的流程示意图;

图3是本申请实施例的全景图片的检测装置的功能模块示意图;

图4是本申请实施例的终端的结构示意图;

图5是本申请实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

图1是本申请第一实施例的全景图片的检测方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:

步骤S101:将获取到的等距柱状投影全景图片划分为多张并排的球极平面投影图片。

需要说明的是,全景投影有多种方式可以实现,通常可以划分为以下四种:

1、球面投影,也称之为球面矩形投影或等距柱状投影。这是打开环绕球体最常用的方法,也是目前全景软件普通支持的投影方式。经过投影处理后的全景图像是一副2:1比例的图片,就像一幅世界地图,赤道就是穿越图像中间的水平线,且只有这一条线上的影响是保持水平的,其他都有不同程度的扭曲变形。越接近两级,变形就越严重,而两级的上下的两个端点,就成为一条像素线。就像我们看到的全景图片一样,横向水平的建筑线条、马路等都是弯曲的,建筑物的垂直线条、电线杆、笔直的树木等不会变形。

2、立方体面投影,能够实现环绕视觉的不仅是球形,也可以是立方体。在一个六面正方体里,如果我们的视点处在他的正中央,那么只需要对每个视角进行适当的图像补偿,就能达到与球面投影一样的环视效果。这种投影方式的优点是,投影的图片是立方体面的图片,每一个立方体面的图片都是水平视角90°、垂直视角90°的正方形图。立方体图的每个面的像素密度和质量是一致的,在图像后期处理时,可以对立方体面的图片进行精细的调整和修改。

3、圆形投影,或称镜面球投影,为角投影的一种。这样的投影图像看起来像一个用超级圆形鱼眼镜头所拍摄的图片,图像被极端扭曲和变形,其视角达360°,包括了三维空间的所有影像。这种投影的优点在于,它是一个连续的、没有接缝的图像。但由于图像所有线条都被极端扭曲,在后期处理时几乎不可能对图形进行正确的修改和调整。

4、小行星投影,在投影方法上与圆形投影相同,不同于在图像的二维表现效果和图片形制的区别,并可以根据需要进行适当的剪裁处理。

本实施例中,针对于的投影方式是球面投影,其中,对于等距柱状投影全景图片,其长代表圆周,即360°,宽为半个圆周,即180°。在获取到待投影的等距柱状投影全景图片之后,将该等距柱状投影全景图片在水平方向上划分为多张并排的球极平面投影图片。具体地,球极平面投影图片的生成如下:

等距柱状投影全景图片为一球面,假设在该球面上,投影平面为球面与z=0的切平面,则在球面上的点(x,y,z)在平面上的二维坐标为

步骤S102:将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框信息。

本实施例中,需要说明的是,在进行等距柱状投影全景图片的检测之前,需要先训练检测网络,然后使用该训练好的检测网络检测球极平面投影图片。具体地,预选训练检测网络的步骤包括:

1、基于AutoML建立初始的检测网络。

需要说明的是,AutoML是指自动机器学习,是将机器学习应用于现实问题的端到端流程自动化的过程。传统机器学习模型大致可分为以下四个部分:数据采集、数据预处理、优化、应用;而AutoML则是从特征工程、模型选择、超参优化三方面实现自动化。其中,特征工程是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的准确性,特征工程通常包括三个工作:特征生成、特征选择、特征编码等;模型选择是指模型的自动化选择,传统的方法是从传统的模型,例如KNN,SVM,决策树中选出一个,或多个组合起来效果最好的模型,也就是不经过人工干预,模型自动生成一个对当前任务最有效的网络结构;超参数是机器学习在学习之前预先设置好的参数,而非通过训练得到的参数,例如树的数量深度,神经网络的学习率等,甚至在超参学习中神经网络的结构,包括层数,不同层的类型,层之间的连接方式等,都属于超参数的范畴,超参优化即优化超参数的过程。

手动修改调参既耗费大量的人力和时间,同时也难以寻找优化的方向,而对超参数选择进行优化既能节省大量人力和时间,又能让学习获得更好的性能和效果

2、获取训练样本,并利用训练样本训练初始的检测网络,直至满足预先训练指标时,得到训练好的检测网络。

具体地,本实施例中,该检测网络基于AutoML进行构建,在训练该检测网络时,通过对检测网络中网络的特征提取层连接部分进行搜索尝试,即在搜索空间中尝试所有可能的组合,再选择mAP最高的组合,得到优化后的检测网络。

步骤S103:基于检测框信息对检测框进行坐标投影变换,以将检测框标注至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片。

在步骤S103中,通过将多张球极平面投影图片输入至预先训练好的检测网络,从而获得每张球极平面投影图片上的检测框,记录检测框的中心点坐标,再将该检测框得人中心点坐标紧张坐标变换,从而得到检测框在等距柱状投影全景图片的三维坐标系的三维坐标,其中,坐标变换公式如下:

其中,(x,y,z)检测框中心点坐标进行坐标变换后的三维坐标,(X,Y)为检测框中心点在球极平面投影图片上的二维坐标。此外,在步骤S102中,检测网络检测球极平面投影图片时,还获取到检测框的长宽信息,在将检测框检测框标注至等距柱状投影全景图片上时,根据该三维坐标(x,y,z)和检测框的长宽信息进行标注,从而得到带有检测框的等距柱状投影全景图片,完成对等距柱状投影全景图片上物体的检测。

本申请第一实施例的全景图片的检测方法通过将等距柱状投影全景图片划分为多张并排的球极平面投影图片,然后将每张球极平面投影图片输入值预先训练好的检测网络中进行检测,得到检测框信息,再基于检测框信息构建带有检测框的360°全景图片,其将等距柱状投影全景图片分割为多张子投影图片来降低图片上的物体在极点处的产生的形变,从而提高了检测的准确度和性能,使得生成的全景图片的可观赏性更高。

图2是本申请第二实施例的全景图片的检测方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图2所示的流程顺序为限。如图2所示,该方法包括步骤:

步骤S201:将等距柱状投影全景图片划分为四张并排的球极平面投影图片,每张球极平面投影图片的水平和垂直跨度均为180°,相邻球极平面投影图片水平重叠90°的区域。

在步骤S201中,划分等距柱状投影全景图片时,将该等距柱状投影全景图片在水平方向上划分为四张并排的球极平面投影图片,每张球极平面投影图片的水平和垂直跨度均为180°,从而使得相邻球极平面投影图片在水平方向上重叠90°的区域,从而使得处于球极平面投影图片边缘的物体被分割成两半,降低检测难度。

步骤S202:将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框,以及检测框的检测类别和致信分数。

在步骤S202中,需要说明的是,在使用检测网络检测每张球极平面投影图片上的物体得到检测框时,在同一张球极平面投影图片上,同一物体可能会产生多个检测框,因此,在检测过程中,还需通过采用非极大值抑制方法来筛选检测框,直至剩下该物体对应的最优检测框,在检测过程中,还需获取到检测框内物体的类别即检测类别,以及检测框的致信分数。其中,致信分数的计算属于现有的公知技术,此处不再赘述。

步骤S203:确定相邻球极平面投影图片的同一检测类别对应的一个或多个检测框。当检测类别对应一个检测框时,执行步骤S204;当检测类别对应多个检测框时,执行步骤S205。

在步骤S203中,需要理解的是,针对于相邻的球极平面投影图片,相邻球极平面投影图片水平重叠90°的区域,因此,在将相邻的球极平面投影图片分别输入至预先训练好的检测网络之后,重叠区域的物体在两张球极平面投影图片上可能均会被检测到,导致同一个物体对应多个检测框,即同一检测类别对应有多个检测框。

步骤S204:将检测框作为检测类别的目标检测框。

在步骤是204中,当检测类别对应仅一个检测框时,直接将该检测框作为检测类别的目标检测框。

步骤S205:根据致信分数计算每个检测框的检测框分数,并选取检测框分数最高的检测框作为检测类别的目标检测框。

在步骤S205中,当检测类别对应多个检测框时,根据每个检测框对应的致信分数计算每个检测框的检测框分数,再将检测框分数最高的检测框作为该检测类别的目标检测框。

具体的,步骤S205中,所述根据致信分数计算每个检测框的检测框分数,包括:

1、确认不同的球极平面投影图片上,检测类别相同的多个待定检测框。

2、获取目标球极平面投影图片的第一中心坐标和处于目标球极平面投影图片上的第一待定检测框的第二中心坐标,并计算第一中心坐标和第二中心坐标之间的欧氏距离。

具体地,以当前的球极平面投影图片作为目标球极平面投影图片,获取该目标球极平面投影图片的中心点坐标作为第一中心点坐标,并且,获取该目标球极平面投影图片上的第一待定检测框的第二中心坐标,利用第一中心坐标和第二中心坐标计算两者之间的欧式距离。

3、随机选取其他球极平面投影图片上与第一待定检测框检测类别相同的第二待定检测框。

具体地,在与目标球极平面投影图片相邻的一个球极平面投影图片上,选取与第一待定检测框检测类别相同的第二待定检测框。

4、计算第一待定检测框和第二待定检测框的交并比。

具体地,交并比是指两个矩形框交集与并集的比值。

5、根据第一待定检测框的致信分数、欧氏距离、交并比,计算得到第一待定检测框的检测框分数。

具体地,该检测框分数的计算公式为:

其中,s′

步骤S206:获取目标检测框的中心点坐标并进行坐标投影变换,以将目标检测框投影至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片。

在步骤S206中,在确认每个检测类别对应的目标检测框之后,获取该目标检测框的中心点坐标,并对该中心点坐标进行坐标投影变换,将其转换为三维坐标,然后将该目标检测框投影至等距柱状投影全景图片,依次循环,直至将所有目标检测框投影至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片,完成对等距柱状投影全景图片上物体的检测。

本申请第二实施例的全景图片的检测方法在第一实施例的基础上,通过将等距柱状投影全景图片划分为四张并排的球极平面投影图片,相邻的球极平面投影图片之间存在重叠区域,从而避免有物体处于投影图片的边缘而被分割成两半,导致难以检测,并且,针对于重叠区域多生成的检测框,通过计算检测框分数,选取分数最高的检测框作为目标检测框,使得检测框的选择更为准确,进一步提高了检测的准确度。

图3是本申请实施例的全景图片的检测装置的功能模块示意图。如图3所示,该全景图片的检测装置30包括划分模块31、检测模块32和投影模块33。

划分模块31,用于将获取到的等距柱状投影全景图片划分为多张并排的球极平面投影图片。

检测模块32,用于将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框信息。

投影模块33,用于基于检测框信息对检测框进行坐标投影变换,以将检测框标注至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片。

可选地,划分模块31将获取到的等距柱状投影全景图片划分为多张并排的球极平面投影图片的操作可以为:将等距柱状投影全景图片划分为四张并排的球极平面投影图片,每张球极平面投影图片的水平和垂直跨度均为180°,相邻球极平面投影图片水平重叠90°的区域。

可选地,检测模块32将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框信息的操作还可以为:将多张球极平面投影图片输入至预先训练好的检测网络,得到每张球极平面投影图片的检测框,以及检测框的检测类别和致信分数;确定相邻球极平面投影图片的同一检测类别对应的一个或多个检测框。

可选地,投影模块33基于检测框信息对检测框进行坐标投影变换,以将检测框标注至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片的操作还可以为:当检测类别对应一个检测框时,将检测框作为检测类别的目标检测框;当检测类别对应多个检测框时,根据致信分数计算每个检测框的检测框分数,并选取检测框分数最高的检测框作为检测类别的目标检测框;获取目标检测框的中心点坐标并进行坐标投影变换,以将目标检测框投影至等距柱状投影全景图片上,得到带有检测框的等距柱状投影全景图片。

可选地,投影模块33根据致信分数计算每个检测框的检测框分数的操作还可以为:确认不同的球极平面投影图片上,检测类别相同的多个待定检测框;获取目标球极平面投影图片的第一中心坐标和处于目标球极平面投影图片上的第一待定检测框的第二中心坐标,并计算第一中心坐标和第二中心坐标之间的欧氏距离;随机选取其他球极平面投影图片上与第一待定检测框检测类别相同的第二待定检测框;计算第一待定检测框和第二待定检测框的交并比;根据第一待定检测框的致信分数、欧氏距离、交并比,计算得到第一待定检测框的检测框分数。

可选地,检测框分数的计算公式为:

其中,s′

可选地,该全景图片的检测装置20还包括训练模块,用于预先训练检测网络,训练模块预先训练检测网络的操作可以为:基于AutoML建立初始的检测网络;获取训练样本,并利用训练样本训练初始的检测网络,直至满足预先训练指标时,得到训练好的检测网络。

关于上述实施例全景图片的检测装置中各模块实现技术方案的其他细节,可参见上述实施例中的全景图片的检测方法中的描述,此处不再赘述。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可

请参阅图4,图4为本申请实施例的终端的结构示意图。如图4所示,该终端40包括处理器41及和处理器41耦接的存储器42。

存储器42存储有程序指令,程序指令被处理器41执行时,使得处理器41执行上述实施例中的全景图片的检测方法的步骤。

其中,处理器41还可以称为CPU(Central Processing Unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图5,图5为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件51,其中,该程序文件51可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 全景图片的检测方法、装置、终端及存储介质
  • 三维全景图片显示方法、装置、移动终端及存储介质
技术分类

06120112501326