掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多尺度的动态畸变场景下的目标定位方法

文献发布时间:2024-04-18 20:01:55


一种基于多尺度的动态畸变场景下的目标定位方法

技术领域

本发明属于计算机视觉应用技术领域,尤其涉及一种基于多尺度的动态畸变场景下的目标定位方法。

背景技术

目前,受光照条件和摄像机条件的影响,动态视频下的目标识别定位与真实场景中不同,工业级相机在物品分拣场景下,要求摄像机有较高的清晰度同时不能有图像畸变,才能完成识别,在定位环节,往往通过精密的操作台达到理想的水平及垂直条件,并以棋盘校对,才能获得目标位置。若失去高质量摄像头,在广角摄像机的视角下,能够获得更大范围的视野,但同样会导致图像的畸变,尤其是边缘部分,这就给畸变图像下的目标检测与定位带来了难度。现有技术对于畸变图像的目标定位,通常需要先对畸变图像进行极其复杂的图像还原,然后在优质图像基础之上完成任务,该类方法依赖复杂的算法,计算资源耗费较大且速度慢,部分基于深度学习的方法需要人工标注样本,受个人主观影响较大,且该类算法不能自动适用各种场景,仅在训练场景下有效,且在教学领域的动态视频及广角摄像头条件下,无法实现基于像素的目标定位。

发明内容

本发明针对动态畸变场景下的目标定位存在的技术问题,提出一种设计合理、方法简单、理论性强且能够实现基于像素的目标定位的一种基于多尺度的动态畸变场景下的目标定位方法。

为了达到上述目的,本发明采用的技术方案为:一种基于多尺度的动态畸变场景下的目标定位方法,包括如下步骤:

S1、摄像机采集当前位置下,屏幕显示黑白棋盘格照片,并进行裁剪,获取仅包含棋盘的图像记为img;

S2、将img进行二值化,有如下计算过程:

msk=cv2.threshold(img)

其中,msk为二值化后的像素矩阵;

S3、先将msk矩阵的255值替换为1,采用4维度下的棋盘,分别为1厘米方格、0.5厘米方格、0.25厘米方格、0.125厘米方格,对应生成的4个邻接矩阵,A={A

S4、将各尺度下畸变网格输入搭建的多尺度注意力网络,所述多尺度注意力网络,加入CBAM通道和空间注意力模块,提升模型在不同尺度、不同层级之间特征的融合效率,采用反卷积的方式,将网格的深层语义映射回原有尺度,获得网格矫正结果,所述多尺度注意力网络的激活函数为:

σ

其中,σ

G=Concat(S

其中,G表示融合后的结果,S

S5、获得优化后各像素坐标下的权重值后,通过预设的棋盘格真实尺寸,将有畸变的尺寸转换为对应像素下的无畸变尺寸,得出目标的真实位置坐标。

作为优选,所述步骤S4搭建的多尺度注意力网络加入了4个CBAM通道和空间注意力模块,4个反卷积。

与现有技术相比,本发明的优点和积极效果在于:

本发明采集屏幕上固定尺寸的黑白棋盘,并对图像RGB通道值进行计算,通过搭建的多尺度注意力网络,运用融合公式,实现对矩阵的各个元素的尺寸权重进行重分配,获得当前视角下像素变化趋势及其对照尺寸变化幅度,然后识别目标图像,进行等比例的尺寸转换,完成识别。所述多尺度注意力网络考虑多尺度数据融合的充分性,加入CBAM通道和空间注意力模块,提升了模型在不同尺度、不同层级之间特征的融合效率,后采用反卷积的方式,将网格的深层语义映射回原有尺度,获得畸变网格矫正后的结果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的棋盘格图;

图2为本发明实施例提供的像素矩阵图;

图3为本发明实施例提供的的多尺度注意力网络图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。

实施例,受限于广角摄像头所采集的图像畸变问题及拍摄相机与播放视频的屏幕难以保持水平与垂直问题,常规畸变矫正及目标定位算法无法完成准确的定位,常规基于黑白棋盘校对的方式要求棋盘与摄像头处在垂直角度,需专业固定设备完成,且切换间距后需重新校对,当摄像头采集的图像发生畸变时难以识别。为此,本发明提出一种基于多尺度的动态畸变场景下的目标定位方法,首先,如图1所示,摄像机采集当前位置下,屏幕显示黑白棋盘格照片,并进行裁剪,获取仅包含棋盘的图像记为img。接着将img进行二值化,有如下计算过程:

msk=cv2.threshold(img)

其中,msk为二值化后的像素矩阵。

如图2所示,理想状态下,若屏幕与摄像头保持水平且相机正对屏幕中心完成拍摄,得到的二值化结果是一个边界清晰的矩阵,即每个黑色或白色格子所产生的255像素值与0像素值长度相等,但可以看到由上述影响因素导致的均匀黑白棋盘的二值化矩阵产生了非对称值,因此接下来通过本发明算法完成对上述波动状态的采集,并反向推导出目标的真实位置坐标。

所以,先将msk矩阵的255值替换为1,采用4维度下的棋盘,分别为1厘米方格、0.5厘米方格、0.25厘米方格、0.125厘米方格,对应生成的4个邻接矩阵,A={A

σ

其中,σ

G=Concat(S

其中,G表示融合后的结果,S

最后,获得优化后各像素坐标下的权重值后,通过预设的棋盘格真实尺寸,将有畸变的尺寸转换为对应像素下的无畸变尺寸,得出目标的真实位置坐标。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

技术分类

06120116566470