掌桥专利:专业的专利平台
掌桥专利
首页

一种基于RGB和红外图像的3D信息感知方法和系统

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及视觉感知技术领域,尤其是涉及一种基于RGB和红外图像的3D信息感知方法和系统。

背景技术

目标检测是计算机视觉的基础问题,随着近些年计算机视觉的快速发展,许多优秀的目标检测算法被提出,常规工况下的目标检测算法性能已比较突出,但非常规工况如强光照和低光照工况、目标和背景区分度较小的工况等,当前的目标检测算法在准确度上还存在较大局限性。

RGB相机具有图像语义信息丰富、价格低廉等优点,在无人驾驶和机器人等领域中广泛应用,但缺点是易受外界环境的影响,尤其是光照变化,且RGB图像缺少深度信息。红外相机对光照、颜色等不敏感,具有夜视的优点,能有效区分强光照或低光照下的不同物体,但缺点是红外图像纹理信息不够丰富,影响目标检测性能,且缺少深度信息。激光雷达能够提供准确的深度信息,但语义信息不够丰富,且目前成本昂贵,难以在量产车上普及。

3D信息感知方法在实践中具有广泛的用途,可以应用在自动驾驶、智能监控、无人机、智能农业设备、工业机器人等诸多领域。计算机视觉中目标3D信息主要包括中心坐标、空间尺寸、方向角、类别等。与2D信息感知相比,3D信息感知的场景表示能力更强。虽然RGB相机、红外相机都有各自的优点,但其各自的局限性导致单独使用无法较好地完成复杂非常规工况下的3D信息感知。而激光雷达虽然能够提供准确的深度信息,但其成本昂贵,工程实践中难以普及,无法低成本地完成复杂非常规工况下的3D信息感知。

发明内容

本发明的目的是为了克服上述现有技术存在的缺陷而提供一种基于RGB和红外图像的3D信息感知方法和系统,该发明能够更好地处理强光照、低光照、目标与背景区分度小等非常规工况下目标的3D信息感知,且成本相对较低。

本发明的目的可以通过以下技术方案来实现:

根据本发明的一个方面,提供一种基于RGB和红外图像的3D信息感知方法,包括以下步骤:

S1:对RGB相机和红外相机进行双目标定,获取两个相机的内外参及单应矩阵;

S2:通过RGB相机和红外相机分别获取包含目标的原始RGB图像和原始红外图像,并通过S1获取的内外参和单应矩阵矫正原始图像进行图像矫正使得两个原始图像平行共面;

S3:基于矫正后的RGB图像和红外图像通过视差网络获取双目RGB深度图和双目红外深度图;

S4:通过深度估计网络对矫正后的红外图像进行单目深度估计得到单目红外深度图;

S5:对矫正后的RGB图像进行光照估计,获取相应的图像亮度,并对图像亮度进行光照判断,基于光照判断结果对双目RGB深度图、双目红外深度图和单目红外深度图进行加权得到最终的深度图;

S6:将S5获取的深度图映射到三维空间获取伪点云,将伪点云输入点云网络获取目标的3D信息。

优选地,所述S3具体包括以下步骤:

S3.1:分别从矫正后的RGB图像和红外图像提取图像特征;

S3.2:对从两个矫正后的图像中提取的图像特征进行拼接,并考虑目标周围的实际场景计算代价量;

S3.3:通过3D卷积和反卷积对S3.2获取的代价量进行聚合,获取总代价量;

S3.4:基于总代价量,在视差维度上估计视差值,再通过视差与深度的关系分别获取双目RGB深度图和双目红外深度图。

优选地,所述S3.4中基于总代价量,利用soft argmin操作在视差维度上估计视差值,所述soft argmin操作的公式为:

式中,c

优选地,所述S4中采用的深度估计网络为基于多尺度离散卷积条件随机场的深度估计网络。

优选地,所述S5具体包括以下步骤:

S5.1:对矫正后的RGB图像进行光照估计,即获取图像的初始亮度,再根据优化公式优化图像的初始亮度,求解优化公式,获取图像亮度;

S5.2:对所述图像亮度中的所有元素进行求和取平均,再与设定的阈值相比,进而分别获取双目RGB深度图、双目红外深度图和S4获取的单目红外深度图的权重系数;

S5.3:根据权重系数对双目RGB深度图、双目红外深度图和S4获取的单目红外深度图进行加权,获取最终的深度图。

优选地,所述优化公式具体为:

式中,T(x)为图像亮度,L(x)为图像的初始亮度,λ为系数,∈为一个为避免分母为0的无穷小量,M

优选地,所述优化公式通过求解线性方程获取,所述线性方程具体为:

式中,m

优选地,所述S6具体包括以下步骤:

S6.1:将深度图映射到三维空间获取伪点云,通过3D网络从伪点云中提取鸟瞰视角的特征图;

S6.2:通过热力图输出头和数值回归输出头从S6.1获取的特征图中获取表征目标中心位置的热力图、目标尺寸和目标方向,进而获取目标检测框;

S6.3:根据S6.1获取的特征图和S6.2获取的目标检测框,提取目标检测框四周面的中心点在特征图上的点特征;

S6.4:将S6.3获取的点特征通过全连接层获取目标检测框的置信度和精修结果,获取更准确的目标3D信息。

优选地,所述3D网络采用网络模型VoxelNet的主干网络。

根据本发明的另一个方面,提供一种实现如上任一所述的基于RGB和红外图像的3D信息感知方法的3D信息感知系统,所述3D信息感知系统安装于车顶内侧,包括:智能控制器、电源、相机固定装置以及通过所述相机固定装置安装于所述车顶内侧的RGB相机和红外相机,所述RGB相机和所述红外相机均连接所述智能控制器的一端,所述智能控制器的另一端连接所述电源。

与现有技术相比,本发明具有以下优点:

1、本发明通过获取平行共面的RGB图像和红外图像,并对RGB图像和红外图像进行图像特征提取和拼接,进而实现RGB图像和红外图像的多模态语义融合,充分利用RGB图像和红外图像的优点,解决强光照、低光照、目标与背景区分度小等非常规工况下的信息感知问题,提高了目标检测的场景适用性和算法的鲁棒性。

2、本发明分别获取双目RGB深度图、双目红外深度图和单目红外深度图,并将它们进行加权得到最终的深度图,再将该深度图映射到三维空间获取伪点云,基于伪点云进行目标3D信息感知,使得本发明能够以相对低的成本获取更准确的目标3D信息。

附图说明

图1为本实施例提供的一种基于RGB和红外图像的3D信息感知方法的流程示意图;

图2为图1所示实施例的视差网络的结构示意图;

图3为图1所示实施例的点云网络的结构示意图;

图4为实现如图1所示实施例的系统的组成示意图;

图5为实现如图1所示实施例的系统的结构侧视示意图;

图6为实现如图1所示实施例的系统的结构正视示意图;

图中标记为:1、RGB相机,2、红外相机,3、相机固定装置,4、电源,5、智能控制器,6、车顶和7、汽车前挡风玻璃。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

本实施例提供一种基于RGB和红外图像的3D信息感知方法,可以应用在自动驾驶、智能监控、无人机、智能农业设备、工业机器人等诸多领域,本实施例以应用在自动驾驶领域为例,包括以下步骤:

S1:对RGB相机和红外相机进行双目标定,获取两个相机的内外参及单应矩阵;

S2:通过RGB相机和红外相机分别获取包含目标的原始RGB图像和原始红外图像,并通过S1获取的内外参和单应矩阵矫正原始图像进行图像矫正使得两个原始图像平行共面;

具体地,此步骤中的目标可以是两个相机拍照范围内的车、行人或自行车等。

具体地,采用双目标定得到的内外参和单应矩阵矫正原始图像,使两个原始图像平行共面的目的是便于后续视差网络的进一步处理。

S3:基于矫正后的RGB图像和红外图像通过视差网络获取双目RGB深度图和双目红外深度图;

S3.1:分别从矫正后的RGB图像和红外图像提取图像特征;

具体地,通过Faster RCNN网络从图像中提取颜色、纹理、形状轮廓等物体的信息。

S3.2:对从两个矫正后的图像中提取的图像特征进行拼接并考虑目标周围的实际场景计算代价量;

具体地,目标周围的实际场景包括背景和图像上的其它目标。

S3.3:通过3D卷积和反卷积对S3.2获取的代价量进行聚合,获取总代价量;

S3.4:基于总代价量,利用soft argmin操作在视差维度上估计视差值,再通过视差与深度的关系分别获取双目RGB深度图和双目红外深度图。

soft argmin操作的具体公式为:

式中,c

视差与深度的关系为:

式中,Z为深度值,d为视差值,f为焦距,RGB相机和红外相机的焦距需保持相同,T为基线长(即RGB相机和红外相机透镜光心之间的距离)。

具体地,参考图2所示,视差网络结构借鉴了GCNet的主干网络,本实施例的视差网络中的2D卷积部分不共享权重,该部分最后获取双目RGB深度图和双目红外深度图。

对于该部分网络的训练,首先在Scene Flow和KITTI数据集上对主干网络GCNet进行预训练,在NUSTMS数据集上对基于多尺度离散卷积条件随机场的深度估计网络进行预训练。在CVC-14数据集上对该视差网络进行训练,损失函数为:

式中,N为像素数,d

S4:通过基于多尺度离散卷积条件随机场的深度估计网络对矫正后的红外图像进行单目深度估计得到单目红外深度图;

S5:对矫正后的RGB图像进行光照估计,获取相应的图像亮度,并对图像亮度进行光照判断,基于光照判断结果对双目RGB深度图、双目红外深度图和单目红外深度图进行加权得到最终的深度图;

S5.1:对矫正后的RGB图像进行光照估计,即获取图像的初始亮度,再根据优化公式优化图像的初始亮度,求解优化公式,获取图像亮度;

获取图像初始亮度的具体公式为:

式中,L(x)为图像的初始亮度,x是像素坐标,P是像素值,c可取值为R,G,B,R,G和B分别为RGB色彩模式下的三个通道。

通过求解下述优化公式获取图像亮度T(x):

式中,

权重矩阵M

式中,ω(x)是以像素坐标为中心的局部窗口。

上述优化公式的解通过求解下列线性方程获取:

其中,m

S5.2:对图像亮度T(x)中的所有元素进行求和取平均,再与设定的阈值对比,分别获取双目RGB深度图、双目红外深度图和S4获取的单目红外深度图的权重系数。

作为一种可选的实施方式,设定的阈值可为图像的平均亮度。

具体地,设双目RGB深度图、双目红外深度图和S4获取的单目红外深度图的权重系数分别为(α,β,γ),对图像亮度T(x)中的所有元素进行求和取平均得到图像的平均亮度,当该值位于阈值区间(σ

S5.3:根据权重系数对双目RGB深度图、双目红外深度图和S4获取的单目红外深度图进行加权,获取最终的深度图。

S6:将S5获取的深度图映射到三维空间获取伪点云,将伪点云输入点云网络获取目标的3D信息。

S6.1:将深度图映射到三维空间获取伪点云,通过3D网络从伪点云中提取鸟瞰视角的特征图;

作为一种可选的实施方式,3D网络采用现有技术中的网络模型VoxelNet的主干网络。

S6.2:通过热力图输出头和数值回归输出头从S6.1获取的特征图中获取表征目标中心位置的热力图、目标尺寸和目标方向,进而获取目标检测框;

S6.3:根据S6.1获取的特征图和S6.2获取的目标检测框,提取目标检测框四周面的中心点在特征图上的点特征;

S6.4:将S6.3获取的点特征通过全连接层获取目标检测框的置信度和精修结果,获取更准确的目标3D信息。

具体地,参考图3所示,点云网络结构借鉴CenterPoint主干网络,该网络在数据集nuScenes和Waymo上进行训练,损失函数使用二元交叉熵损失,具体公式为:

式中,I

由于RGB图像仅能表示物体在一定强度可见光下的外观特征,强光照和低光照下RGB图像对物体外观的表征能力显著下降,甚至丧失表征能力。而在绝对零度(-273.15℃)以上的物体都辐射红外能量,不同物体的红外辐射不同,红外图像正是基于这一物理规律,因而可以利用红外图像作为强光照、低光照下物体外观表征的有力补充。可见光下目标与背景区分度小时,红外图像也可作为补充。例如,雪地上纯白色衣着的行人,RGB图像上难以区分,但由于雪地和行人的红外辐射显著不同,红外图像上易于区分。

本发明基于此提供了一种基于RGB和红外图像的3D信息感知方法,用以实现目标3D信息的准确快速感知。该算法对RGB图像和红外图像进行了多模态语义融合,充分利用了RGB相机和红外相机在数据采集上的优点,能够更好地处理强光照、低光照、目标与背景区分度小等非常规工况,该算法的3D目标检测准确度高、场景适用性强,具有重要的实际应用价值。

参考图4~图6所示,本实施例还提供一种实现如所述的一种基于RGB和红外图像的3D信息感知方法的3D信息感知系统,该系统安装于车顶6内侧,包括智能控制器5、电源4、相机固定装置3以及通过相机固定装置3安装于车顶6内侧的RGB相机1和红外相机2,RGB相机1和红外相机2均连接智能控制器5的一端,智能控制器5的另一端连接电源4。

具体地,RGB相机1安装于红外相机2的左侧或右侧,且RGB相机1和红外相机2的透镜光心位于同一水平线上,RGB相机1和红外相机2的镜头均面向汽车前挡风玻璃7。

具体地,相机固定装置3用于使RGB相机1和红外相机2的成像平面尽量保持共面,进而减小后续图像矫正的难度,提高立体图像本身的质量。

作为一种可选的实施方式,相机固定装置3可以采用现有技术的实现单自由度调节的双目相机支架,使得两个相机可以通过调节相应机构改变基线长。

本实施例提供的3D信息感知系统的工作原理如下所示:

将相机固定装置3安装于车顶6的内侧,再将RGB相机1和红外相机2固定于相机固定装置3上,并调整相机固定装置3上的相应机构改变两个相机位姿,使得两个相机的透镜光心位于同一水平线上,同时根据需要可以改变基线长。然后再按照前述基于RGB和红外图像的3D信息感知方法进行3D信息感知。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

相关技术
  • 一种基于RGB和红外图像的3D信息感知方法和系统
  • 基于形状感知卷积的RGB-D图像语义分割方法及系统
技术分类

06120114691934