掌桥专利:专业的专利平台
掌桥专利
首页

具有鲁棒性的立体摄像装置图像处理方法和系统

文献发布时间:2024-04-18 19:52:40


具有鲁棒性的立体摄像装置图像处理方法和系统

技术领域

本发明涉及一种从立体摄像装置图像对中提取视差信息的方法和系统,可用于例如处理车辆中的自动驾驶(AD)或高级驾驶员辅助系统(ADAS)的摄像传感器图像。

背景技术

汽车应用使用了立体摄像装置,例如EP 3176750 A1中展示了用于机动车辆的一立体成像系统和处理系统。所述系统设计用于执行立体图像的校正以及经校正图像的立体匹配,并从经匹配的立体图像中检测机动车辆周围环境中的对象。数据处理装置设计用于,对一成像装置经校正图像的图像元素进行搜索,在来自另一成像装置相应的经校正图像中寻找最佳匹配的图像元素,其中,所述搜索覆盖一个二维搜索区域。搜索产生垂直位移信息,从中得出从图像元素到经最佳匹配的图像元素的垂直位移。数据处理装置设计用于,从垂直偏移信息中计算出成像装置的或成像装置之间的俯仰角误差和/或滚动角误差。

典型的立体摄像装置系统在匹配处理前需要进行图像校正。这通常出于实际原因,以减少(例如半全局匹配(SGM)等)匹配算法的复杂性。如果校正是在摄像装置水平线上进行的,那么视差的匹配就可减少到一维问题。

D.·克吕克尔(D.

“Camera Based Lost Cargo Detection for Automated Driving(基于摄像装置的自动驾驶物品丢失检测)”,其中展示了一种基于摄像装置的方法,所述方法依靠两个不同卫星立体摄像装置系统,通过直接的三维(3D)测量提取道路上的小障碍物。其中,一个卫星立体摄像模块是一长焦摄像装置。

DE 102020214622 A1涉及一种评估立体摄像装置图像数据的方法和装置。评估立体摄像装置图像数据的方法包括以下步骤:

a)接收由立体摄像装置拍摄的原始分辨率的图像数据,

b)接收或计算具有降低的分辨率的图像数据,

c)从立体摄像装置的摄像模块的二维(2D)图像数据中检测对象,

d)在包含检测到的对象的图像数据搜索区域中以原始分辨率进行立体评估,并在图像数据的其余区域中以经降低的分辨率进行立体评估,以确定相关对象和周围环境的三维(3D)信息,以及

e)输出相关三维(3D)信息。

对具有镜头畸变的高分辨率摄像装置进行校正的计算工作量会很大,并会扩大所产生的“线性化”图像尺寸。在校正步骤中,需要在像素之间进行插值。由此就模糊了像素信息。此外,一些区域的分辨率提高了,却没增加更多的信息。在一些区域分辨率降低,并且信息被丢弃。

发明内容

本发明的目的是提供一种具有鲁棒性的立体图像处理方法。

它一方面涉及的是高级辅助驾驶或自主驾驶所需的汽车功能。

自主车辆需要检测车辆前方的障碍物。立体摄像装置的优点是可测量对象的深度和距离。

典型的立体摄像装置由2个观察同一方向的摄像装置组成。通过匹配左边和右边的图像,计算出与对象深度有关的视差。一种作为替代选择的立体摄像装置由移动的单目摄像装置组成,这通常是驾驶车辆中的单目摄像装置的情况。从先后连续的时间点拍摄到的图像对(或图像序列)中,可提取周围环境的结构信息(“运动恢复结构”)。

所提出方法可用于二维(2D)/三维(3D)对象检测、二维(2D)/三维(3D)对象追踪、三维(3D)场景重建、三维(3D)制图、三维(3D)周围环境模型(例如通过摄像装置图像与雷达传感器/激光传感器融合获取)、物品丢失检测、对象检测、三维(3D)道路表面建模和/或基于增强现实(AR)的可视化。

从立体摄像装置图像对中提取视差信息的方法包括以下步骤:

a)接收未经校正的立体摄像装置图像对,

b)使用经训练的卷积神经网络对所接收图像对进行二维(2D)匹配,提供逐个像素的二维(2D)位移作为视差信息,以及

c)输出像素级的二维(2D)位移。

卷积神经网络可能已经过训练,使用监督学习方法从未经校正的立体摄像装置图像对中生成每个像素的二维(2D)位移图。

根据一实施方式所述,二维(2D)位移被描述为视差矢量。

在一示例中,二维(2D)位移信息被用作如对象检测或诸如此类后续感知任务的输入。

根据一实施方式所述,二维(2D)位移的方向随时间的推移被积累,为图像像素位置提供一经过滤的角度方向。经过滤的角度方向对应于该特定图像像素位置的极线方向。

在一示例中,立体摄像系统的基本矩阵参数是由未经校正的逐个像素视差计算得出的。

根据一实施方式所述,二维(2D)位移用于摄像装置外部参数的视差校正。摄像装置内部参数可从最初的摄像装置校准过程中获知。

在一示例中,以米为单位的三维(3D)真实世界坐标是根据二维(2D)位移计算得到的。摄像装置内部参数可以是已知的或估计得到的,以用于计算真实距离。

根据一实施方式所述,二维(2D)位移被用于计算密集的三维(3D)点云。

用于从一立体摄像装置图像对提取视差信息的系统包括输入单元、处理单元和输出单元。

a)输入单元配置为,接收未经校正的立体摄像装置图像对。

b)处理单元配置为,使用经训练的卷积神经网络对所接收图像对进行二维(2D)匹配,提供逐个像素层的二维(2D)位移作为视差信息。

c)输出单元配置为,在像素层上输出二维(2D)位移。

另一方面涉及一种包括用于提取视差信息的系统和立体摄像系统的车辆。立体摄像系统配置为,生成未经校正的立体摄像图像对,并将其输出到用于提取视差信息的系统。.

所提出系统的优点是具有鲁棒性,无需高精度校正。与现有技术相比,在匹配过程后对视差值进行校正,可降低算法复杂性,同时保留所有信息。

换句话说,所提出解决方案使用立体摄像装置系统,它提供图像(强度、红黄蓝三原色(RGB)、拜耳(Bayer)原图(未经马赛克处理)......)和描述左右图像中两个相应像素之间位移的视差图。所提出的系统在计算视差前无需校正。视差计算通常包括对左、右图像进行逐个像素的匹配。使用所提出的匹配过程可计算二维(2D)位移。由此产生的位移被逐个像素地描述为二维(2D)矢量(x维度和y维度的位移)。我们应用一可训练的神经网络进行匹配,所述神经网络是用移位和旋转图像进行训练的。也可使用(例如块匹配等)其他二维(2D)匹配算法。为提取真正的深度信息,必须考虑摄像装置内部参数。这就导致了匹配后对视差图的校正。因此,二维(2D)图像的视差被用来计算世界坐标系/车辆坐标系的三维(3D)点测量结果。

-随着时间的推移,累积经校正的视差测量值

将视差匹配应用于原始(失真和未经校正的)图像后,二维(2D)视差矢量的方向将随着时间的推移而累积,从而产生一经过滤的角度方向,相当于该特定图像像素位置的极线方向。

附图说明

可从以下描述和附图中了解本发明的其他实施方式和其他方面。

在附图中:

图1该图示意性展示了检测对象的立体摄像装置,

图2该图展示了由立体摄像装置同时拍摄的两幅图像,

图3该图是用于从立体摄像装置图像中提取二维(2D)位移信息的机器学习实施方式的总览图,

图4该图示意性展示了从立体摄像装置提取二维(2D)位移信息的系统40,

图5该图左边两栏是同时从左、右摄像装置获取的相应像素区域对,右边一栏是每个像素的二维(2D)位移的示意图,

图6该图是展示城市道路场景的一未经校正的摄像装置图像的示例,其中有多个像素的二维(2D)视差矢量重叠,以及

图7该图展示了现有技术中已知立体图像处理方法(a)与本处理方法一实施方式(b)之间的比较。

具体实施方式

图1示意性展示由立体摄像装置的两个摄像模块11、12以俯视方式检测对象3、4。

左边立体摄像模块11与右边立体摄像模块12相距一基准宽度b。左边立体摄像模块11的光轴用直线a1示意性表示,右边立体摄像模块12的光轴用直线a2表示。左边立体摄像模块11的检测或视角范围用虚线s1表示,右边立体摄像模块12的检测或视角范围用虚线s2表示。圆形对象3到立体摄像装置11、12的距离(垂直于表示基准宽度b的线)为z。

图2示意性展示在所描述的情况下(参照图1)由立体摄像模块11、12拍摄的两幅图像。

由于两个摄像模块在水平方向上的位置不同,两个对象3、4在两幅图像21、22中的位置也不同。

在左边所示的左边立体摄像模块11的图像21中,两个对象3、4都显得更靠右。左边图像21中的圆形对象3从图像左边缘测量的水平图像距离是dL。

右边立体摄像模块的右边图像22中,两个对象3、4都比左边图像21中显得更靠左。在右边图像22中,圆形对象3从图像左边缘测量的水平图像距离为dR。

圆形对象3在左、右图像21、22之间的位移是视差d,它可以下列方式计算:

d=|dL-dR|。

从图1和图2可见,视差d取决于距离z和基准宽度b。

如D.·克吕克尔(D.

立体系统可确定的最小距离范围是由最大视差范围决定的。视差d与距离z成反比:

z=f*b/d。

图3示意性展示从立体摄像装置图像中提取二维(2D)位移信息的机器学习的实施方式的总览图。一重要组成部分是机器学习系统30,例如卷积神经网络(CNN),它在训练阶段学习从立体摄像装置图像对21、22中生成一视差矢量图33。视差矢量图或视差矢量图像33在逐个像素级上展示视差矢量。

为训练例如决策树学习系统、支持矢量机、基于回归分析的学习系统、贝叶斯网络、神经网络或卷积神经网络等机器学习系统30,提供训练输入数据X(多个图像对21、22)和相关的训练目标图Y(多个相应的视差矢量图33)。使用机器学习系统30,从训练输入数据X生成输出图Y'(未显示)。训练的目的是确保输出图Y'尽可能与训练目标图Y相似,而不过度拟合。为此,输出图Y'和训练目标图Y之间的剩余偏差由生成的输出图Y'和训练目标图Y例如使用相似性测度确定。这些偏差例如通过反向传播法用来调整机器学习系统30的参数。这样反复进行,直至获得预定的匹配或出现过拟合迹象。

然后通过以此方式训练的机器学习系统30从新输入的数据X中生成输出图Y'。

图4示意性展示从立体摄像装置11、12中提取二维(2D)位移信息的系统40,所述系统有一输入接口42,一带机器学习系统30的数据处理单元44,及将融合数据输出到另一单元(控制单元(CU))的输出接口46。可在车辆上安装两个摄像装置11、12,例如两个具有相同光学特性的卫星摄像装置。

基于摄像装置11、12的图像数据,多个高级驾驶员辅助系统(ADAS)功能/自动驾驶(AD)功能例如可由一高级驾驶员辅助系统(ADAS)或自动驾驶(AD)的控制单元提供给其他单元(控制单元(CU)),用于例如车道检测、车道保持辅助、交通标志检测、限速辅助、交通参与者检测、碰撞警告、紧急制动辅助、距离追踪控制、施工现场辅助、高速公路领航、巡航驾驶员功能和/或自动驾驶功能。

机器学习系统30可包括例如卷积神经网络(CNN)等人工神经网络。

图5展示了在51、52两列中,对于每一行a、b、c同时从左右摄像装置11、12获取的三个像素区域对51a、52a;51b、52b;51c、52c。机器学习系统30已被训练成使2x2像素块(511+512上行和513+523、514+524下行)或3x2像素块512+522匹配各相应的左右摄像装置的像素区域对(51a+52a;51c+52c;51b+52b)。由于摄像装置图像没被校正,所以有可能出现垂直偏移分量。右列53展示了每个像素的二维(2D)位移(对应的像素区域51a、52a之间→视差矢量网格/图53a等)的示意图。视差矢量531对应于第一行51a、52a中匹配的2x2块511+512的右上方像素位移。同样,视差矢量534对应于第三行51c、52c中右2x2块514+524的左下像素。表示53a;53b;53c由每个像素的视差矢量构成。一行中的视差向量集合对应于具有视差矢量的一个二维(2D)视差场,所述视差矢量显示每个单一左右图像像素(显示为小矢量)和“冗余”输出(显示作为小十字)对无明确逐像素对应关系的任何单一像素位置之间的关联,因为它在(左/右)两个摄像装置图像中不是同时可见的。

图6展示例如左摄像装置11的未经校正的图像61的示例,所述图像展示一城市道路场景,并有重叠的多个像素二维(2D)视差矢量63。可清楚地看到未经校正图像的非中心区域存在畸变/失真,例如道路左侧和右侧的建筑物被成像为弯曲的垂直线。二维(2D)视差矢量63的方向可随时间的推移累积为一系列立体图像,其结果通过(略微)弯曲(几乎水平的)线条64表示,这些线条也重叠在图像61上。这种经过滤的角度方向表示相当于该特定图像像素位置上的极线方向。

图7展示现有技术中的已知立体图像处理方法(a)与本处理方法一实施方式(b)之间的比较。

a.已知方法要求在第一步骤中对从立体摄像装置获取的原始图像21、22进行校正S11。在第二步骤中,在经校正图像的基础上进行立体匹配S12。立体匹配S12可通过例如半全局匹配或通过经训练的人工神经网络,例如卷积神经网络(CNN)等传统方式进行,所述神经网络已被训练成在两幅经校正图像被输入神经网络时,输出视差信息。在随后的步骤中,从匹配中计算出视差信息S13。在下一步骤,可从或通过视差信息生成密集的三维(3D)点云70。

b.新颖处理方法的实施从将未经校正的立体图像21、22送入例如卷积神经网络(CNN)等机器学习系统开始,所述系统已被训练为在两个维度上匹配左右未经校正图像之间的小像素块(例如1x1、2x2、3x2、3x3......)。第一步骤可称为卷积神经网络(CNN)匹配S21。当然,卷积神经网络(CNN)使用一“最小”的像素邻域进行对应搜索(例如2x2块)。然而,无直接邻域的单一像素(1x1块)也可获得一对应值。作为匹配步骤的结果,在随后的步骤S22中提取了大量像素或所有像素的视差矢量。换句话说:图像被送入一处理器,该处理器计算两个摄像装置的二维(2D)视差场。

在一实施方式中,可在随后的步骤S24中基于所获取的二维(2D)视差场执行感知功能。为此,另一机器学习系统已被训练成在将二维(2D)视差矢量图作为输入时输出感知数据88。感知数据88一示例是图像分割,例如识别图像中的道路、路标、建筑物和对象。

在一第二实施方式中,视差矢量(或二维(2D)视差场)可作为原始图像21、22的校正S26的基础。使用摄像装置内部参数对二维(2D)视差场进行校正,以计算出真正的深度信息(三维(3D)点云)。这意味着,可在下一步骤生成密集的三维(3D)点云80。

从未经校正的逐个像素视差中计算立体系统的基本矩阵参数

在没有关于真实世界坐标距离的先验知识的情况下,我们可使用立体系统的基本矩阵来计算垂直视差v

其中,

ty=ty/tx,tz=tz/tx定义了右摄像装置相对于左摄像装置沿Y轴和Z轴的相对平移,

ur-ul=du是表示深度的水平视差,

vr-vl=dv是垂直视差,

(ul,vl)=pl是一个点P在空间中的左摄像装置图像平面上的投影,而(ur,vr)=pr是同一个点在右摄像装置图像平面上的投影,

f对应于左摄像装置的焦距fl(以像素为单位),af是两台摄像装置的焦距差:fr=(1–

af)fl,

ax、ay、az是右摄像装置相对于左摄像装置围绕X轴、Y轴和Z轴的相对旋转角。该方程的背景可从S.·卡塔拉加达(S.Kathragadda)在国际标准期刊号为ISSN 1213-6972的WSCG杂志(Journal of WSCG)2019年第2期第27卷151到160页上发表的论文“Identification of stereo rig alignment error based on vertical disparity map(基于垂直视差图的识别立体装置对齐误差”中了解到。

上面vr-vl方程给出的结果是......

vr-vl=ty*(ur-ul)+tz/f*(ul*vr-ur*vl)+af*(vr)+ax*f*(-1)+ax/f*(-vl*vr)+ay/f*(ur*vl)+

az*(ur)

dv=ty*(-du)+tz/f*(du*vl-ul*dv)+af*(vl-dv)+ax*f*(-1)+ax/f*(vl*dv-vl^2)+

ay/f*(ul*vl-du*vl)+az*(ul-du)

dv=ty*(-du)+tz/f*(du*v-u*dv)+af*(v-dv)+ax*f*(-1)+ax/f*(v*dv-v^2)+ay/f*(u*v-du*v)+az*(u-du)

由此,可对tx、ty、tz、alpha_x、alpha_y、alpha_z和alpha_f进行最小二乘法近似,以获得关于左右摄像装置之间旋转参数、平移参数和焦点参数的信息。

对于一小的3x3像素区域,我们用像素位置(u0,v0)、(u1,v1)、......(u8,v8)及视差(du0,dv0)、(du1,dv1)、......(du8,dv8)得到......

dv0=ty*(-du0)+tz/f*(du0*v0-u0*dv0)+af*(v0-dv0)+ax*f*(-1)+

ax/f*(v0*dv0-v0^2)+ay/f*(u0*v0-du0*v0)+az*(u0-du0)

dv1=ty*(-du1)+tz/f*(du1*v10-u*dv1)+af*(v1-dv1)+ax*f*(-1)+

ax/f*(v1*dv1-v1^2)+ay/f*(u1*v1-du1*v1)+az*(u1-du1)

dv2=ty*(-du2)+tz/f*(du2*v02-u*dv2)+af*(v2-dv2)+ax*f*(-1)+

ax/f*(v2*dv2-v2^2)+ay/f*(u2*v2-du2*v2)+az*(u2-du2)

dv3=ty*(-du3)+tz/f*(du3*v03-u*dv3)+af*(v3-dv3)+ax*f*(-1)+

ax/f*(v3*dv3-v3^2)+ay/f*(u3*v3-du3*v3)+az*(u3-du3)

dv4=ty*(-du4)+tz/f*(du4*v04-u*dv4)+af*(v4-dv4)+ax*f*(-1)+

ax/f*(v4*dv4-v4^2)+ay/f*(u4*v4-du4*v4)+az*(u4-du4)

dv5=ty*(-du5)+tz/f*(du5*v0-5u*dv5)+af*Pv5-dv5)+ax*f*(-1)+

ax/f*(v5*dv5-v5^2)+ay/f*(u5*v5-du5*v5)+az*(u5-du5)

dv6=ty*(-du6)+tz/f*(du6*v0-u6*dv6)+af*(v6-dv6)+ax*f*(-1)+

ax/f*(v6*dv6-v6^2)+ay/f*(u6*v6-du6*v6)+az*(u6-du6)

dv7=ty*(-du7)+tz/f*(du7*v0-u7*dv7)+af*(v7-dv7)+ax*f*(-1)+

ax/f*(v7*dv7-v7^2)+ay/f*(u7*v7-du7*v7)+az*(u7-du7)

dv8=ty*(-du8)+tz/f*(du8*v0-u8*dv8)+af*(v8-dv8)+ax*f*(-1)+

ax/f*(v8*dv8-v8^2)+ay/f*(u8*v8-du8*v8)+az*(u8-du8)

G=A*P

矢量P=(ty,tz/f,af,ax*f,ax/f,ay/f,az)表征左右立体摄像装置之间的未知摄像装置参数(旋转、平移、焦距......)。

只对摄像装置外部参数使用视差校正

使用上述方法,可估计基本矩阵系统的所有参数。为使外部(外在)安装参数的估计更具鲁棒性,我们可使用正在使用的摄像装置内部(内在)参数的先验知识(校准)。

例如,如果摄像装置焦距f是事先已知的,就可避免用上述方法对该值进行估计,而是将摄像装置焦距作为一“常数”输入。

因为旋转参数ax、ay、az在立体系统运行过程中由于热膨胀和振动经常发生变化,上述方法可用于“仅”估计这些参数,并使其他参数保持为“常数”。

计算以米为单位的三维(3D)真实世界坐标

有了对立体系统(摄像装置焦距、镜头失真、左/右摄像装置之间的平移等)内在校准的先验知识,就可在三维(3D)周围环境中计算出以[米]为单位的真实世界坐标距离。

这样做的优点是,在匹配之前不需要进行校正。这节省了内存和计算时间,并保留了图像信息。

在运行过程中,可从二维(2D)卷积神经网罗(CNN)匹配数据中计算校正。在输入图像上运行校正步骤时,不需要像传统立体系统那样,在(第一次运行前)进行下线标定。

相关技术
  • 一种园林植被病虫害防治用喷雾装置
  • 山体植被病虫害防治用便携式高压喷雾装置
技术分类

06120116331233