掌桥专利:专业的专利平台
掌桥专利
首页

相关申请的交叉引用

本专利申请要求于2018年11月30日提交的题为“RADAR DEEP LEARNING”的美国临时申请第62/774,018号以及于2019年11月27日提交的题为“RADAR DEEP LEARNING”的美国非临时申请第16/689,870号的权益,两者都转让给其受让人,并且以全文引用的方式明确地并入本文中。

技术领域

本公开的各方面总体上涉及雷达深度学习。

背景技术

通常在车辆上采用雷达和相机传感器来实现系统的增强型车辆安全性,诸如自适应巡航控制(ACC)、前向碰撞警示(FCW)、经由自主制动的碰撞缓解或避免)、预碰撞功能(诸如安全气囊装备或预激活)以及车道偏离警示(LDW)。采用雷达和相机传感器两者的系统可提供高级的主动安全性能力并在生产车辆时日益可用。

安装在车辆上的一个或多个相机传感器捕获车辆前方(并且可能还有车辆后方和侧面)的场景的图像。车辆内的数字信号处理器(DSP)然后尝试标识捕获到的图像内的对象。此类对象可以是其它车辆、行人、道路标志、行进道路内的对象等。雷达系统也可用于沿着行进道路检测对象。雷达系统利用无线电波沿着道路确定对象的距离、海拔、方向和/或速度。发送器发送在对象的路径中从对象回弹的无线电波的脉冲。从对象反射的脉冲将较小部分的无线电波能量返回到接收器,该接收器通常位于与发送器相同的位置处。

雷达系统提供在各种天气条件下对物距和速度的合理准确的测量。然而,雷达系统通常具有不足以标识检测到的对象的特征的分辨率。然而,相机传感器通常确实提供足以标识对象特征的分辨率。从捕获到的图像提取的对象形状和外观的提示可以提供足以对不同对象进行分类的特性。考虑到两个传感器的互补属性,来自两个传感器的数据可以被组合(称为“融合”)于单个系统中以用于改善性能。

雷达视觉融合方法主要在融合级上有差异。低级融合组合原始数据的若干来源以产生预期比输入更具信息性和合成性的新原始数据。在中间级融合中,各种特征(诸如边缘、拐角、线、纹理参数等)被组合成然后供其它处理阶段使用的特征图。在高级融合中,每个输入源均产生决策,并且这些决策被融合。

发明内容

下文呈现与本文所公开的一个或多个方面有关的简化发明内容。因而,以下发明内容不应被考虑为与所有预期方面有关的广泛综述,以下发明内容也不应被认为是标识与所有预期方面有关的关键或重要元素或划定与任何特定方面相关联的范围。相应地,以下发明内容具有以下唯一目的:以简化形式先于下文呈现的实施方式来呈现与有关于本文中所公开的机构的一个或多个方面相关的某些概念。

一方面,一种采用深度学习来分析由主车辆的车载计算机执行的雷达信号的方法包括:从主车辆的雷达传感器接收多个雷达帧;对多个雷达帧的至少子集执行神经网络;以及基于对多个雷达帧的子集执行神经网络来在多个雷达帧的子集中检测一个或多个对象。

一方面,一种在由主车辆的车载计算机执行的神经网络中将极坐标变换为笛卡尔坐标的方法包括:接收极坐标空间中的多个雷达帧或多个雷达帧的一个或多个潜在表示;将多个雷达帧或多个雷达帧的一个或多个潜在表示从极坐标空间变换到笛卡尔坐标空间;以及以笛卡尔坐标空间输出多个雷达帧或多个雷达帧的一个或多个潜在表示。

一方面,一种主车辆的车载计算机包括至少一个处理器,至少一个处理器被配置为:从主车辆的雷达传感器接收多个雷达帧;对多个雷达帧的至少子集执行神经网络;以及基于对多个雷达帧的子集执行神经网络来在多个雷达帧的子集中检测一个或多个对象。

一方面,一种主车辆的车载计算机包括至少一个处理器,至少一个处理器被配置为:接收极坐标空间中的多个雷达帧或多个雷达帧的一个或多个潜在表示;将多个雷达帧或多个雷达帧的一个或多个潜在表示从极坐标空间变换到笛卡尔坐标空间;以及以笛卡尔坐标空间输出多个雷达帧或多个雷达帧的一个或多个潜在表示。

一方面,一种主车辆的车载计算机包括:用于从主车辆的雷达传感器接收多个雷达帧的部件;用于对多个雷达帧的至少子集执行神经网络的部件;以及用于基于对多个雷达帧的子集执行神经网络来在多个雷达帧的子集中检测一个或多个对象的部件。

一方面,一种主车辆的车载计算机包括:用于接收极坐标空间中的多个雷达帧或多个雷达帧的一个或多个潜在表示的部件;用于将多个雷达帧或多个雷达帧的一个或多个潜在表示从极坐标空间变换到笛卡尔坐标空间的部件;以及用于以笛卡尔坐标空间输出多个雷达帧或多个雷达帧的一个或多个潜在表示的部件。

一方面,一种存储计算机可执行指令的非暂时性计算机可读介质包括计算机可执行指令,该计算机可执行指令包括:指示车辆的车载计算机从主车辆的雷达传感器接收多个雷达帧的至少一个指令;指示该车载计算机对多个雷达帧的至少子集执行神经网络的至少一个指令;以及指示该车载计算机基于对多个雷达帧的子集执行神经网络来在多个雷达帧的子集中检测一个或多个对象的至少一个指令。

一方面,一种存储计算机可执行指令的非暂时性计算机可读介质包括计算机可执行指令,该计算机可执行指令包括:指示车辆的车载计算机接收极坐标空间中的多个雷达帧或多个雷达帧的一个或多个潜在表示的至少一个指令;指示该车载计算机将多个雷达帧或多个雷达帧的一个或多个潜在表示从极坐标空间变换到笛卡尔坐标空间的至少一个指令;以及指示该车载计算机以笛卡尔坐标空间输出多个雷达帧或多个雷达帧的一个或多个潜在表示的至少一个指令。

基于附图和详细描述,与本文公开的方面相关联的其它目的和优点对于本领域技术人员将是显而易见的。

附图说明

附图被呈现以帮助描述本公开的各个方面并且被提供仅用于示出各方面而不是限制它。

图1是根据各个方面的在挡风玻璃后方采用集成式雷达-相机传感器的车辆的俯视图。

图2示出了根据各个方面的车载计算机架构。

图3是所感测的观察雷达网格的示意图。

图4示出了相同场景的相机图像与雷达图像之间的示范性差异。

图5是示出根据各个方面的雷达-相机传感器模块和/或一个或多个处理器如何处理来自雷达传感器的数据的框图。

图6示出了已出现遮挡的计算机视觉的示例。

图7示出了雷达帧序列中的一系列关键帧和p帧。

图8示出了在将一组选取的片段融合在一起并随后将其与网络的其余部分融合之前针对来自该组选取的片段的每个2D片段使用单独的特征提取层的架构。

图9示出了根据本公开的各个方面的潜在空间自我运动补偿技术。

图10示出了视频帧、极坐标空间中的雷达帧以及笛卡尔坐标空间中的内插雷达帧。

图11示出了极坐标空间中的采样网格被变换为笛卡尔坐标空间中的采样网格。

图12示出了根据各个方面的用于高速公路汽车场景中的车辆检测的示范性神经网络架构。

图13示出了采样网格。

图14示出了特定的神经网络架构。

图15示出了根据本公开的各方面的采用深度学习来分析雷达信号的示范性方法。

图16示出了在神经网络中将极坐标变换为笛卡尔坐标的示范性方法。

具体实施方式

本公开的各方面在以下描述和针对出于说明目的而提供的各种示例的相关附图式中提供。可以在不脱离本公开的范围的情况下设计出替代性方面。另外,可以不详细地描述或可以省略本公开的公知方面以免混淆更多相关细节。

本领域技术人员应当理解,可以使用各种不同科技和技术中的任何一种来表示下文描述的信息和信号。例如,可以通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或者它们的任何组合来表示可能在以下整个描述中提及的数据、指令、命令、信息、信号、比特、符号和芯片,这取决于特定应用,部分地取决于期望设计,部分地取决于对应技术等。

此外,根据例如由计算设备的元件执行的动作序列来描述许多方面。将认识到,本文描述的各种动作可以由特定电路(例如,专用集成电路(ASIC))、由通过一个或多个处理器执行的程序指令或者由两者的组合来执行。另外,对于本文描述的每个方面,可以将任何此类方面的对应形式实施为例如“被配置为执行所描述的动作的逻辑”。

现在参考图1,示出了包括雷达-相机传感器模块120的车辆100(称为“自我车辆”或“主车辆”),雷达-相机传感器模块120位于车辆100的在挡风玻璃112后方的内部隔室中。雷达-相机传感器模块120包括雷达组件,该雷达组件被配置为在水平覆盖区150(通过虚线示出)中通过挡风玻璃112发送雷达信号,并且接收从覆盖区150内的任何对象反射的反射雷达信号。雷达-相机传感器模块120进一步包括用于基于在水平覆盖区160(通过虚线示出)中通过挡风玻璃112看见和捕获的光波来捕获图像的相机组件。

尽管图1示出了其中雷达组件和相机组件是共享壳体中的并置组件的示例,但是应当理解,可将它们分开容纳于车辆100内的不同位置中。例如,相机可如图1中所示定位,并且雷达组件可以位于车辆100的护栏或前保险杠中。另外,尽管图1示出了雷达-相机传感器模块120位于挡风玻璃112后方,但是它替代地可以位于车顶传感器阵列中或其它地方。另外,尽管图1仅示出了单个雷达-相机传感器模块120,但是应当理解,车辆100可以具有指向不同方向(指向侧面、前部、后部等)的多个雷达-相机传感器模块120。各种雷达-相机传感器模块120可以位于车辆的“表层”下方(例如,在挡风玻璃112、车门、保险杆、护栏等后方)或位于车顶传感器阵列内。

雷达-相机传感器模块120可以检测到相对于车辆100的一个或多个对象(或没有检测到对象)。在图1的示例中,在雷达-相机传感器模块120可以进行检测的水平覆盖区150和160内存在两个对象:车辆130和140。雷达-相机传感器模块120可以估计检测到的(多个)对象的参数,诸如位置、距离、方向、速度、大小、分类(例如,车辆、行人、道路标志等)等。可以针对汽车安全性应用(诸如自适应巡航控制(ACC)、前向碰撞警示(FCW)、经由自主制动的碰撞缓解或避免、车道偏离警示(LDW)等)在车辆100上采用雷达-相机传感器模块120。

并置相机与雷达允许这些组件共享电子器件和信号处理,并且具体地实现早期雷达-相机数据融合。例如,雷达和相机可以集成到单个板上。联合的雷达-相机对准技术可以用于将雷达与相机两者对准。然而,雷达与相机的并置不是实践本文中所描述的技术所需的。

图2示出了根据本公开的各个方面的车辆100的车载计算机(OBC)200。一方面,OBC200可以是ADAS或ADS的部分。OBC 200包括非暂时性计算机可读存储介质(即,存储器204)和经由数据总线208与存储器204通信的一个或多个处理器206。存储器204包括一个或多个存储模块,其存储可以由(多个)处理器206执行的计算机可读指令以执行本文中所描述的OBC200的功能。例如,(多个)处理器206结合存储器204可以实施本文中所描述的各种神经网络架构。

一个或多个雷达-相机传感器模块120耦合到OBC 200(在图2中为了简单起见仅示出一个)。在一些方面中,雷达-相机传感器模块120包括至少一个相机212、至少一个雷达214以及可选的光检测和测距(LiDAR)传感器216。OBC 200还包括一个或多个系统接口220,其借助于数据总线208将(多个)处理器206连接到雷达-相机传感器模块120以及可选地连接到其它车辆子系统(未示出)。

至少在一些情况下,OBC 200还包括被配置为经由一种或多种无线通信网路(未示出)(诸如NR网络、LTE网络、GSM网络等)通信的无线广域网(WWAN)收发器230。WWAN收发器230可以连接到一个或多个天线(未示出)以经由至少一种指定的RAT(例如,NR、LTE、GSM等)通过感兴趣的无线通信介质(例如,特定频率频谱中的某一时间/频率资源集合)与其它网络节点(诸如其它车辆UE、行人UE、基础设施接入点、路边单元(RSU)、基站(例如,eNB、gNB)等)通信。WWAN收发器230可以根据指定的RAT以不同的方式被配置用于发送信号(例如,消息、指示、信息等等)并对其进行编码,并且相反地用于接收信号(例如,消息、指示、信息、导频等等)并对其进行解码。

至少在一些情况下,OBC 200还包括无线局域网络(WLAN)收发器240。WLAN收发器240可以连接到一个或多个天线(未示出)以经由至少一种指定的RAT(例如,蜂窝式车联网(C-V2X)、IEEE 802.11p(也称为车载环境无线接入(WAVE))、专用短程通信(DSRC)等)通过感兴趣的无线通信介质与其它网络节点(诸如其它车辆UE、行人UE、基础设施接入点、RSU等)通信。WLAN收发器240可以根据指定的RAT以不同的方式被配置用于发送信号(例如,消息、指示、信息等等)并对其进行编码,并且相反地用于接收信号(例如,消息、指示、信息、导频等等)并对其进行解码。

如本文所使用的,“收发器”可以包括发送器电路、接收器电路或其组合,但是不需要在所有设计中都提供发送和接收功能性两者。例如,在一些设计中可以采用低功能性接收器电路(例如,接收器芯片或仅提供低电平嗅探的类似电路)以在不需要提供完全通信时降低成本。

至少在一些情况下,OBC 200还包括全球定位系统(GPS)接收器250。GPS接收器250可以连接到一个或多个天线(未示出)以用于接收卫星信号。GPS接收器250可以包括用于接收和处理GPS信号的任何合适的硬件和/或软件。GPS接收器250视情况从其它系统请求信息和操作,并且使用通过任何合适的GPS算法获得的测量值来执行确定车辆100的位置所需的计算。

一方面,OBC 200可以利用WWAN收发器230和/或WLAN收发器240下载一个或多个地图202,该地图202然后可以存储于存储器204中并用于车辆导航。(多个)地图202可以是一个或多个高清晰度(HD)地图,该高清晰度地图可以提供在7cm至10cm的绝对距离内的准确度、与道路有关的所有静止物理资产的高度详细的清单(诸如道路车道、道路边缘、路肩、分隔栏、交通信号、标牌、喷涂标记、杆)和有用于通过车辆100进行道路和十字路口的安全导航的其它数据。(多个)地图202也可以提供使得车辆100能够知道什么处于前方的电子地平线预测感知。

一方面,相机212可以按某一周期性速率捕获相机212的可视区(如图1中示出为水平覆盖区160)内的场景的图像帧(在本文中也称为相机帧)。同样地,雷达214可以按某一周期性速率捕获雷达214的可视区(如图1中示出为水平覆盖区150)内的场景的雷达帧。相机212和雷达214捕获其相应帧的周期性速率可以相同或不同。每个相机帧和雷达帧可以是带时间戳的。因此,在周期性速率不同的情况下,时间戳可以用于同时或几乎同时选择捕获到的相机帧和雷达帧以供进一步处理(例如,融合)。

图3示出了所感测的观察雷达网格300。雷达214的发送器(例如,发送天线阵列)发送从发送路径中的(多个)对象(诸如图1中的车辆130和140)反射的电磁RF波的脉冲。从(多个)对象反射的一部分电磁RF波被返回到雷达214的接收器(例如,接收天线阵列),该接收器通常位于与雷达214的发送器相同的位点处。

一方面,雷达214可以是使用波束成形进行水平地和竖直地扫描的成像雷达。波束成形是用于通过改变不同发送天线之间的延迟来瞄准雷达波束的有效方向使得信号在指定方向上建设性地增加的技术。因此,雷达214可以通过使用包括以电子方式操纵的天线阵列的发送器来水平地和竖直地扫描感测区(例如,水平覆盖区150)。

通过雷达214测量的所返回的响应被表征为具有多个观察小区342的观察网格340。每个小区342以具体距离(r)和角度/方位角(θ)来表示所测量的返回的响应值。每个小区342交替地称为距离-角度分组(range-angle bin)。从小区342提取特征344以确定特征344是否为对象(例如,车辆130/140)。可以将相应小区342内的每个特征344标识为具有多达四个参数:距离、多普勒(Doppler)、方位角和高度(elevation)。这被称为雷达帧。作为示例,小区342内的特征344可以是通过恒虚警率(constant false alarm rare,CFAR)算法计算的信噪比(SNR)。然而,应当理解,其它方法可以用于瞄准和标识小区342内的特征344。

与图像(例如,来自相机212的图像)相比,雷达信号(例如,来自雷达214的雷达信号)具有几个唯一特性。一个特性是镜面反射,其中具有有利取向的目标上的仅某些表面反射雷达信号,这通常导致少数反射。第二特性是非均一性,其中在{距离,方位角}信号空间的远距离处出现的对象始终较小并且具有与在更接近的距离处出现的那些对象不同的形状。相机图像并非这种情况。

图4示出了相同场景的相机图像410与雷达图像420之间的示范性差异。相机图像410可能已由相机212捕获,而雷达图像420可能已由雷达214捕获。在相机图像410中,已检测到三个对象(此处为车辆),每个对象由边界框412、414和416包围。在雷达图像420中,相同的三个对象(车辆)已经被检测到并且由边界框422、424和426包围。如图4中可见,雷达图像420中的对象/边界框422、424和426的形状基于它们是位于雷达图像420的中线428下方(即,边界框422)还是位于该中线上方(即,边界框424和426)而呈现不同大小和形状。另外,由于因雷达214与其它对象之间的较大距离而在雷达214处接收更少反射无线电波,因此与更接近的对象相关联的边界框(即,边界框422)大于与更远的对象相关联的边界框(即,边界框424和426)。

图5是示出根据本公开的各个方面的雷达-相机传感器模块120和/或(多个)处理器206如何处理来自雷达214的数据的框图500。该数据通过模拟前端(AFE)502作为模拟数据接收,并且通过数字前端(DFE)504转换成数字数据。数字前端504输出数字数据的I/Q样本506。I/Q样本506是被处理以生成将在后端处理期间使用的张量的原始数据。

计算前端508执行张量生成、开窗、子采样、快速傅里叶变换(FFT)、运动补偿等,以生成四维(4D)张量510,该张量510表示例如由雷达214检测到的观察网格340的小区342内的特征344。一方面,雷达214可以是进行水平地和竖直地扫描的成像雷达。因而,张量510表示每个检测到的特征344的距离(从车辆100到检测到的特征344的距离)、方位角(特征344与由雷达214发射的参考RF射线(诸如雷达扫掠的初始RF射线)之间的水平距离)、多普勒(指示检测到的特征344的速度)和高度(从雷达214到检测到的特征344的竖直方向)。然后将这些张量传递到计算后端512,该计算后端512基于张量510和从相机212接收到的图像来执行对象检测、对象分类、定位和属性估计。

由计算后端512执行的处理的结果514是检测到的(多个)对象的各种属性,诸如以笛卡尔x-y坐标紧密地封闭(多个)对象的边界框、(多个)对象的类型(例如,汽车、卡车、行人、摩托车、道路标志等)、相对(例如,相对于车辆100的)速度、取向、所有属性的softemax函数分数(二进制分类中的张量的给定输出的概率)、(多个)对象在某一时间量(例如,50ms、100ms等)之后的(多个)预测位置等。

可以将结果514分别作为配置516和518反馈到计算前端508和数字前端504。配置516可以包括检测到的(多个)对象的距离-方位角-多普勒(RAD)张量、距离-方位角(RA)张量(在多普勒维度坍缩的情况下)、距离-方位角、距离-多普勒和方位角-多普勒张量等。计算前端508可以使用这种信息更好地标识其它特征344的这些属性。配置518可以包括波形参数,数字前端504可以使用该波形参数将来自模拟前端502的模拟数据更好地转换为I/Q样本506。

更详细地参考计算前端508,计算前端508接收I/Q样本506作为输入,该计算前端508根据该I/Q样本506来计算和输出雷达帧。计算前端508可以输出表示距离、方位角、多普勒和高度的4D复合值张量。可选地,计算前端508可以进行子选择(sub-select)、分组、压缩、“argmax”(某一函数域中函数值被最大化的点)或这些维度中的一个或多个“的任何函数”。替代地,计算前端508可以输出表示距离、方位角和多普勒的3D复合值张量。作为又一替代方案,计算前端508可以输出二维(2D)复合值张量的集合,其表示距离和方位角、距离和多普勒、多普勒和方位角、距离和高度、多普勒和高度或方位角和高度中的一项或多项。突出的信息有时被包含于信号的频率内容中,在该情况下,可以执行用于提取这种频率信息的进一步信号处理。

一方面,计算前端508可以对雷达信号执行标准化。为此,其在每个距离处(使用整个数据集,即,所有训练帧)计算雷达信号的平均值和标准偏差。其然后将函数(例如,线性函数)拟合到数据并使用它将雷达信号沿着距离维度标准化。这提供准确度的较小增益(近似1%)。

更详细地参考计算后端512,计算后端512可以实施各种“深度学习”技术(基于学习数据表示的机器学习方法,而非任务特定算法)以确定结果514。深度神经网络可以用于检测、分类、定位和理解从雷达信号检测到的对象。深度神经网络(DNN)是在输入层与输出层之间具有多个“层”的一种人工神经网络(ANN)。具体地,DNN执行多个数学操纵(称为“层”)以根据给定输入来计算特定输出的概率。这些操作(或层)中的每一个的结果是“潜在表示”或“潜在特征图”,除了针对最后或最终结果之外,这些最后或最终结果不再是“潜在”的,而是模型的预测/应答/输出。例如,被训练成识别可由自主或半自主车辆(例如,车辆100)遇到的对象的类型的DNN将分析给定雷达帧并计算在帧中检测到的每个对象是车辆、行人、道路标志等的概率。在训练DNN期间,用户可以检查结果并选择DNN应显示哪些概率(例如,具有高于某一阈值的概率的输出等),并且返回所提出的标签。

一方面,递归神经网络(RNN)可以被计算后端512用作深度学习技术以确定结果514。RNN是其中节点之间的连接沿着时间序列形成有向图的一种ANN,这允许RNN展现出时间动态行为。RNN元件可以用于雷达对象检测神经网络中以改善检测准确度。可以将卷积长短期记忆(LSTM)(能够学习长期相关性的一种RNN)、卷积门控循环单元(GRU)(类似于具有遗忘门的LSTM,但因为其缺乏输出门而具有比LSTM更少的参数)或者堆栈RNN应用于对象检测神经网络的潜在特征图以构建最新观察的记忆。实际上,卷积GRU是更具参数效率的。然而,卷积LSTM实现略高的准确度(就平均值平均精确度(mAP)、平均值绝对误差(MAE)、精确度和再调用等而言)。实际上,堆栈卷积GRU并未实现与单层卷积LSTM相同的准确度。这很可能是由于对用于实现高准确度的较长历史的需要。以与经过全面训练的雷达对象检测神经网络相同的准确度为目标,参数的数量可以削减大约四倍。由于添加存储器元件不会增加任何明显负担,因此推断时间或多或少与基础网络(没有可被添加在“基础网络”的顶部的(多个)LSTM/RNN/GRU模块的网络)相同。与可以仅估计相对速度的径向分量的常规车辆雷达相比,使用RNN可以估计对象的完整的相对速度矢量。更具体地,RNN具有通过多个时间步长(与仅在给定时间点处相对)查看对象的位置的能力。基于在一段时间内的已知位置,计算速度只是计算该位置移动得有多快。因此,在常规雷达中并在仅使用雷达信号时,仅可测量相对径向速度(即,接近或远离雷达的相对速度的部分)。无法检测在其它方向上的速度。然而,使用具有“历史”的RNN也可以估计在其它方向上的速度。因此,“完整”速度矢量是完整3D矢量,而非仅径向部分。

应当注意,卷积是对两个函数的数学运算,以产生表示一个函数的形状如何由另一函数修改的第三函数。术语“卷积”是指结果函数并且是指计算该函数的过程。卷积类似于交叉相关;针对离散的实数值函数,它们的不同之处在于函数中的一个的次序反转。

一方面,空间上可变的卷积(即,针对不同位置的不同卷积权重)可以由计算后端512用作深度学习技术以确定结果514。在第一解决方案中,可以将本地空间卷积内核(卷积运算作用于两个信号、雷达帧或潜在表示、和内核,并将它们组合成一个)应用于基于雷达的对象检测神经网络的早期层(即,第一阶段)。与基于相机的对象检测神经网络相比,雷达帧没有空间恒定属性,这意味着在相机帧中,不管对象在何处,它看起来或多或少相同(暂不考虑视角)。然而,在雷达帧中,由于自我车辆(例如,车辆100)沿着距离或方位角中任一个移动,因此距离-方位角轨迹大幅度改变。因而,可以在对象检测神经网络的早期阶段使用本地空间卷积,以将不同卷积权重(即,习得的模型参数)应用于雷达帧或潜在表示上的不同位置。在几个层之后,这些特征更均匀地在空间上分布,并且所加权的共享卷积(也称为组卷积)可以用于网络的后续层中。由于特征图的深度在对象检测神经网络的早期阶段可以相对较小,因此就权重的数量而言,这不应增加极高开销。

在使用空间上可变的卷积的第二解决方案中,微神经网络(较小辅助神经网络,其目的并非为了解决原始问题(检测对象),而是生成这些空间上可变的内核和权重)可以用于生成空间上可变的内核和权重。类似于前一解决方案,可以进一步减少执行空间上可变的卷积所需的权重的数量。构思是使用浅层网络(潜在地仅几个层)来生成不同内核所需的所有权重。在这种问题的柯尔莫哥洛夫(Kolmogorov)复杂度(产生对象作为输出的最短计算机程序(使用预定程序设计语言)的长度)看起来并不太高的条件下,可以将这种对象检测神经网络视为压缩本地空间卷积内核自身可产生的权重的方式。这种网络生成应高度相关的大量权重,并且可以潜在地用于生成多个层的权重。类似于动态滤波器网络(其中以输入为条件动态地生成滤波器的网络)的技术也可以用于针对其中存储或带宽可能是有限的并且“即时”生成这些权重的情况,通过将{距离,方位角}对(pair)用作对象检测神经网络的输入来动态地生成这些权重。

在使用空间上可变的卷积的第三解决方案中,显式变换可以用于针对应用于基于雷达的对象检测神经网络的空间上可变的内核来生成权重。使用对象检测神经网络针对本地空间卷积的不同内核来生成权重的替代方案将在权重上使用显式变换。假设特征图之一的一个通道所需的oracle滤波器是已知的,相同通道(即,相同颜色)和相同特征图的所有其它位置的变换是已知的(假定空间在笛卡尔域中恒定)。一个问题是滤波器的大小通常较小。为了解决这种问题,滤波器的大小可以增加到较大(例如,7×7),然后可以(在连续域中)应用变换,并且可以将所得的内核剪裁回例如3×3或5×5。应当理解,上文所描述的第二解决方案比第一解决方案更高效,并且第三解决方案比第二解决方案更高效。

也可以基于网络的输出来估计对象检测神经网络的检测的不确定度。在自主驾驶的情况下,大多数时间,对象并未在鸟瞰图(雷达图像捕获的图1的视图)中重叠。这与也可能在常规设置中发生遮挡的基于相机-视觉的网络相当不同。例如,如由图6中的图像600所示,与三个不同对象相对应的三个不同边界框彼此重叠。一方面,可以在对象检测神经网络的情况下使用非最大抑制(组合目标对象周围的多个边界框,从而降至一个边界框),以抑制重叠的边界框,从而减少剩余边界框的数量并且使这些边界框保持有最高置信度。由于在用于车辆的基于雷达的对象检测的情况下不应存在重叠车辆,因此可以改变非最大抑制的参数以对这种差异(例如,可以改变重叠阈值和潜在边界框数量)做出解释。

多个重叠边界框预测可以用于估计网络的关于预测的不确定度。在大多数情况下,与相机图像不同,针对雷达帧,重叠框中仅一个可以对应于物理目标。由于对象检测神经网络始终输出设定数量的边界框,因此在多个检测对应于同一对象的情况下,在仅用于保持最高置信度的检测的算法中需要存在最终步骤。然而,其中检测(对应于同一对象)彼此重叠的图案(例如,密度、扩散等)可以用于推导系统的不确定度。例如,如果检测(对应于同一对象)在位置上具有较大变化,则可能指示对象检测神经网络不确定待检测的对象的位置。这种信息可以用于估计关于检测位置的网络的不确定度。

作为本文中所公开的用于确定结果514的另一种技术,计算后端512可以使用基于递归雷达的对象检测神经网络将推断时间(即,使模型(神经网络)进行基于输入得到最终预测所需的计算所花费的时间)大幅度加速。通常,将对每个雷达帧执行上文所描述的神经网络技术。一种用于将平均推断时间加速的有效方式是仅在雷达帧的子集上运行网络,并且在省略步骤中预测对象检测(即,在这种上下文中为帧)。类似于运动图像专家组(MPEG)编码器,可以将雷达帧的子集标识为关键帧(其可以均匀或不均匀地分布于时间轴中)。将这些关键帧(例如,图7中的关键帧702)馈送到基于RNN雷达的对象检测神经网络。然后,训练预期针对关键帧702之间的预测帧(称为“p帧”并在图7中示出为p帧704)来输出边界框的网络。这种网络学习如何生成(或更好地合成)未来帧的高级特征图,使得单发检测(singleshot detection,SSD)头可以对网络将无法看到的这些未来帧执行有效对象检测。这种技术应在推断时间方面提供显著改善。

SSD是一种用于使用单个深度神经网络来检测图像中的对象的方法。SSD通过不同长宽比将边界框的输出空间离散化成默认框集合,并且按特征图位置进行缩放。在预测时间处,对象检测神经网络针对每个默认框中的每个对象类别的存在来生成分数,并且产生对框的调整以与对象形状更好地匹配。另外,网络组合根据具有不同分辨率的多个特征图的预测,以自然地处置各种大小的对象。SSD模型消除提议生成和后续像素或特征重采样阶段,并且封装单个网络中的所有计算。这使得SSD易于训练,并且使得SSD直接地集成到需要检测组件的系统中。

在这点上进行扩展,混合跟踪技术可以用于加速推断。在自主驾驶的情况下,考虑到从一个帧到下一帧边界框通常不会大幅度改变的事实,基于雷达的对象检测神经网络可以仅在帧(例如,关键帧702)的子集上运行。针对p帧(例如,p帧704),可以使用简单的跟踪途径(例如,双线性外插/内插-在直线遇到弄2D网格上扩展两个变量的内插函数的线性内插)或更复杂的跟踪途径(例如,具有轨迹片段(路径的小子区段或对象在其原点与目的地之间的“轨迹”)的卡尔曼(Kalman)滤波)来更新边界框的位置。实际上,这可以导致小百分比的mAP减小,但具有对应速度。

然而,如果新对象突然出现于帧中,则它可能通过在每个帧上不运行完整对象检测神经网络而被错过。一种用于解决这个问题的方式是具有浅层异常检测网络,该浅层异常检测网络可以告知关键帧的边界应何时被重置(或用作关键帧检测器)。可以在运行完整对象检测神经网络时使用帧间的地面实况(GT)(由直接观察提供的信息,而非由推断提供的信息)的差异来训练这种网络。这意味着异常检测网络可以被训练成通过使用GT框(即,标注)来检测新对象何时出现在场景中。通过具有开始和结束的时间来跟踪标注。因此,使用GT标注,易于告知帧何时为“异常”--该帧是对象首次出现的帧。

另一方面,计算后端512可以使用消耗4D{距离,方位角,多普勒,高度}张量(在本文中称为“SliceNet”)的多个2D片段的神经网络架构。“片段”是降维方法的结果,诸如沿着一个或多个维度对(雷达返回的)功率进行求和。先前,雷达感知仅依赖于用于检测对象的距离-方位角片段。结果,多普勒信息被有效地忽略。相比之下,图8示出了SliceNet架构800,该架构在将选取片段的集合融合在一起作为3D张量810并且随后将其与对象检测神经网络的其余部分(即,对象检测网络的剩余层在这种张量之后出现)融合之前针对来自该选取片段的集合的每个2D片段(例如,距离-方位角802、距离-多普勒804和方位角-多普勒806)来使用单独的特征提取层。这意味着更多卷积层紧接在经处理的片段已被合并成3D张量之后。因此,每个片段由专用卷积神经网络分支来处理。然后结果被融合成单个3D张量,并且另一种卷积神经网络采用这种3D张量作为输入并且最终输出对象检测。所组合的架构称为“SliceNet”。这针对计算后端512处的对象分类和检测产生改善性能。

本文中也公开了潜在空间自我运动补偿技术。当将具有连续时间戳的输入帧馈送到对象检测神经网络时,自我运动(雷达系统自身(例如,在车辆100移动时的雷达214)的运动)使得来自雷达系统的输入更加难以由计算后端512进行解释。当尝试预测检测到的对象(例如,其它车辆、行人等)的运动时,这可能尤其存在问题。例如,如上文参考图4所讨论的,雷达成像并非平移等变的,因此自我运动的补偿是很重要的。例如,雷达信号无法在图像平面中平移。本项技术的基于LiDAR的途径的当前状态依赖于自我运动补偿,如描述于例如Luo等人发表的“Fast and Furious:Real Time End-to-End3D Detection,Tracking andMotion Forecasting with a Single Convolutional Net”中,其以全文引用的方式并入本文中。

为了解决这些问题,本公开提供了图9中所示的潜在空间自我运动补偿技术。参考图9,将每个输入帧902和904(在t

接下来,获得帧902与904之间的自我运动。帧902与904之间的自我运动是雷达传感器的位置的变化。这可以用各种方式(诸如GPS或其它传感器)来获得,或者神经网络可以估计该运动,包括转动(即,车辆100的取向的变化)。

接下来,将每个关键帧902和904的自我坐标转换成世界坐标。转换过程通过将空特征张量初始化(空间上大于原始空特征张量(对应于帧902和904的特征图910和912))而开始。这种新张量是“世界坐标”,这意味着静止对象随着时间推移仍然在特征图上的相同位置中,并且自我位置可以改变(取决于自我运动)。基于根据该过程的前一步骤的自我运动,将每个帧902和904的特征图910和912分别变换为世界坐标的新特征图914和916。这包括在未看到的但可潜在地在其它帧中看到的区域中用0填充特征图914和/或916。

在图9的示例中,将第二帧904选择为世界帧,并且因此,在特征图912与916之间不存在变换。相比之下,第一帧902被变换。在图9的示例中,这种变换仅为在x轴上的平移。

接下来,将所得的特征图集合(即,世界坐标特征图914和916)组合成组合特征图918。它们可以各种方式组合。作为第一选项,可以使用编索引过程来组合它们。例如,如果并未在帧中的任一个中看见区域,则将其保留为“0”值。如果仅在一个帧上看见区域,则使用那些值。并且如果在多个帧上看见区域,则使用例如那些值的平均值。作为第二选项,可以使用神经网络。该网络将采用世界坐标中的多个特征图914和916作为输入,并且产生组合特征图918。组合特征图918然后由输出对象检测922的SSD 920处理。

本文中还公开了用于使用LiDAR传感器216和相机212对雷达信号(例如,雷达214的输出)进行交叉传感器标注的技术。LiDAR是其中LiDAR传感器216发射脉冲式激光并用传感器测量反射的激光脉冲的检测技术。激光脉冲返回时间和波长的差异可以用于确定距激光脉冲的路径中的对象的距离。

可以用来自LiDAR传感器216的数据来自动或手动地标注雷达信号。针对自动LiDAR标注,LiDAR信号可以用于检测和定位感兴趣的对象(例如,车辆、行人、道路标志等)(例如,确定该感兴趣的对象的一般位置)。然后可以用3D边界框来标识所生成的LiDAR帧内的感兴趣的对象。可以使用LiDAR传感器216与雷达214之间的非本征校准将边界框从LiDAR帧映射到雷达帧。

手动标注可以用上文所描述的自动标注来自举。例如,可以由人根据刮擦手动地标注雷达帧,或者可以通过使来自三个互补传感器、相机212、LiDAR216和雷达214的数据可视化来校正自动标注。

一方面,如由图10中的方法1000所示,可以执行早期LiDAR雷达融合来改善自动标注的质量。“Fast and Furious:Real Time End-to-End 3D Detection,Tracking andMotion Forecasting with a Single Convolutional Net”中所公开的方法可以用于将LiDAR点云数据(1004)转换成鸟瞰图距离-方位角张量(1006)。可以将这种张量与原始雷达数据(1002)串接(1008),该原始雷达数据用作对象检测神经网络(1010)的输入以执行对象检测(1012)。雷达和LiDAR彼此互补,因为雷达能够检测远距离处的对象,而LiDAR提供短距离处的细节。另外,当LiDAR安装于车辆100的顶部时,LiDAR有时可以从上方“看见”其它车辆。

另一方面,如由图11中的方法1100所示,可以执行中间LiDAR雷达融合以改善自动标注的质量。而且,“Fast and Furious:Real Time End-to-End 3D Detection,Trackingand Motion Forecasting with a Single Convolutional Net”中所公开的方法可以用于将LiDAR点云数据(1108)转换成鸟瞰图笛卡尔张量(1110)。神经网络(1104;1112)在两个单独的分支中处理原始雷达数据(1102)和LiDAR张量(1110)以提取特征。使用下文所描述的方法将雷达特征变换到笛卡尔坐标空间(1106)。然后将雷达与LiDAR特征串接(1114)以供神经网络(1116)针对对象检测(1118)进行进一步处理。

本文中还公开了针对雷达信号处理具有极坐标至笛卡尔坐标变换的神经网络。用于自主驾驶的成像雷达的目标是产生输出世界的高分辨率语义表示的基于雷达的系统(道路世界模型)。道路世界模型可以提供其它车辆、行人和静态对象的位置、其维度、速度等等。与传统雷达相比,通过改善的硬件(例如,更多天线)与改善的信号处理的组合实现成像雷达。在信号处理侧,深度学习技术用于解释雷达信号(如在上文所描述的各种技术中)。

雷达信号的“原生格式”处于极坐标空间中。在极坐标空间中,一个轴表示距离而另一轴表示方位角,如图12中所示,雷达帧是每个距离-方位角分组中的雷达信号的功率的2D“图像”。在图12中,相机帧1210在左侧,极坐标空间中的原始雷达帧1220在中心,而笛卡尔坐标空间中的内插雷达帧1230在右侧。表示对象(此处为车辆)位置的地面实况标注框1222和1232分别覆盖在雷达帧1220与内插雷达帧1230上。

这种极坐标空间由雷达传感器起作用的方式引起。例如,方位角方向被测量作为相邻天线之间的相位差并与使用FFT算法来检索。雷达可以在原则上感测180度,但是分辨率朝向所得雷达帧的最左边边缘和最右边边缘会更低。因为用于汽车应用的优选输出空间是笛卡尔(x-y),所以极坐标空间针对深度学习信号处理面临挑战。

图13示出了左侧的极坐标空间中的采样网格1310,其被变换为右侧的笛卡尔坐标空间中的采样网格1320。如图可看出的,采样网格1320越远离雷达源(即,采样网格1320的底部中心),在笛卡尔坐标空间中就变得越稀疏。图13还示出了分辨率朝向采样网格1320的左边缘和右边缘会更低。

本公开提出了一种神经网络,该神经网络在极坐标空间中采用其输入的地图,但在笛卡尔坐标空间中进行输出。图14示出了高速公路汽车场景中的对象检测的示例神经网络架构1400。通过固定功能的极坐标至笛卡尔坐标变换层1410在神经网络内部执行变换。即,神经网络架构1400不必学习变换。固定功能的极坐标至笛卡尔坐标变换层1410使用最近邻映射(用于通过在最近的已知样本处取值而在仅仅已知离散点的真实值时估计空间中的点处的值的算法)、双线性内插或双立方内插(用于对二维规则网格上的数据点进行内插的立方内插的扩展)将特征从极坐标空间(表示为极坐标空间帧1402)映射到笛卡尔坐标空间(表示为笛卡尔坐标空间帧1404)。在变换之后,神经网络架构1400继续是几个更多卷积层(由具有分辨率“64×64”的特征图表示)。最后,“SSD头”1406执行对象检测。整个网络端对端地进行训练(而非单独地逐片段训练)。神经网络架构1400在本文中称为“极坐标至笛卡尔坐标”网络。应当注意,被标记为“256×64”、“128×32”、“64×32”等的块/特征图是具有标记的分辨率的特征图。

实际上,完整的笛卡尔地图并非所需的。对于高速公路汽车应用,例如,优选地前方仅250米可见,而左右侧仅25米可见。因此,将剪裁作为极坐标至笛卡尔坐标变换的部分来执行,从而减少计算时间和存储器使用率。

具有上文在图14中所描述的极坐标输入空间和笛卡尔坐标输出空间的可端对端训练的神经网络架构1400存在多个优点。第一个优点是更高准确度和更稳定的结果。例如,精确度的度量mAP可以通过从笛卡尔坐标至笛卡尔坐标网络切换至极坐标至笛卡尔坐标网络(例如,神经网络架构1400)而(相对)增加20%。在定性意义上,极坐标至笛卡尔坐标网络的结果优于极坐标至极坐标网络和笛卡尔坐标至笛卡尔坐标网络两者。例如,在帧之间的闪烁较少并且错过的检测较少。

第二个优点是与笛卡尔坐标至笛卡尔坐标网络相比,减少了计算时间,这是因为对于大多数处理而言,输入可以保持在(存储高效的)极坐标空间中。在实验中,极坐标至笛卡尔坐标网络比笛卡尔坐标至笛卡尔坐标网络快2.3倍。

另一个优点是获得笛卡尔坐标空间中的对象不需要后处理。

另一个优点是由于极坐标至笛卡尔坐标网络(例如,神经网络架构1400)的输出处于笛卡尔坐标,因此该输出与处于极坐标(其中对象取决于检测到该对象的位置而变形)相比具有平移等变的优点。

又一个优点是因为所有车辆均具有类似大小,所以仅需要单个SSD头。在极坐标空间中,邻近对象被检测为是非常宽的,从而在多个特征层处需要对象检测。

图15示出了根据本公开的各方面的采用深度学习来分析雷达信号的示范性方法1500。一方面,方法1500可以由主车辆的车载计算机(诸如车辆100的OBC 200)来执行。

在1510处,OBC从主车辆的雷达传感器(例如,雷达214)接收多个雷达帧(例如,雷达帧420)。一方面,操作1510可以由(多个)系统接口210、数据总线208、存储器204和/或(多个)处理器206(其中的任一个或所有可以被视为用于执行这种操作的部件)来执行。

在1520处,OBC对多个雷达帧的至少子集(例如,关键帧702)执行神经网络。一方面,操作1520可以由(多个)处理器206(其可被视为用于执行这种操作的部件)来执行。

在1530处,OBC基于对多个雷达帧的子集执行神经网络来在多个雷达帧的子集中检测一个或多个对象(例如,车辆)。一方面,操作1530可以由(多个)处理器206(其可被视为用于执行这种操作的部件)来执行。

图16示出了在神经网络中将极坐标变换为笛卡尔坐标的示范性方法1600。一方面,方法1600可以由主车辆的车载计算机(诸如车辆100的OBC200)来执行。

在1610处,OBC接收极坐标空间中的多个雷达帧(例如,雷达帧420)或多个雷达帧的一个或多个潜在表示(已由神经网络处理的雷达帧)。一方面,操作1610可以由(多个)系统接口210、数据总线208、存储器204和/或(多个)处理器206(其中的任一个或所有可以被视为用于执行这种操作的部件)来执行。

在1620处,OBC将多个雷达帧或多个雷达帧的一个或多个潜在表示从极坐标空间变换到笛卡尔坐标空间。一方面,操作1620可以由(多个)处理器206(其可以被视为用于执行这种操作的部件)来执行。

在1630处,OBC以笛卡尔坐标空间输出多个雷达帧或多个雷达帧的一个或多个潜在表示。一方面,操作1630可以由(多个)系统接口210、数据总线208、存储器204和/或(多个)处理器206(其中的任一个或所有可以被视为用于执行这种操作的部件)来执行。

应当注意,尽管在本文中的各个方面中描述了特定频率、集成电路(IC)、硬件和其它特征,但是替代方面也是可改变的。即,替代方面可利用附加频率或替代频率(例如,除了60GHz和/或28GHz频率带之外)、天线元件(例如,具有不同大小/形状的天线元件阵列)、扫描周期(包括静态扫描周期和动态扫描周期两者)、电子设备(例如,移动电话、平板计算机、个人计算机(PC)等)和/或其它特征。本领域普通技术人员应当理解此类变化。

应当理解,本文中使用诸如“第一”、“第二”等等名称对元件的任何参考通常不限制那些元件的数量或次序。更确切地,这些名称在本文中可以用作区分两个或更多个元件或元件实例的便利方法。因此,对第一和第二元件的引用并不意味着在此仅可以采用两个元件,或者第一元件必须以某种方式在第二元件之前。另外,除非另有说明,否则一组元件可以包括一个或多个元件。另外,在说明书或权利要求书中所使用的形式“A、B或C中的至少一个”或“A、B或C中的一个或多个”或“由A、B和C组成的群组中的至少一个”的术语标示“A或B或C或这些元件的任何组合”。例如,这种术语可以包括A、或B、或C、或A和B、或A和C、或A和B和C、或2A、或2B、或2C等等。

鉴于上述描述和解释,本领域技术人员应当理解,结合本文公开的方面描述的各种说明性的逻辑块、模块、电路和算法步骤可以被实施成电子硬件、计算机软件或两者的组合。为了清楚地示出硬件和软件的这种可互换性,上面已经对各种说明性部件、框、模块、电路和步骤在其功能方面进行了总体描述。将这种功能性实施为硬件还是软件取决于强加于整个系统的特定应用和设计约束。技术人员可以针对每个特定应用以不同方式实施所描述的功能性,但是这种实施决策不应被解释为导致脱离本公开的范围。

因此,应当理解,例如如本文中所教导,装置或装置的任何组件可以被配置为(或可操作以或适于)提供功能性。其可以例如通过以下各项来实现:制造(例如,制作)装置或组件使得它将提供功能性;对装置或组件进行编程使得它将提供功能性;或者使用某种其它合适的实施技术。作为一个示例,集成电路可被制作以提供必需的功能性。作为另一个示例,集成电路可被制作以支持必需的功能性,然后被配置(例如,经由编程)为提供必需的功能性。作为又一示例,处理器电路可以执行代码以提供必需的功能性。

此外,结合本文公开的方面描述的方法、序列和/或算法的步骤可以直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可以驻留在随机存取存储器(RAM)、闪存、只读存储器(ROM)、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘、CD-ROM中或本领域已知的任何其它形式的存储介质中。示例性存储介质耦合到处理器,使得处理器可以从存储介质读取信息和向存储介质写入信息。在替代方案中,存储介质(例如,高速缓冲存储器)可以与处理器成一体。

因此,还应当理解,例如,本公开的某些方面可包括体现用于利用雷达图像使脸部验证个人化的方法的计算机可读介质。

尽管前述公开内容示出了各种说明性方面,但是应当注意,在不脱离由随附权利要求书所定义的范围的情况下,可以对所示的示例作出各种改变和修改。本公开不意图独自限制于具体示出的示例。例如,除非另有说明,否则根据本文描述的本公开的方面的方法权利要求的功能、步骤和/或动作不需要以任何特定的次序执行。此外,尽管某些方面可以以单数形式描述或要求保护,但是除非明确说明了限制为单数形式,否则可以想到复数形式。

相关技术
  • 基于残差深度学习的雷达信号特征提取方法
  • 基于自动化深度学习的雷达或声呐图像目标检测与分类方法
技术分类

06120113107119