掌桥专利:专业的专利平台
掌桥专利
首页

计算机系统、计算机实现的方法和计算机可读介质

文献发布时间:2024-04-18 19:58:26


计算机系统、计算机实现的方法和计算机可读介质

技术领域

本公开涉及计算机系统、计算机实现的方法和计算机可读介质。

背景技术

运载工具的环境的准确感知对于确保安全且有效的运载工具操作至关重要。然而,将各种可用的传感器模态组合成准确且有用的感知理解通常是具有挑战性的。

发明内容

一种计算机系统,包括:一个或多于一个计算机可读存储装置,其被配置为存储计算机可执行指令;以及一个或多于一个计算机处理器,其被配置为执行所述计算机可执行指令,其中,所述计算机可执行指令的执行使得所述计算机系统:获得数据对的集合,各个数据对包括:第一数据,其与表示基于区域中的运载工具的传感器数据而生成的区域的鸟瞰图的合成图像相对应,其中,所述合成图像识别区域中的对象;以及第二数据,其与表示区域中的运载工具的视点的照相机图像相对应,其中,所述照相机图像描绘所述对象;基于所述数据对的集合来训练机器学习模型以产生经训练模型,其中,所述机器学习模型包括至少一个卷积神经网络以处理所述数据对的集合,并且其中,所述机器学习模型接受所述数据对的集合的给定数据对作为输入,并且提供与所述给定数据对相对应的对象的预测运动作为输出;以及将所述经训练模型传输到目的地运载工具,其中,所述目的地运载工具被配置为将所述经训练模型应用于所述目的地运载工具的传感器数据,以预测在所述传感器数据内识别出的目标对象的运动。

附图说明

图1是可以实现包括自主系统的一个或多于一个组件的运载工具的示例环境;

图2是包括自主系统的运载工具的一个或多于一个系统的图;

图3是图1和图2的一个或多于一个装置和/或一个或多于一个系统的组件的图;

图4A是自主系统的某些组件的图;

图4B是神经网络的实现的图;

图4C和图4D是例示卷积神经网络的示例操作的图;

图5-图9是用于将来自感知系统的合成图像和来自附加传感器模态的数据(诸如来自照相机的图像等)融合的机器学习模型的示例实现的图;

图10描绘了用于训练机器学习模型以将感知系统的输出和附加传感器模态的数据融合的示例例程;以及

图11描绘了利用经训练的机器学习模型来预测对象运动或规划运载工具的动作的例程。

具体实施方式

在以下描述中,为了解释的目的,阐述了许多具体细节,以便提供对本公开的透彻理解。然而,本公开所描述的实施例可以在没有这些具体细节的情况下实施将是明显的。在一些实例中,众所周知的构造和装置是以框图形式例示的,以避免不必要地使本公开的方面模糊。

在附图中,为了便于描述,例示了示意要素(诸如表示系统、装置、模块、指令块和/或数据要素等的那些要素等)的具体布置或次序。然而,本领域技术人员将要理解,除非明确描述,否则附图中示意要素的具体次序或布置并不意在意味着要求特定的处理次序或序列、或处理的分离。此外,除非明确描述,否则在附图中包含示意要素并不意在意味着在所有实施例中都需要这种要素,也不意在意味着由这种要素表示的特征不能包括在一些实施例中或不能在一些实施例中与其他要素结合。

此外,在附图中,连接要素(诸如实线或虚线或箭头等)用于例示两个或多于两个其他示意要素之间或之中的连接、关系或关联,没有任何此类连接要素并不意在意味着不能存在连接、关系或关联。换句话说,要素之间的一些连接、关系或关联未在附图中例示,以便不使本公开内容模糊。此外,为了便于例示,可以使用单个连接要素来表示要素之间的多个连接、关系或关联。例如,如果连接要素表示信号、数据或指令(例如,“软件指令”)的通信,本领域技术人员应理解,这种要素可以表示影响通信可能需要的一个或多于一个信号路径(例如,总线)。

尽管使用术语“第一”、“第二”和/或“第三”等来描述各种要素,但这些要素不应受这些术语的限制。术语“第一”、“第二”和/或第三”等仅用于区分一个要素与另一要素。例如,在没有背离所描述的实施例的范围的情况下,第一触点可被称为第二触点,并且类似地,第二触点可被称为第一触点。第一触点和第二触点这两者都是触点,但它们不是相同的触点。

在本文所描述的各种实施例的说明书中使用的术语仅是为了描述特定实施例的目的而包括的,而不是意在限制。如在所描述的各种实施例的说明书和所附权利要求书中所使用的,单数形式“a”、“an”和“the”也意在包括复数形式,并且可以与“一个或多于一个”或者“至少一个”互换使用,除非上下文另有明确说明。还将理解的是,如本文所使用的术语“和/或”是指并且包括关联的列出项中的一个或多于一个的任何和所有可能的组合。还将理解的是,当在本说明书中使用术语“包括”、“包含”、“具备”和/或“具有”时,具体说明存在所陈述的特征、整数、步骤、操作、要素和/或组件,但并不排除存在或添加一个或多于一个其他特征、整数、步骤、操作、要素、组件和/或其群组。

如本文所使用的,术语“通信”和“进行通信”是指信息(或者由例如数据、信号、消息、指令和/或命令等表示的信息)的接收、收到、传输、传送和/或提供等中的至少一者。对于要与另一单元进行通信的一个单元(例如,装置、系统、装置或系统的组件、以及/或者它们的组合等)而言,这意味着该一个单元能够直接地或间接地从另一单元接收信息和/或向该另一单元发送(例如,传输)信息。这可以是指本质上为有线和/或无线的直接或间接连接。另外,即使可以在第一单元和第二单元之间修改、处理、中继和/或路由所传输的信息,两个单元也可以彼此进行通信。例如,即使第一单元被动地接收信息并且不主动地向第二单元传输信息,第一单元也可以与第二单元进行通信。作为另一示例,如果至少一个中介单元(例如,位于第一单元和第二单元之间的第三单元)处理从第一单元接收到的信息、并将处理后的信息传输至第二单元,则第一单元可以与第二单元进行通信。在一些实施例中,消息可以是指包括数据的网络分组(例如,数据分组等)。

如本文所使用的,取决于上下文,术语“如果”可选地被解释为意指“当…时”、“在…时”、“响应于确定为”和/或“响应于检测到”等。类似地,取决于上下文,短语“如果已确定”或“如果检测到[所陈述的条件或事件]”可选地被解释为意指“在确定…时”、“响应于确定为“或”在检测到[所陈述的条件或事件]时”和/或“响应于检测到[所陈述的条件或事件]”等。此外,如本文所使用的,术语“有”、“具有”或“拥有”等旨在是开放式术语。此外,除非另有明确说明,否则短语“基于”意在是意味着“至少部分基于”。

现在将详细参考实施例,其示例在附图中例示出。在以下的详细描述中,阐述了许多具体细节,以便提供对所描述的各种实施例的透彻理解。然而,对于本领域的普通技术人员来说将明显的是,可以在没有这些具体细节的情况下实施所描述的各种实施例。在其他情况下,尚未详细描述众所周知的方法、过程、组件、电路和网络,以便不会不必要地使实施例的方面模糊。

总体概述

在一些方面和/或实施例中,本文描述的系统、方法和计算机程序产品包括和/或实现照相机图像与自主运载工具的感知系统的输出的融合以用于诸如规划或运动预测等的目的。通常,自主运载工具具有用于尝试感知自主运载工具的环境的诸如照相机、lidar或雷达等的各种的传感器模态。然后,这些感知被用作诸如规划系统等的其他系统的输入,以控制运载工具的操作。因此,运载工具的环境的准确感知对于确保安全且有效的运载工具操作至关重要。然而,将各种可用的传感器模态组合成准确且有用的感知理解通常是具有挑战性的。在实践中,经常会出现一个模态优于其他模态或者甚至是其他模态的组合。例如,用于提供对环境的上下文理解的一个机制是产生运载工具周围的区域的鸟瞰图(BEV)合成图像,其中鸟瞰图(BEV)合成图像根据运载工具正上方的视图对例如运载工具和运载工具周围的对象建模。当产生这样的BEV合成图像时,经常出现的是单独使用诸如lidar等的一个模态比试图组合多个模态产生更准确的结果。例如,这可能是由于一个模态的准确性增加或者难以将来自其他模态的数据投影到相关视图中而发生的。然而,该模态可能无法捕获大多数人类直观理解的对于准确的运载工具操作重要的重要上下文。例如,单独的lidar可能无法捕获诸如其他运载工具上的制动灯或转向信号的存在(或不存在)等的重要的信号,其中这些信号可以指示其他运载工具的可能运动,从而表示用于规划自主运载工具的动作的重要数据。因此,自主运载工具通常需要在感知其环境时因包含多个传感器模态而导致的准确性降低和因模态有限而导致的上下文丢失之间做出决定。

本公开的实施例通过提供附加传感器模态的输出与感知系统的输出的融合以如下方式来提供对这些问题的解决方案:在不干扰感知系统的准确性的情况下提供从那些附加传感器模态捕获上下文。具体地,如本文所公开的,机器学习模型可以被训练以将感知系统的诸如BEV图像等的输出和来自附加传感器模态的诸如照相机图像等的数据作为输入。例如,机器学习模型可以包括将合成BEV图像和原始照相机图像作为输入的一个或多于一个卷积神经网络。然后,机器学习模型可以输出用于运动预测或规划的信息。例如,在BEV图像表示运载工具的环境中的对象(例如,其他运载工具)并且原始照相机图像描绘该对象的情况下,机器学习模型的输出可以表示对象的预测运动。说明性地,如果对象是其他运载工具,并且照相机图像捕获到其他运载工具的制动灯被点亮,则该模型可以输出该运载工具可能停止的预测。以该方式,在BEV图像内捕获的数据可以用来自附加传感器模态的数据来补充。因为来自附加传感器模态的数据在感知系统的输出(如BEV图像)生成之后与其组合,所以附加传感器模态的数据不会如用以生成感知系统的初始输出所可能引入的那样干扰感知系统。因此,这些实施例使得能够以克服在感知系统中简单地包含附加传感器模态的数据的挑战的方式捕获来自附加传感器模态的上下文。

除了对象的运动预测之外,本公开的实施例还可以提供自主运载工具处的动作规划。说明性地,可能期望运载工具尽可能以熟练的人类驾驶员会操作的方式进行操作。相应地,人类驾驶员可以利用在一些但不是所有传感器模态中捕获的诸如制动灯、转向信号等的上下文。因此,本公开的实施例可以包括机器学习模型,其中除了感知对象的运动预测之外或者作为感知对象的运动预测的替代,机器学习模型利用感知系统输出(例如,合成BEV图像)和附加传感器模态的数据的组合以提供运载工具的规划动作。

鉴于本公开,本领域技术人员将会理解,本文公开的实施例提高了计算系统(诸如包括在自动驾驶运载工具内的或支持自动驾驶运载工具操作的计算装置等)进行对象运动预测或运载工具规划的能力。此外,当前公开的实施例应对了计算系统中固有的技术问题;具体地,难以准确地并以跨这些模态捕获各种可用上下文信息的方式组合多个传感器模态的数据。这些技术问题通过本文描述的包括机器学习模型的使用的各种技术解决方案来应对,其中该机器学习模型被训练以将感知系统的(诸如合成BEV图像等的)输出和附加传感器模态的(诸如照相机图像等的)数据进行组合以产生预测对象运动或规划动作。因此,本公开总体上表示计算机视觉系统和计算系统的改进。

当本公开的前述方面和许多伴随的优点结合附图参考以下描述变得更好理解时,将变得更容易理解。

现在参考图1,例示示例环境100,在该示例环境100中,包括自主系统的运载工具以及不包括自主系统的运载工具进行操作。如所例示的,环境100包括运载工具102a-102n、对象104a-104n、路线106a-106n、区域108、运载工具到基础设施(V2I)装置110、网络112、远程自主运载工具(AV)系统114、队列管理系统116和V2I系统118。运载工具102a-102n、运载工具到基础设施(V2I)装置110、网络112、自主运载工具(AV)系统114、队列管理系统116和V2I系统118经由有线连接、无线连接、或者有线或无线连接的组合互连(例如,建立用于通信的连接等)。在一些实施例中,对象104a-104n经由有线连接、无线连接、或者有线或无线连接的组合与运载工具102a-102n、运载工具到基础设施(V2I)装置110、网络112、自主运载工具(AV)系统114、队列管理系统116和V2I系统118中的至少一者互连。

运载工具102a-102n(单独称为运载工具102且统称为运载工具102)包括被配置为运输货物和/或人员的至少一个装置。在一些实施例中,运载工具102被配置为与V2I装置110、远程AV系统114、队列管理系统116和/或V2I系统118经由网络112进行通信。在一些实施例中,运载工具102包括小汽车、公共汽车、卡车和/或火车等。在一些实施例中,运载工具102与本文所述的运载工具200(参见图2)相同或类似。在一些实施例中,一组运载工具200中的运载工具200与自主队列管理器相关联。在一些实施例中,如本文所述,运载工具102沿着相应的路线106a-106n(单独称为路线106且统称为路线106)行驶。在一些实施例中,一个或多于一个运载工具102包括自主系统(例如,与自主系统202相同或类似的自主系统)。

对象104a-104n(单独称为对象104且统称为对象104)例如包括至少一个运载工具、至少一个行人、至少一个骑车者和/或至少一个构造物(例如,建筑物、标志、消防栓等)等。各对象104(例如,位于固定地点处并在一段时间内)是静止的或(例如,具有速度且与至少一个轨迹相关联地)移动。在一些实施例中,对象104与区域108中的相应地点相关联。

路线106a-106n(单独称为路线106且统称为路线106)各自与连接AV可以导航所沿着的状态的一系列动作(也称为轨迹)相关联(例如,规定该一系列动作)。各个路线106始于初始状态(例如,与第一时空地点和/或速度等相对应的状态),并且结束于最终目标状态(例如,与不同于第一时空地点的第二时空地点相对应的状态)或目标区(例如,可接受状态(例如,终止状态)的子空间)。在一些实施例中,第一状态包括一个或多于一个个体将要搭载AV的地点,并且第二状态或区包括搭载AV的一个或多于一个个体将要下车的一个或多于一个地点。在一些实施例中,路线106包括多个可接受的状态序列(例如,多个时空地点序列),这多个状态序列与多个轨迹相关联(例如,限定多个轨迹)。在示例中,路线106仅包括高级别动作或不精确的状态地点,诸如指示在车行道交叉口处转换方向的一系列连接道路等。附加地或可替代地,路线106可以包括更精确的动作或状态,诸如例如车道区域内的特定目标车道或精确地点以及这些位置处的目标速率等。在示例中,路线106包括沿着具有到达中间目标的有限前瞻视界的至少一个高级别动作的多个精确状态序列,其中有限视界状态序列的连续迭代的组合累积地与共同形成在最终目标状态或区处终止的高级别路线的多个轨迹相对应。

区域108包括运载工具102可以导航的物理区域(例如,地理区)。在示例中,区域108包括至少一个州(例如,国家、省、国家中所包括的多个州中的单独州等)、州的至少一部分、至少一个城市、城市的至少一部分等。在一些实施例中,区域108包括至少一个已命名干道(本文称为“道路”),诸如公路、州际公路、公园道路、城市街道等。附加地或可替代地,在一些示例中,区域108包括至少一个未命名道路,诸如行车道、停车场的一段、空地和/或未开发地区的一段、泥路等。在一些实施例中,道路包括至少一个车道(例如,道路的运载工具102可以穿过的部分)。在示例中,道路包括与至少一个车道标记相关联的(例如,基于至少一个车道标记所识别的)至少一个车道。

运载工具到基础设施(V2I)装置110(有时称为运载工具到万物(Vehicle-to-Everything)(V2X)装置)包括被配置为与运载工具102和/或V2I系统118进行通信的至少一个装置。在一些实施例中,V2I装置110被配置为与运载工具102、远程AV系统114、队列管理系统116和/或V2I系统118经由网络112进行通信。在一些实施例中,V2I装置110包括射频识别(RFID)装置、标牌、照相机(例如,二维(2D)和/或三维(3D)照相机)、车道标记、路灯、停车计时器等。在一些实施例中,V2I装置110被配置为直接与运载工具102进行通信。附加地或可替代地,在一些实施例中,V2I装置110被配置为与运载工具102、远程AV系统114和/或队列管理系统116经由V2I系统118进行通信。在一些实施例中,V2I装置110被配置为与V2I系统118经由网络112进行通信。

网络112包括一个或多于一个有线和/或无线网络。在示例中,网络112包括蜂窝网络(例如,长期演进(LTE)网络、第三代(3G)网络、第四代(4G)网络、第五代(5G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网(例如,公共交换电话网(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络、云计算网络等、以及/或者这些网络中的一部分或全部的组合等。

远程AV系统114包括被配置为与运载工具102、V2I装置110、网络112、队列管理系统116和/或V2I系统118经由网络112进行通信的至少一个装置。在示例中,远程AV系统114包括服务器、服务器组和/或其他类似装置。在一些实施例中,远程AV系统114与队列管理系统116位于同一位置。在一些实施例中,远程AV系统114参与运载工具的组件(包括自主系统、自主运载工具计算和/或由自主运载工具计算实现的软件等)中的一部分或全部的安装。在一些实施例中,远程AV系统114在运载工具的寿命期间维护(例如,更新和/或更换)这些组件和/或软件。

队列管理系统116包括被配置为与运载工具102、V2I装置110、远程AV系统114和/或V2I系统118进行通信的至少一个装置。在示例中,队列管理系统116包括服务器、服务器组和/或其他类似装置。在一些实施例中,队列管理系统116与拼车公司(例如,用于控制多个运载工具(例如,包括自主系统的运载工具和/或不包括自主系统的运载工具)的操作等的组织)相关联。

在一些实施例中,V2I系统118包括被配置为与运载工具102、V2I装置110、远程AV系统114和/或队列管理系统116经由网络112进行通信的至少一个装置。在一些示例中,V2I系统118被配置为与V2I装置110经由不同于网络112的连接进行通信。在一些实施例中,V2I系统118包括服务器、服务器组和/或其他类似装置。在一些实施例中,V2I系统118与市政当局或私营机构(例如,用于维护V2I装置110的私营机构等)相关联。

提供图1所例示的要素的数量和布置作为示例。与图1例示的要素相比,可以存在附加的要素、更少的要素、不同的要素和/或不同布置的要素。附加地或可替代地,环境100的至少一个要素可以进行被描述为由图1的至少一个不同要素进行的一个或多于一个功能。附加地或可替代地,环境100的至少一组要素可以进行被描述为由环境100的至少一个不同组的要素进行的一个或多于一个功能。

现在参考图2,运载工具200(其可以与图1的运载工具102相同或相似)包括自主系统202、动力总成控制系统204、转向控制系统206和制动系统208或与自主系统202、动力总成控制系统204、转向控制系统206和制动系统208相关联。在一些实施例中,运载工具200与运载工具102(参见图1)相同或类似。在一些实施例中,自主系统202被配置为赋予运载工具200自主驾驶能力(例如,实现如下的至少一个驾驶自动化或基于操纵的功能、特征和/或装置等,该至少一个驾驶自动化或基于操纵的功能、特征和/或装置使得运载工具200能够在无人类干预的情况下部分地或完全地操作,其包括但不限于完全自主运载工具(例如,诸如5级ADS操作的运载工具等的放弃依赖人类干预的运载工具)、高度自主运载工具(例如,诸如4级ADS操作的运载工具等的在某些情形下放弃依赖人类干预的运载工具)以及/或者有条件自主运载工具(例如,诸如3级ADS操作的运载工具等的在有限情形下放弃对人工干预的依赖的运载工具)等)。在一个实施例中,自主系统202包括在道路交通中操作运载工具200并在持续基础上进行部分或全部动态驾驶任务(DDT)所需的操作或策略功能。在另一实施例中,自主系统202包括具有驾驶支持特征的高级驾驶辅助系统(ADAS)。自主系统202支持范围从无驾驶自动化(例如,0级)至完全驾驶自动化(例如,5级)的各种级别的驾驶自动化。对于完全自主运载工具和高度自主运载工具的详细描述,可以参考SAE国际标准J3016:道路上机动车自动驾驶系统相关术语的分类和定义(SAE International's standardJ3016:Taxonomy and Definitions for Terms Related to On-Road Motor VehicleAutomated Driving Systems),其全部内容通过引用而被包含。在一些实施例中,运载工具200与自主队列管理器和/或拼车公司相关联。

自主系统202包括传感器套件,该传感器套件包括诸如照相机202a、LiDAR传感器202b、雷达(radar)传感器202c和麦克风202d等的一个或多于一个装置。在一些实施例中,自主系统202可以包括更多或更少的装置和/或不同的装置(例如,超声波传感器、惯性传感器、(以下论述的)GPS接收器、以及/或者用于生成与运载工具200已行驶的距离的指示相关联的数据的里程计传感器等)。在一些实施例中,自主系统202使用自主系统202中所包括的一个或多于一个装置来生成与本文所述的环境100相关联的数据。由自主系统202的一个或多于一个装置生成的数据可以由本文所述的一个或多于一个系统使用以观测运载工具200所位于的环境(例如,环境100)。在一些实施例中,自主系统202包括通信装置202e、自主运载工具计算202f和安全控制器202g。

照相机202a包括被配置为与通信装置202e、自主运载工具计算202f和/或安全控制器202g经由总线(例如,与图3的总线302相同或类似的总线)进行通信的至少一个装置。照相机202a包括用以捕获包括物理对象(例如,小汽车、公共汽车、路缘和/或人员等)的图像的至少一个照相机(例如,使用诸如电荷耦合器件(CCD)等的光传感器的数字照相机、热照相机、红外(IR)照相机和/或事件照相机等)。在一些实施例中,照相机202a生成照相机数据作为输出。在一些示例中,照相机202a生成包括与图像相关联的图像数据的照相机数据。在该示例中,图像数据可以指定与图像相对应的至少一个参数(例如,诸如曝光、亮度等的图像特性、以及/或者图像时间戳等)。在这样的示例中,图像可以采用格式(例如,RAW、JPEG和/或PNG等)。在一些实施例中,照相机202a包括配置在(例如,定位在)运载工具上以为了立体影像(立体视觉)的目的而捕获图像的多个独立照相机。在一些示例中,照相机202a包括生成图像数据并将该图像数据传输到自主运载工具计算202f和/或队列管理系统(例如,与图1的队列管理系统116相同或类似的队列管理系统)的多个照相机。在这样的示例中,自主运载工具计算202f基于来自至少两个照相机的图像数据来确定多个照相机中的至少两个照相机的视场中的到一个或多于一个对象的深度。在一些实施例中,照相机202a被配置为捕获在相对于照相机202a的距离(例如,高达100米和/或高达1千米等)内的对象的图像。因此,照相机202a包括为了感知在相对于照相机202a一个或多于一个距离处的对象而优化的诸如传感器和镜头等的特征。

在实施例中,照相机202a包括被配置为捕获与一个或多于一个交通灯、街道标志和/或提供视觉导航信息的其他物理对象相关联的一个或多于一个图像的至少一个照相机。在一些实施例中,照相机202a生成与一个或多于一个图像相关联的交通灯数据。在一些示例中,照相机202a生成与包括格式(例如,RAW、JPEG和/或PNG等)的一个或多于一个图像相关联的TLD(交通灯检测)数据。在一些实施例中,生成TLD数据的照相机202a与本文所述的包含照相机的其他系统的不同之处在于:照相机202a可以包括具有宽视场(例如,广角镜头、鱼眼镜头、以及/或者具有约120度或更大的视角的镜头等)的一个或多于一个照相机,以生成与尽可能多的物理对象有关的图像。

光检测和测距(LiDAR)传感器202b包括被配置为与通信装置202e、自主运载工具计算202f和/或安全控制器202g经由总线(例如,与图3的总线302相同或类似的总线)进行通信的至少一个装置。LiDAR传感器202b包括被配置为从发光器(例如,激光发射器)发射光的系统。由LiDAR传感器202b发射的光包括在可见光谱之外的光(例如,红外光等)。在一些实施例中,在操作期间,由LiDAR传感器202b发射的光遇到物理对象(例如,运载工具)并被反射回到LiDAR传感器202b。在一些实施例中,由LiDAR传感器202b发射的光不会穿透该光遇到的物理对象。LiDAR传感器202b还包括至少一个光检测器,该至少一个光检测器在从发光器发射的光遇到物理对象之后检测到该光。在一些实施例中,与LiDAR传感器202b相关联的至少一个数据处理系统生成表示LiDAR传感器202b的视场中所包括的对象的图像(例如,点云和/或组合点云等)。在一些示例中,与LiDAR传感器202b相关联的至少一个数据处理系统生成表示物理对象的边界和/或物理对象的表面(例如,表面的拓扑结构)等的图像。在这样的示例中,该图像用于确定LiDAR传感器202b的视场中的物理对象的边界。

无线电检测和测距(雷达)传感器202c包括被配置为与通信装置202e、自主运载工具计算202f和/或安全控制器202g经由总线(例如,与图3的总线302相同或类似的总线)进行通信的至少一个装置。雷达传感器202c包括被配置为发射(脉冲的或连续的)无线电波的系统。由雷达传感器202c发射的无线电波包括预先确定的频谱内的无线电波。在一些实施例中,在操作期间,由雷达传感器202c发射的无线电波遇到物理对象并被反射回到雷达传感器202c。在一些实施例中,由雷达传感器202c发射的无线电波未被一些对象反射。在一些实施例中,与雷达传感器202c相关联的至少一个数据处理系统生成表示雷达传感器202c的视场中所包括的对象的信号。例如,与雷达传感器202c相关联的至少一个数据处理系统生成表示物理对象的边界和/或物理对象的表面(例如,表面的拓扑结构)等的图像。在一些示例中,该图像用于确定雷达传感器202c的视场中的物理对象的边界。

麦克风202d包括被配置为与通信装置202e、自主运载工具计算202f和/或安全控制器202g经由总线(例如,与图3的总线302相同或类似的总线)进行通信的至少一个装置。麦克风202d包括捕获音频信号并生成与该音频信号相关联(例如,表示该音频信号)的数据的一个或多于一个麦克风(例如,阵列麦克风和/或外部麦克风等)。在一些示例中,麦克风202d包括变换器装置和/或类似装置。在一些实施例中,本文所述的一个或多于一个系统可以接收由麦克风202d生成的数据,并基于与该数据相关联的音频信号来确定对象相对于运载工具200的位置(例如,距离等)。

通信装置202e包括被配置为与照相机202a、LiDAR传感器202b、雷达传感器202c、麦克风202d、自主运载工具计算202f、安全控制器202g和/或DBW(线控)系统202h进行通信的至少一个装置。例如,通信装置202e可以包括与图3的通信接口314相同或类似的装置。在一些实施例中,通信装置202e包括运载工具到运载工具(V2V)通信装置(例如,用于实现运载工具之间的数据的无线通信的装置)。

自主运载工具计算202f包括被配置为与照相机202a、LiDAR传感器202b、雷达传感器202c、麦克风202d、通信装置202e、安全控制器202g和/或DBW系统202h进行通信的至少一个装置。在一些示例中,自主运载工具计算202f包括诸如客户端装置、移动装置(例如,蜂窝电话和/或平板电脑等)和/或服务器(例如,包括一个或多于一个中央处理单元和/或图形处理单元等的计算装置)等的装置。在一些实施例中,自主运载工具计算202f与本文所述的自主运载工具计算400相同或类似。附加地或可替代地,在一些实施例中,自主运载工具计算202f被配置为与自主运载工具系统(例如,与图1的远程AV系统114相同或类似的自主运载工具系统)、队列管理系统(例如,与图1的队列管理系统116相同或类似的队列管理系统)、V2I装置(例如,与图1的V2I装置110相同或类似的V2I装置)和/或V2I系统(例如,与图1的V2I系统118相同或类似的V2I系统)进行通信。

安全控制器202g包括被配置为与照相机202a、LiDAR传感器202b、雷达传感器202c、麦克风202d、通信装置202e、自主运载工具计算202f和/或DBW系统202h进行通信的至少一个装置。在一些示例中,安全控制器202g包括被配置为生成和/或传输控制信号以操作运载工具200的一个或多于一个装置(例如,动力总成控制系统204、转向控制系统206和/或制动系统208等)的一个或多于一个控制器(电气控制器和/或机电控制器等)。在一些实施例中,安全控制器202g被配置为生成优先于(例如,覆盖)由自主运载工具计算202f生成和/或传输的控制信号的控制信号。

DBW系统202h包括被配置为与通信装置202e和/或自主运载工具计算202f进行通信的至少一个装置。在一些示例中,DBW系统202h包括被配置为生成和/或传输控制信号以操作运载工具200的一个或多于一个装置(例如,动力总成控制系统204、转向控制系统206和/或制动系统208等)的一个或多于一个控制器(例如,电气控制器和/或机电控制器等)。附加地或可替代地,DBW系统202h的一个或多于一个控制器被配置为生成和/或传输控制信号以操作运载工具200的至少一个不同的装置(例如,转向信号灯、前灯、门锁和/或挡风玻璃雨刮器等)。

动力总成控制系统204包括被配置为与DBW系统202h进行通信的至少一个装置。在一些示例中,动力总成控制系统204包括至少一个控制器和/或致动器等。在一些实施例中,动力总成控制系统204从DBW系统202h接收控制信号,并且动力总成控制系统204使运载工具200进行诸如开始向前移动、停止向前移动、开始向后移动、停止向后移动、沿某方向加速、沿某方向减速等的纵向运载工具运动,或者进行诸如进行左转和/或进行右转等的横向运载工具运动。在示例中,动力总成控制系统204使提供至运载工具的马达的能量(例如,燃料和/或电力等)增加、保持相同或减少,由此使运载工具200的至少一个轮旋转或不旋转。

转向控制系统206包括被配置为使运载工具200的一个或多于一个轮旋转的至少一个装置。在一些示例中,转向控制系统206包括至少一个控制器和/或致动器等。在一些实施例中,转向控制系统206使运载工具200的两个前轮和/或两个后轮向左或向右旋转,以使运载工具200左转或右转。换句话说,转向控制系统206使得进行调节运载工具运动的y轴分量所必需的活动。

制动系统208包括被配置为使一个或多于一个制动器致动以使运载工具200减速和/或保持静止的至少一个装置。在一些示例中,制动系统208包括被配置为使与运载工具200的一个或多于一个轮相关联的一个或多于一个卡钳在运载工具200的相应转子上闭合的至少一个控制器和/或致动器。附加地或可替代地,在一些示例中,制动系统208包括自动紧急制动(AEB)系统和/或再生制动系统等。

在一些实施例中,运载工具200包括用于测量或推断运载工具200的状态或条件的性质的至少一个平台传感器(未明确例示出)。在一些示例中,运载工具200包括诸如全球定位系统(GPS)接收器、惯性测量单元(IMU)、轮速率传感器、轮制动压力传感器、轮转矩传感器、引擎转矩传感器和/或转向角传感器等的平台传感器。尽管制动系统208在图2中被示出为位于运载工具200的近侧,但是制动系统208可以位于运载工具200中的任何地方。

现在参考图3,例示装置300的示意图。如所例示的,装置300包括处理器304、存储器306、存储组件308、输入接口310、输出接口312、通信接口314和总线302。在一些实施例中,装置300与运载工具102的至少一个装置、远程AV系统114、队列管理系统116、运载工具到基础设施系统118和/或网络112相对应。在一些实施例中,运载工具102的一个或多于一个装置、远程AV系统114、队列管理系统116、运载工具到基础设施系统118和/或网络112以及/或者网络112的一个或多于一个装置(例如,网络112的系统的一个或多于一个装置)包括至少一个装置300和/或装置300的至少一个组件。如图3所示,装置300包括总线302、处理器304、存储器306、存储组件308、输入接口310、输出接口312和通信接口314。

总线302包括许可装置300的组件之间的通信的组件。在一些情况下,处理器304包括处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)和/或加速处理单元(APU)等)、麦克风、数字信号处理器(DSP)、以及/或者可被编程为进行至少一个功能的任意处理组件(例如,现场可编程门阵列(FPGA)和/或专用集成电路(ASIC)等)。存储器306包括随机存取存储器(RAM)、只读存储器(ROM)、以及/或者存储供处理器304使用的数据和/或指令的另一类型的动态和/或静态存储装置(例如,闪速存储器、磁存储器和/或光存储器等)。

存储组件308存储与装置300的操作和使用相关的数据和/或软件。在一些示例中,存储组件308包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘等)、紧凑盘(CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带、CD-ROM、RAM、PROM、EPROM、FLASH-EPROM、NV-RAM和/或另一类型的计算机可读介质、以及相应的驱动器。

输入接口310包括许可装置300诸如经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风和/或照相机等)等接收信息的组件。附加地或可替代地,在一些实施例中,输入接口310包括用于感测信息的传感器(例如,全球定位系统(GPS)接收器、加速度计、陀螺仪和/或致动器等)。输出接口312包括用于提供来自装置300的输出信息的组件(例如,显示器、扬声器和/或一个或多于一个发光二极管(LED)等)。

在一些实施例中,通信接口314包括许可装置300与其他装置经由有线连接、无线连接、或者有线连接和无线连接的组合进行通信的类似收发器那样的组件(例如,收发器和/或单独的接收器和发射器等)。在一些示例中,通信接口314许可装置300从另一装置接收信息和/或向另一装置提供信息。在一些示例中,通信接口314包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、

在一些实施例中,装置300进行本文所述的一个或多于一个处理。装置300基于处理器304执行由诸如存储器305和/或存储组件308等的计算机可读介质所存储的软件指令来进行这些处理。计算机可读介质(例如,非暂时性计算机可读介质)在本文被限定为非暂时性存储器装置。非暂时性存储器装置包括位于单个物理存储装置内的存储空间或跨多个物理存储装置分布的存储空间。

在一些实施例中,经由通信接口314从另一计算机可读介质或从另一装置将软件指令读取到存储器306和/或存储组件308中。存储器306和/或存储组件308中所存储的软件指令在执行时,使处理器304进行本文所述的一个或多于一个处理。附加地或可替代地,代替软件指令或与软件指令组合使用硬连线电路以进行本文所述的一个或多于一个处理。因此,除非另外明确说明,否则本文所描述的实施例不限于硬件电路和软件的任何特定组合。

存储器306和/或存储组件308包括数据存储部或至少一个数据结构(例如,数据库等)。装置300能够从存储器306或存储组件308中的数据存储部或至少一个数据结构接收信息,将信息存储在该数据存储部或至少一个数据结构中,将信息通信至该数据存储部或至少一个数据结构,或者搜索该数据存储部或至少一个数据结构中所存储的信息。在一些示例中,该信息包括网络数据、输入数据、输出数据或其任何组合。

在一些实施例中,装置300被配置为执行存储在存储器306和/或另一装置(例如,与装置300相同或类似的另一装置)的存储器中的软件指令。如本文所使用的,术语“模块”是指存储器306和/或另一装置的存储器中所存储的至少一个指令,该至少一个指令在由处理器304和/或另一装置(例如,与装置300相同或类似的另一装置)的处理器执行时,使装置300(例如,装置300的至少一个组件)进行本文所述的一个或多于一个处理。在一些实施例中,模块以软件、固件和/或硬件等来实现。

提供图3所例示的组件的数量和布置作为示例。在一些实施例中,与图3所例示的组件相比,装置300可以包括附加的组件、更少的组件、不同的组件或不同布置的组件。附加地或可替代地,装置300的一组组件(例如,一个或多于一个组件)可以进行被描述为由装置300的另一组件或另一组组件进行的一个或多于一个功能。

现在参考图4A,例示出自主运载工具计算400(有时称为“AV堆栈”)的示例框图。如所例示的,自主运载工具计算400包括感知系统402(有时称为感知模块)、规划系统404(有时称为规划模块)、定位系统406(有时称为定位模块)、控制系统408(有时称为控制模块)和数据库410。在一些实施例中,感知系统402、规划系统404、定位系统406、控制系统408和数据库410包括在运载工具的自动导航系统(例如,运载工具200的自主运载工具计算202f)中和/或在该自动导航系统中实现。附加地或可替代地,在一些实施例中,感知系统402、规划系统404、定位系统406、控制系统408和数据库410包括在一个或多于一个独立系统(例如,与自主运载工具计算400相同或类似的一个或多于一个系统等)中。在一些示例中,感知系统402、规划系统404、定位系统406、控制系统408和数据库41包括在位于运载工具中的一个或多于一个独立系统以及/或者如本文所述的至少一个远程系统中。在一些实施例中,自主运载工具计算400中所包括的系统中的任意和/或全部以软件(例如,存储器中所存储的软件指令)、计算机硬件(例如,通过微处理器、微控制器、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)等)、或者计算机软件和计算机硬件的组合来实现。还将理解,在一些实施例中,自主运载工具计算400被配置为与远程系统(例如,与远程AV系统114相同或类似的自主运载工具系统、与队列管理系统116相同或类似的队列管理系统116、以及/或者与V2I系统118相同或类似的V2I系统等)进行通信。

在一些实施例中,感知系统402接收与环境中的至少一个物理对象相关联的数据(例如,感知系统402检测至少一个物理对象所使用的数据),并对该至少一个物理对象进行分类。在一些示例中,感知系统402接收由至少一个照相机(例如,照相机202a)捕获到的图像数据,该图像与该至少一个照相机的视场内的一个或多于一个物理对象相关联(例如,表示该一个或多于一个物理对象)。在这样的示例中,感知系统402基于物理对象(例如,自行车、运载工具、交通标志和/或行人等)的一个或多于一个分组来对至少一个物理对象进行分类。在一些实施例中,基于感知系统402对物理对象进行分类,感知系统402将与物理对象的分类相关联的数据传输到规划系统404。

在一些实施例中,规划系统404接收与目的地相关联的数据,并且生成与运载工具(例如,运载工具102)可以朝向目的地行驶所沿着的至少一个路线(例如,路线106)相关联的数据。在一些实施例中,规划系统404定期地或连续地从感知系统402接收数据(例如,上述的与物理对象的分类相关联的数据),并且规划系统404基于感知系统402所生成的数据来更新至少一个轨迹或生成至少一个不同轨迹。换句话说,规划系统404可以进行在道路交通中操作运载工具102所需的策略功能相关任务。策略努力涉及在行程期间操纵交通中的运载工具,包括但不限于决定是否以及何时超过其他运载工具、变道、或者选择适当的速率、加速度、减速度等。在一些实施例中,规划系统404从定位系统406接收与运载工具(例如,运载工具102)的更新位置相关联的数据,并且规划系统404基于定位系统406所生成的数据来更新至少一个轨迹或生成至少一个不同轨迹。

在一些实施例中,定位系统406接收与运载工具(例如,运载工具102)在区域中的地点相关联(例如,表示该地点)的数据。在一些示例中,定位系统406接收与至少一个LiDAR传感器(例如,LiDAR传感器202b)所生成的至少一个点云相关联的LiDAR数据。在某些示例中,定位系统406从多个LiDAR传感器接收与至少一个点云相关联的数据,并且定位系统406基于各个点云来生成组合点云。在这些示例中,定位系统406将该至少一个点云或组合点云与数据库410中所存储的区域的二维(2D)和/或三维(3D)地图进行比较。然后,基于定位系统406将至少一个点云或组合点云与地图进行比较,定位系统406确定运载工具在区域中的位置。在一些实施例中,地图包括运载工具的导航之前生成的该区域的组合点云。在一些实施例中,地图包括但不限于车行道几何性质的高精度地图、描述道路网连接性质的地图、描述车行道物理性质(诸如交通速率、交通流量、运载工具和自行车交通车道的数量、车道宽度、车道交通方向或车道标记的类型和地点、或者它们的组合等)的地图、以及描述道路特征(诸如人行横道、交通标志或各种类型的其他行驶信号灯等)的空间地点的地图。在一些实施例中,基于感知系统所接收到的数据来实时地生成地图。

在另一示例中,定位系统406接收由全球定位系统(GPS)接收器所生成的全球导航卫星系统(GNSS)数据。在一些示例中,定位系统406接收与运载工具在区域中的地点相关联的GNSS数据,并且定位系统406确定运载工具在区域中的纬度和经度。在这样的示例中,定位系统406基于运载工具的纬度和经度来确定运载工具在区域中的位置。在一些实施例中,定位系统406生成与运载工具的位置相关联的数据。在一些示例中,基于定位系统406确定运载工具的位置,定位系统406生成与运载工具的位置相关联的数据。在这样的示例中,与运载工具的位置相关联的数据包括与对应于运载工具的位置的一个或多于一个语义性质相关联的数据。

在一些实施例中,控制系统408从规划系统404接收与至少一个轨迹相关联的数据,并且控制系统408控制运载工具的操作。在一些示例中,控制系统408从规划系统404接收与至少一个轨迹相关联的数据,并且控制系统408通过生成并传输控制信号以使动力总成控制系统(例如,DBW系统202h和/或动力总成控制系统204等)、转向控制系统(例如,转向控制系统206)和/或制动系统(例如,制动系统208)进行操作,来控制运载工具的操作。例如,控制系统408被配置为进行诸如横向运载工具运动控制或纵向运载工具运动控制等的操作功能。横向运载工具运动控制引起调节运载工具运动的y轴分量所需的活动。纵向运载工具运动控制引起调节运载工具运动的x轴分量所需的活动。在示例中,在轨迹包括左转的情况下,控制系统408传输控制信号以使转向控制系统206调整运载工具200的转向角,由此使运载工具200左转。附加地或可替代地,控制系统408生成并传输控制信号以使运载工具200的其他装置(例如,前灯、转向信号灯、门锁和/或挡风玻璃雨刮器等)改变状态。

在一些实施例中,感知系统402、规划系统404、定位系统406和/或控制系统408实现至少一个机器学习模型(例如,至少一个多层感知器(MLP)、至少一个卷积神经网络(CNN)、至少一个递归神经网络(RNN)、至少一个自动编码器和/或至少一个变换器等)。在一些示例中,感知系统402、规划系统404、定位系统406和/或控制系统408单独地或与上述系统中的一个或多于一个结合地实现至少一个机器学习模型。在一些示例中,感知系统402、规划系统404、定位系统406和/或控制系统408实现至少一个机器学习模型作为管道(例如,用于识别位于环境中的一个或多于一个对象的管道等)的一部分。以下关于图4B至图4D包括机器学习模型的实现的示例。

数据库410存储传输至感知系统402、规划系统404、定位系统406和/或控制系统408的、从其接收到的、以及/或者由其更新的数据。在一些示例中,数据库410包括用于存储与操作相关的数据和/或软件、并使用自主运载工具计算400的至少一个系统的存储组件(例如,与图3的存储组件308相同或类似的存储组件)。在一些实施例中,数据库410存储与至少一个区域的2D和/或3D地图相关联的数据。在一些示例中,数据库410存储与城市的一部分、多个城市的多个部分、多个城市、县、州和/或国家(State)(例如,国家)等的2D和/或3D地图相关联的数据。在这样的示例中,运载工具(例如,与运载工具102和/或运载工具200相同或类似的运载工具)可以沿着一个或多于一个可驾驶区(例如,单车道道路、多车道道路、高速公路、偏僻道路和/或越野道路等)驾驶,并且使至少一个LiDAR传感器(例如,与LiDAR传感器202b相同或类似的LiDAR传感器)生成与表示该至少一个LiDAR传感器的视场中所包括的对象的图像相关联的数据。

在一些实施例中,数据库410可以跨多个装置来实现。在一些示例中,数据库410包括在运载工具(例如,与运载工具102和/或运载工具200相同或类似的运载工具)、自主运载工具系统(例如,与远程AV系统114相同或类似的自主运载工具系统)、队列管理系统(例如,与图1的队列管理系统116相同或类似的队列管理系统)中和/或V2I系统(例如,与图1的V2I系统118相同或类似的V2I系统)等中。

现在参考图4B,例示机器学习模型的实现的图。更具体地,例示卷积神经网络(CNN)420的实现的图。为了说明的目的,CNN 420的以下说明将关于通过感知系统402实现CNN 420。然而,将理解,在一些示例中,CNN 420(例如,CNN 420的一个或多于一个组件)由不同于感知系统402的或除感知系统402之外的其他系统(诸如规划系统404、定位系统406和/或控制系统408等)来实现。尽管CNN 420包括如本文所述的某些特征,但这些特征是为了说明的目的而提供的,并且不旨在限制本公开。

CNN 420包括包含第一卷积层422、第二卷积层424和卷积层426的多个卷积层。在一些实施例中,CNN 420包括子采样层428(有时称为池化层)。在一些实施例中,子采样层428和/或其他子采样层具有比上游系统的维度(即,节点的量)小的维度。借助于具有比上游层的维度小的维度的子采样层428,CNN 420合并与上游层的初始输入和/或输出相关联的数据量,由此减少CNN420进行下游卷积运算所需的计算量。附加地或可替代地,借助于子采样层428与至少一个子采样函数相关联(例如,被配置为进行至少一个子采样函数)(如以下关于图4C和图4D所描述的),CNN 420合并与初始输入相关联的数据量。

基于感知系统402提供与第一卷积层422、第二卷积层424和卷积层426各自相关联的相应输入和/或输出以生成相应输出,感知系统402进行卷积运算。在一些示例中,基于感知系统402将数据作为输入提供至第一卷积层422、第二卷积层424和卷积层426,感知系统402实现CNN 420。在这样的示例中,基于感知系统402从一个或多于一个不同系统(例如,与运载工具102相同或相似的运载工具的一个或多于一个系统、与远程AV系统114相同或相似的远程AV系统、与队列管理系统116相同或相似的队列管理系统、以及/或者与V2I系统118相同或相似的V2I系统等)接收数据,感知系统402将数据作为输入提供至第一卷积层422、第二卷积层424和卷积层426。以下关于图4C包括卷积运算的详细说明。

在一些实施例中,感知系统402将与输入(称为初始输入)相关联的数据提供至第一卷积层422,并且感知系统402使用第一卷积层422生成与输出相关联的数据。在一些实施例中,感知系统402将由卷积层生成的输出作为输入提供至不同的卷积层。例如,感知系统402将第一卷积层422的输出作为输入提供至子采样层428、第二卷积层424和/或卷积层426。在这样的示例中,第一卷积层422被称为上游层,并且子采样层428、第二卷积层424和/或卷积层426被称为下游层。类似地,在一些实施例中,感知系统402将子采样层428的输出提供至第二卷积层424和/或卷积层426,并且在该示例中,子采样层428将被称为上游层,并且第二卷积层424和/或卷积层426将被称为下游层。

在一些实施例中,在感知系统402向CNN 420提供输入之前,感知系统402对与提供至CNN 420的输入相关联的数据进行处理。例如,基于感知系统402对传感器数据(例如,图像数据、LiDAR数据和/或雷达数据等)进行归一化,感知系统402对与提供至CNN 420的输入相关联的数据进行处理。

在一些实施例中,基于CNN 420进行与各个卷积层相关联的卷积运算,感知系统402生成输出。在一些示例中,基于感知系统402进行与各个卷积层和初始输入相关联的卷积运算,CNN 420生成输出。在一些实施例中,感知系统402生成输出并将该输出提供至全连接层430。在一些示例中,感知系统402将卷积层426的输出提供至全连接层430,其中全连接层430包括与被称为F1、F2、...、FN的多个特征值相关联的数据。在该示例中,卷积层426的输出包括与表示预测的多个输出特征值相关联的数据。

在一些实施例中,基于感知系统402识别与作为多个预测中的正确预测的最高可能性相关联的特征值,感知系统402从这多个预测中识别预测。例如,在全连接层430包括特征值F1、F2、...、FN并且F1是最大特征值的情况下,感知系统402将与F1相关联的预测识别为多个预测中的正确预测。在一些实施例中,感知系统402训练CNN 420以生成预测。在一些示例中,基于感知系统402将与预测相关联的训练数据提供至CNN 420,感知系统402训练CNN 420以生成预测。

现在参考图4C和图4D,例示利用感知系统402的CNN 440的示例操作的图。在一些实施例中,CNN 440(例如,CNN 440的一个或多于一个组件)与CNN 420(例如,CNN 420的一个或多于一个组件)(参见图4B)相同或相似。

在步骤450,感知系统402将与图像相关联的数据作为输入提供至CNN440(步骤450)。例如,如所例示的,感知系统402将与图像相关联的数据提供至CNN 440,其中该图像是表示为以二维(2D)阵列存储的值的灰度图像。在一些实施例中,与图像相关联的数据可以包括与彩色图像相关联的数据,该彩色图像被表示为以三维(3D)阵列存储的值。附加地或可替代地,与图像相关联的数据可以包括与红外图像和/或雷达图像等相关联的数据。

在步骤455,CNN 440进行第一卷积函数。例如,基于CNN 440将表示图像的值作为输入提供至第一卷积层442中所包括的一个或多于一个神经元(未明确例示出),CNN 440进行第一卷积函数。在该示例中,表示图像的值可以对应于表示图像的区(有时称为感受野)的值。在一些实施例中,各个神经元与滤波器(未明确例示出)相关联。滤波器(有时称为内核)可表示为在大小上与作为输入提供至神经元的值相对应的值阵列。在一个示例中,滤波器可被配置为识别边缘(例如,水平线、垂直线和/或直线等)。在连续的卷积层中,与神经元相关联的滤波器可被配置为连续地识别更复杂的图案(例如,弧和/或对象等)。

在一些实施例中,基于CNN 440将作为输入提供至第一卷积层442中所包括的一个或多于一个神经元中的各个神经元的值与同一个或多于一个神经元中的各个神经元相对应的滤波器的值相乘,CNN 440进行第一卷积函数。例如,CNN 440可以将作为输入提供至第一卷积层442中所包括的一个或多于一个神经元中的各个神经元的值与同该一个或多于一个神经元中的各个神经元相对应的滤波器的值相乘,以生成单个值或值阵列作为输出。在一些实施例中,第一卷积层442的神经元的集体输出被称为卷积输出。在一些实施例中,在各个神经元具有相同滤波器的情况下,卷积输出被称为特征图。

在一些实施例中,CNN 440将第一卷积层442的各个神经元的输出提供至下游层的神经元。为了清楚起见,上游层可以是将数据传输至不同层(称为下游层)的层。例如,CNN440可以将第一卷积层442的各个神经元的输出提供至子采样层的相应神经元。在示例中,CNN 440将第一卷积层442的各个神经元的输出提供至第一子采样层444的相应神经元。在一些实施例中,CNN 440向提供至下游层的各个神经元的所有值的聚合添加偏置值。例如,CNN 440向提供至第一子采样层444的各个神经元的所有值的聚合添加偏置值。在这样的示例中,CNN 440基于提供至各个神经元的所有值的聚合和与第一子采样层444的各个神经元相关联的激活函数来确定要提供至第一子采样层444的各个神经元的最终值。

在步骤460,CNN 440执行第一子采样函数。例如,基于CNN 440将由第一卷积层442输出的值提供至第一子采样层444的相应神经元,CNN 440可以执行第一子采样函数。在一些实施例中,CNN 440基于聚合函数来执行第一子采样函数。在示例中,基于CNN 440确定提供至给定神经元的值中的最大输入(称为最大池化函数),CNN 440执行第一子采样函数。在另一示例中,基于CNN 440确定提供至给定神经元的值中的平均输入(称为平均池化函数),CNN 440执行第一子采样函数。在一些实施例中,基于CNN 440向第一子采样层444的各个神经元提供值,CNN 440生成输出,该输出有时被称为子采样卷积输出。

在步骤465,CNN 440进行第二卷积函数。在一些实施例中,CNN 440以与上述的CNN440如何进行第一卷积函数类似的方式进行第二卷积函数。在一些实施例中,基于CNN 440将由第一子采样层444输出的值作为输入提供至第二卷积层446中所包括的一个或多于一个神经元(未明确例示出),CNN440进行第二卷积函数。在一些实施例中,如上所述,第二卷积层446的各个神经元与滤波器相关联。如上所述,与第二卷积层446相关联的(一个或多于一个)滤波器与同第一卷积层442相关联的滤波器相比可被配置为识别更复杂的图案。

在一些实施例中,基于CNN 440将作为输入提供至第二卷积层446中所包括的一个或多于一个神经元中的各个神经元的值与同该一个或多于一个神经元中的各个神经元相对应的滤波器的值相乘,CNN 440进行第二卷积函数。例如,CNN 440可以将作为输入提供至第二卷积层446中所包括的一个或多于一个神经元中的各个神经元的值与同该一个或多于一个神经元中的各个神经元相对应的滤波器的值相乘,以生成单个值或值阵列作为输出。

在一些实施例中,CNN 440将第二卷积层446的各个神经元的输出提供至下游层的神经元。例如,CNN 440可以将第一卷积层442的各个神经元的输出提供至子采样层的相应神经元。在示例中,CNN 440将第一卷积层442的各个神经元的输出提供至第二子采样层448的相应神经元。在一些实施例中,CNN 440向提供至下游层的各个神经元的所有值的聚合添加偏置值。例如,CNN 440向提供至第二子采样层448的各个神经元的所有值的聚合添加偏置值。在这样的示例中,CNN 440基于提供至各个神经元的所有值的聚合和与第二子采样层448的各个神经元相关联的激活函数来确定提供至第二子采样层448的各个神经元的最终值。

在步骤470,CNN 440执行第二子采样函数。例如,基于CNN 440将由第二卷积层446输出的值提供至第二子采样层448的相应神经元,CNN 440可以执行第二子采样函数。在一些实施例中,基于CNN 440使用聚合函数,CNN440执行第二子采样函数。在示例中,如上所述,基于CNN 440确定提供至给定神经元的值中的最大输入或平均输入,CNN 440执行第一子采样函数。在一些实施例中,基于CNN 440向第二子采样层448的各个神经元提供值,CNN440生成输出。

在步骤475,CNN 440将第二子采样层448的各个神经元的输出提供至全连接层449。例如,CNN 440将第二子采样层448的各个神经元的输出提供至全连接层449,以使得全连接层449生成输出。在一些实施例中,全连接层449被配置为生成与预测(有时称为分类)相关联的输出。预测可以包括作为输入提供至CNN 440的图像中所包括的对象包括对象和/或一组对象等的指示。在一些实施例中,感知系统402进行一个或多于一个操作以及/或者将与预测相关联的数据提供至本文所述的不同系统。

现在参考图5至图9,示出机器学习模型的示例实现的图,其中该机器学习模型用于将来自(诸如感知系统402等的)感知系统的合成图像和来自附加传感器模态的数据(诸如来自照相机202a的图像等)融合以用于诸如对象运动预测或运载工具规划的目的。具体地,图5描绘了将感知系统的输出和来自附加传感器模态的数据融合的机器学习模型的第一实施例,其中从附加传感器模态的数据和来自感知系统的输出所学习的特征被神经网络进行连结和处理以用于预测或规划。图6和图7描绘了将感知系统的输出和来自附加传感器模态的数据融合的机器学习模型的第二实施例,其中将感知系统的输出和对从附加传感器模态的数据学习到的输出所绘制的标注两者进行组合的组合图像由神经网络处理以用于预测或规划。图8和图9描绘了将感知系统的输出和来自附加传感器模态的数据融合的机器学习模型的第三实施例,其中,在训练用于预测或规划的模型的同时,从来自附加传感器模态的数据中学习到对感知系统的输出的绘制有特征的标注。依次描述各个实施例。

如图5所示,机器学习模型500将(诸如感知系统402等的)感知系统的输出和来自附加传感器模态的数据两者作为输入。在图5中,感知系统的输出是合成BEV图像502。例如,图像可以描绘运载工具周围的环境、该环境内的对象(例如,作为图像内的形状)以及这些对象的计算出或检测到的轨迹。例如,形状和轨迹可以被颜色编码以指示形状或轨迹的属性(诸如预期的对象类别(例如,行人、自行车、小汽车、卡车等)、速率、姿态或加速度等)、与指派的属性有关的确定性等。因此,BEV图像502可以表示由环境的感知系统生成的理解。在图5中,来自附加传感器模态的数据是来自照相机的原始图像504。说明性地,在模型500用于预测在BEV图像502内所指示的对象的运动的情况下,原始图像504可以描绘运载工具在对象的方向上的视图,并且由此绘出该对象。虽然在图5中仅示出一个原始图像504,但是在一些实施例中,模型500可以接受多个图像。例如,在模型500用于为运载工具进行动作规划的情况下,模型500可以接受来自运载工具的(例如,前方、后方、侧面等的)多个视点的照相机图像。此外,虽然在图5中照相机图像被用作附加传感器模态的示例,但是可以附加地或可替代地使用来自其他传感器模态的数据。例如,原始图像504可以用雷达传感器202c、麦克风202d或其他传感器模态的数据来代替。

在图5中,合成图像502和原始图像504被馈送通过被表示为CNN

相应的特征506和508然后与状态输入510连结。特定状态输入510可以例如根据模型500的期望输出而变化。例如,在模型500用于预测运载工具的环境中对象的运动的情况下,状态输入510可以反映对象的已知或估计状态。在模型500用于规划运载工具的动作的情况下,状态输入510可以反映运载工具的状态、或者运载工具的环境中的一个或多于一个对象的状态、或者它们的组合。图5中描绘了诸如速率、加速度和偏航率等的状态信息的示例。状态信息的其他非限制性示例是俯仰、滚动、姿态(例如,作为俯仰、滚动和偏航的组合)和(例如,包括方向向量的)速度。针对运载工具的状态,状态信息可以包括诸如方向盘角度、制动力、引擎功率和牵引数据等的附加数据。

然后,连结的数据被馈送到生成器,其中该生成器基于连结数据来生成可以表示可能的轨迹的集合的轨迹集合512。说明性地,在模型500用于预测运载工具的环境中的对象的运动的情况下,集合512可以反映对象的潜在轨迹。在模型500用于规划运载工具的动作的情况下,集合512可以包括运载工具的潜在轨迹。轨迹集合512可以说明性地基于状态信息510而生成,诸如通过对状态信息510应用潜在的修改集(例如,减速、加速和转向)来生成可能的轨迹而生成。轨迹集合512因此可以表示模型500的潜在输出。在一些实施例中,轨迹集合可以用诸如运载工具的与轨迹无关的可能动作(例如,制动、转向、加速等)等的其他输出代替。

为了在潜在输出之间进行区分,连结数据被进一步馈送通过稠密层,以生成用于表示集合512中各个潜在输出的概率的模式概率的集合514。例如,稠密层可以操作以根据连结数据来评估集合512中的各个潜在输出,并指派潜在输出为正确的概率。因此,模型500可以选择集合512的输出(例如,具有最高概率的潜在输出)作为模型500的输出。

虽然轨迹集合512在图5中被示出为经由生成器生成,但是在一些实施例中,轨迹集合512可替代地经由稠密层(例如,连同模式概率514一起)生成。

模型500的训练可以基于用于反映模型500的正确输出的收集数据来发生。例如,当应用于针对对象的运动预测时,可以生成训练数据集,其中该训练数据集包括用于识别对象的合成图像、用于描绘对象的照相机图像、以及在合成图像的生成和照相机图像的捕获之后观察到的对象运动。例如,可以基于后来的传感器数据(例如,用于指示对象的移动的后续lidar数据)来观察所观察到的运动。然后可以训练模型500,使得模型500产生与观察到的运动相匹配的输出。在被应用于针对运载工具的规划时,训练数据集可以包括运载工具的环境的合成图像、描绘该环境的一个或多于一个照相机图像以及观察到的熟练的人类操作员的动作。然后可以训练模型500,使得模型500产生与观察到的人类操作员的动作相匹配的输出。

此后,可以在运载工具的操作期间应用经训练模型500。该经训练模型500的应用有时被称为“推理”,利用经训练模型500来产生诸如对象的预测运动(其中运动尚未知)或运载工具的规划动作(其中动作尚未知)等的未知输出。例如,通过传入由运载工具的感知系统(例如,感知系统402)生成的合成图像502、对象的一个或多于一个照相机原始图像504和对象的状态信息510,经训练模型500可以在运载工具的非训练操作期间用于预测运载工具周围的对象的运动,从而产生被预测为与对象的实际运动相匹配的对象运动作为输出。类似地,通过传入由运载工具的感知系统(例如,感知系统402)生成的合成图像502、运载工具周围环境的一个或多于一个照相机原始图像504以及运载工具和/或环境中的对象的状态信息510,经训练模型500可用于规划运载工具的动作,从而产生被预测为与熟练的人类驾驶员的动作相匹配的运载工具动作作为输出。

如上所讨论的,通过将合成图像502与诸如照相机的原始图像504等的附加传感器模态的数据进行组合,模型500可以考虑附加传感器模态的数据内的附加上下文信息,其中该信息可能难以或不可能在不负面影响合成图像502的准确性的情况下直接包含到合成图像502中。例如,虽然合成图像502可以包括对象的预测轨迹,但是图像502可能不是已基于附加传感器模态的数据而生成的,因此可能缺少诸如信号灯的存在、肢体位置等的上下文信息,其中该上下文信息将以其他方式被人类用来预测运动和/或规划动作。因此,附加传感器模态的该数据的包含可以显著改善运动预测或规划。在一些实施例中,模型500因此可以被实现为规划系统404的一部分。在其他实施例中,模型500可以被包含到感知系统402。例如,系统402可以利用对象的预测运动作为模型500输出来更新合成图像502。

虽然上面针对单个对象讨论了模型500在运动预测中的应用,但是这里公开的模型可以附加地或可替代地同时应用于预测多个对象的运动。这样的配置可以使得模型能够捕获多个对象的相关上下文信息。例如,这样的配置可以使得模型能够更准确地预测针对一个对象的信号如何修改其他对象的运动(例如,一个运载工具上制动灯或转向信号的存在可能如何修改其他运载工具的运动)。

如上所述,图6-图9描绘了将感知系统的输出和来自附加传感器模态的数据融合的机器学习模型的附加实施例。附加实施例包括与图5的实施例相似或相同的一些元件,因此针对图6-图9将不再重复对这些元件的描述。图5的附图标记在图6-图9中重复,以指示与图5的实施例相似或相同的元件。

参考图6-图7,将描述将感知系统的输出和来自附加传感器模态的数据融合的机器学习模型的附加实施例。具体地,图6-图7的模型是包括图6的第一模型600和图7的第二模型700的聚合模型,其中,第一模型600用于基于来自一个或多于一个附加传感器模态的数据来生成合成图像的绘制标注,第二模型700用于基于第一模型600的输出来进行运动预测和/或规划。

与图5的模型500相反,图6-图7的聚合模型可以提供来自附加传感器模态的数据的中介表示作为“绘制”在合成图像上的标注。在该上下文中,“绘制”指的是将元数据添加到用于指示该图像内的对象的属性的合成图像中。例如,元数据可以指示运载工具打开了转向信号或制动灯、行人采取了特定的姿势或正面向某个方向等等。不提供用于处理的原始照相机图像,而是可以将这些绘制标注与合成图像进行组合用于通过网络进行处理,以生成输出。例如,在BEV合成图像被表示为通道集的情况下,标注可以被表示为各个(例如,制动灯、信号灯、行人姿势、行人面向的方向等的)潜在特征的附加通道。

如图5,为了产生绘制标注,合成图像502和照相机的原始图像504被馈送通过相应的神经网络CNN

如图5,相应的网络产生特征集:具体地,合成图像502被转换成合成图像特征集合506,并且照相机原始图像504被转换成原始图像特征集合508。然后可以连结特征506和508。然而,与图5不同,连结数据然后被馈送通过用于产生将合成图像502与基于连结数据所学习到的绘制标注集相组合的组合图像602的解码器。(虽然在图6中没有明确示出,但是合成图像502也可以以类似于U-net架构的方式被馈送到解码器。)

图6的模型600可以基于手动生成的绘制标注集来训练。例如,人类可以基于相应的原始图像504来标注合成图像集合502,以产生手动创建的组合图像602。此后,可以训练模型600以从合成图像502和相应的原始图像504的集合中创建与手动创建的组合图像602相对应的组合图像602。在推断期间,模型600因此可以基于新的合成图像特征506和原始图像特征508来产生新的组合图像602。虽然图6中示出单个模型,但是在一些实施例中,可以创建模型600的多个实例。例如,各个实例可以生成特定类型的标注(例如,转向信号、制动灯、行人姿态等),并且各个模型的标注可以被组合成具有多个类型的标注的组合图像602。

然后,由模型600产生的融合了合成图像502和照相机的原始图像504的组合图像602可以用作第二机器学习模型700的输入。具体地,如图7所示,组合图像602可以被馈送通过卷积神经网络,以生成图像特征集合704。然后,图像特征704可以与状态信息510连结,并被馈送到生成器和稠密层中,以类似于图5中生成轨迹集合512和模式概率514的方式产生轨迹集合512和模式概率514。如上针对图5所述,集合512和概率514的组合可以指示模型700的输出,其中该输出可以表示例如对象的预测运动、运载工具的规划动作或其组合。如被修改以反映组合图像602的输入而不是合成图像502和原始图像504的输入那样,可以类似于图5的模型500来训练模型700。在推断期间,模型600和700可以结合实现为聚合机器学习模型以用于规划或运动预测的目的。例如,新的(例如,先前未包括在训练数据集中的)合成图像502和原始图像504可以被馈送到模型600中,以产生组合图像602,其中组合图像602继而可以被馈送到模型700中,以产生预测运动或规划动作。

因此,模型600和700可以类似于图5的模型500提供输出,使得运载工具能够利用否则可能在生成合成图像502时丢失的来自附加传感器模态的上下文信息。然而,尽管图5从合成图像和原始图像数据的连结中产生输出,但是图6-图7提供了绘制标注的单独创建,这可以使得聚合模型能够像例如通过模型600的训练所控制的那样更具体地针对某些信号。例如,模型600可以被特别训练以辨识诸如制动灯、转向信号等的某些信号,其中这些信号在模型500的更一般的训练期间可能不会被辨识。

参考图8-图9,将描述将感知系统的输出和来自附加传感器模态的数据融合的机器学习模型的又一实施例。具体地,图8描绘了预处理管道800,其关于在用于机器学习模型之前、来自BEV合成图像502的信息可以如何用于预处理来自附加传感器模态的诸如照相机图像504等的数据。图9描绘了如何将这样的预处理包含到模型900中,以结合诸如运动预测或规划等的期望输出来学习标注。

参考图8,所示的预处理管道800使得来自附加传感器模态的诸如照相机图像504等的数据能够被预处理以减少必须结合数据来处理的信息量,这可以提高经训练模型的速率(例如,通过减少要处理的数据)和该模型的准确性(例如,通过关注更大数据集内的相关数据)两者。具体地,虽然以上描述涉及用于描绘对象的原始照相机图像,但有可能是与该对象相关的大部分或所有信息包含在图像的特定部分内。例如,用于捕获其他运载工具的照相机图像也可以捕获除了其他运载工具之外的各种对象。图像的捕获这些其他对象的部分可能与运载工具所提供的信号不相关,并且实际上可能阻碍机器学习模型学习这样的与运载工具有关的信号。例如,图像的描绘其他对象的部分可能阻碍机器学习模型检测特定运载工具是否点亮了运载工具的制动灯、打开了转向信号等。

因此,在一些实施例中,来自诸如感知系统402等的感知系统的合成图像502或数据可用于裁剪原始照相机图像504以产生裁剪后的图像802,其中该裁剪后的图像可用于代替图像504用于机器学习应用。例如,来自感知系统的合成图像502或其他数据可以识别原始照相机图像504中描绘的对象的地点。因此,这些地点可以被投影到原始照相机图像504上,以在原始照相机图像504内定位对象,并且产生将对象从原始照相机图像内分离出来的裁剪后的图像。当训练模型以进行针对对象的运动预测时,裁剪后的对象的图像而不是以其他方式描绘对象的照相机的完整图像可以被用作模型的输入。类似地,当训练模型以进行自主运载工具的动作规划时,可以使用针对运载工具附近的各个对象的裁剪后图像集,而不是来自各个相关照相机的完整图像。

为了产生裁剪后的图像802,包含在合成图像502内的信息可以被投影到照相机图像504上。例如,在合成图像502指示特定对象相对于运载工具位于某个位置的情况下、该位置可以被投影到照相机图像504上作为特定对象的预期位置。然后图像504可被裁剪以包含该位置(例如,包括该位置周围的缓冲区),从而产生裁剪后的图像802。因此,裁剪后的图像802可以表示原始照相机图像504的包含相关对象的部分。

此后,在本文公开的机器学习模型中,可以使用裁剪后的图像802来代替原始图像504。例如,裁剪后的图像可以通过在图8中表示为CNN

图9中示出利用图8的裁剪的一个示例机器学习模型架构,其中图9描绘了模型900结合诸如运动预测或规划等的期望的输出来学习标注。如图9所示,模型900将可如图8中所讨论的那样创建的裁剪后的图像802作为输入。裁剪后的图像802可以通过在图9中表示为CNN

然后,减少的特征904可以用于进行合成图像502的特征绘制,以产生组合图像602。特征绘制可以类似于以上针对图6所讨论的那样发生,诸如通过将减少的特征904和合成图像502通过解码器来生成组合图像602等那样发生。虽然组合图像602在图9中被示出为基于合成图像502和减少的特征904而产生,但是在一些实例中,组合图像602可以基于合成图像502和学习到的特征806而产生,从而省略了学习到的特征806和减少的特征904之间的稠密网络。

此后,组合图像602可以与状态信息510一起使用,以类似于以上针对图7所讨论的方式产生轨迹集合和轨迹模式概率514。

在图9中,可以在模型900的训练期间通过建立网络的损失函数来学习裁剪后的图像802的相关特征,其中该损失函数将从裁剪后的图像802学习到的信号概率902与模式概率514组合。例如,模型900的损失可以等于模式概率514的损失加上信号概率902内的各个信号的损失总和(例如,其中各个损失被计算为交叉熵损失)。在一些实例中,各个信号的损失总和可以通过可调超参数来加权。在其他实施例中,损失函数可以基于独立于信号概率902的模式概率514。

因此,模型900可被训练以学习附加传感器模态的数据内的特征,并基于那些学习到的特征来进行运动预测或运载工具规划。因此,模型900的输出可以类似于图7的模型700,而不依赖于合成图像502的手动标注。这可以使得模型900能够捕获以其他方式在手动标注期间不会被捕获的信号,从而增加模型900的整体准确性。

现在参考图10和图11,示出用于将感知系统的输出和附加传感器模态的数据融合以用于诸如运动预测和规划等的目的的处理的流程图。具体地,图10描绘了用于训练机器学习模型以将感知系统的输出和附加传感器模态的数据融合的例程1000,而图11描绘了用于利用经训练的机器学习模型来预测对象运动或规划运载工具的动作的例程1100。例程1000和1100可以例如由装置300来实现。说明性地,例程1000和1100可以由包括在自主运载工具200内的装置300来实现。在一些情况下,例程1000可以由自主运载工具200外部的诸如队列管理系统116等的装置300实现,并且然后,经由例程1000产生的经训练模型可以被加载到自主运载工具200的装置300上,以在运载工具200的操作期间使用。

例程1000开始于框1002处,其中装置300获得用于识别运载工具的环境内的对象的合成图像。例如,图像可以是基于区域中的运载工具的传感器数据而生成的区域的BEV图像。被识别的对象可以包括由运载工具感测到的任意对象,诸如其他机动运载工具、(诸如自行车等的)非机动运载工具或行人等。例如,可以基于运载工具的诸如感知系统402等的感知系统来生成图像。在一个实施例中,感知系统402基于用于指示对象处于该区域中的lidar数据来生成合成图像。

另外,在框1004处,装置300获得用于描绘合成图像中的对象的照相机图像。例如,图像可以是从运载工具的视点指向对象的方向的照相机的图像。在一个实施例中,合成图像和照相机图像被布置成数据对,其中各个对包括与合成图像相对应的第一数据和与照相机图像相对应的第二数据,所述照相机图像与用于生成合成图像的传感器数据同时获得。例如,可以在一个或多于一个测试运载工具在熟练的人类操作员的操作下的操作期间收集数据对。虽然图10讨论了作为附加传感器模态的数据示例的照相机图像,但是可以附加地或可替代地使用其他附加传感器模态。

此后,在框1006处,装置300基于合成图像和照相机图像的融合来训练机器学习模型以用于规划或预测的目的。被训练的模型可以与上面参考图5-图9描述的模型相对应。如例如针对图5所讨论的,例如,该模型可以包括用于处理给定数据对的第一数据的第一卷积神经网络、用于处理给定数据对的第二数据的第二卷积神经网络、以及用于生成与给定数据对相对应的对象的预测运动的稠密层。如上所讨论的,该模型可以将诸如在合成图像内识别出的一个或多于一个对象的(例如,与用于生成合成图像的数据同时捕获的)状态信息等的附加信息作为输入。例如,该模型可以将包括速率、加速度或对象的姿态的状态信息作为输入。作为另一个示例,该模型可以包括卷积神经网络,其中该卷积神经网络将根据与给定数据对的照相机图像相对应的第二数据而标注的、与给定数据对的合成图像相对应的第一数据作为输入。标注可以包括与诸如点亮的制动灯、点亮的转向信号、轮位置、肢体位置、关节位置等的对象有关的任意元数据。标注可以例如基于诸如图6的模型600等的第二机器学习模型的应用而发生。可替代地,可以基于产生标注的其他卷积神经网络的应用来发生标注,其中该其他神经网络与第一卷积神经网络(例如,如参照图9所讨论的)同时被训练。如上所讨论的,机器学习模型在某些实例中可以接受照相机数据作为原始图像。附加地或可替代地,该模型可以诸如通过将合成图像内指示的对象投影到原始照相机数据中并且在对象周围裁剪原始照相机数据以产生裁剪后的照相机数据等,来接受裁剪后的照相机数据。

如上所述,机器学习模型可被训练用于诸如对象运动预测或运载工具动作规划等的目的。例如,在基于在数据对内捕获的观察到的对象的运动来训练模型的情况下,该模型可以被传输到目的地运载工具,用于预测由该运载工具感测到的附加对象的运动。在基于观察到的熟练的人类操作员的动作来训练模型的情况下,该模型可以被传输到目的地运载工具,用于规划目的地运载工具的自主动作。在一些实例中,例程1000可以被实现多次以生成诸如用于对象运动预测的第一模型和用于动作规划的第二模型等的多个机器学习模型。

如上所述,图11描绘了用于利用经训练的机器学习模型来预测对象运动或规划运载工具的动作的例程1100,其中该例程1100可以例如在运载工具200内实现。

例程1100开始于框1102处,其中运载工具200获得诸如经由图10的例程1000所产生的模型等的经训练的机器学习模型。如针对图10所讨论的,该模型可以为诸如对象运动检测或动作规划等的特定目的而训练。

此后,在框1104和1106处,运载工具200获得输入到经训练模型的输入数据。具体地,在框1104处,运载工具200获得运载工具的区域的合成图像,其中该图像识别运载工具的区域中的对象(诸如其他运载工具、行人等)。另外,在框1106处,运载工具200获得用于描绘对象的照相机图像,其中该图像可以例如由运载工具200的指向对象方向的照相机捕获。可以以与捕获用于训练机器学习模型的数据对相同或相似的方式来捕获合成图像和照相机图像。例如,运载工具200可以与捕获用于训练模型的数据的运载工具相同或具有相似的配置。

在一些实施例中,经训练模型可以使用诸如对象的状态信息或运载工具的状态信息等的附加信息作为输入。因此,以类似于如何获得这样的状态信息以用于训练模型的方式,也可以在运载工具处获得这样的状态信息。

此后,在框1108处,经训练的机器学习模型被应用于合成图像和照相机图像(以及诸如状态信息等的潜在的附加输入)。例如,图像可以通过一个或多于一个经训练的卷积神经网络和/或稠密层,以产生用于指示对象的预测运动或运载工具的规划轨迹的轨迹模式概率集。因此,在框1110处,模型可以输出预测运动或规划路线。然后,该输出可用于控制运载工具的后续操作。例如,对象的预测运动或规划路线可用作到规划系统(例如,规划系统404)的输入,以控制运载工具的后续移动。如上所讨论的,因为附加传感器模态的数据可以捕获诸如光、声音的存在、姿态等的否则未包含在合成图像内的上下文信息,并且因为这样的数据是在例程1100的经训练模型内捕获的,所以预测运动或规划路线可以比可替代的预测或规划路线具有更高的准确性。例如,例程1100可以使得运载工具200能够更准确地预测由于制动灯的存在而导致的其他运载工具的制动、由于转向信号的存在而导致的其他运载工具的变道、基于姿态或面向方向的行人进入人行横道的运动等。类似地,假设这样的熟练的人类操作员可以考虑诸如上述的信号等的信号,则例程1100可以使得运载工具200能够更准确地模仿熟练的人类操作员的动作。因此,例程1100可以提供更安全和更准确的自主运载工具。

在先前描述中,已经参考许多具体细节描述了本公开的方面和实施例,这些具体细节可因实现而不同。因此,说明书和附图应被视为说明性的,而非限制性意义的。本发明范围的唯一且排他的指示、以及申请人期望是本发明范围的内容是以发布权利要求书的具体形式从本申请发布的权利要求书的字面和等同范围,包括任何后续修正。本文中明确阐述的用于被包括在此类权利要求中的术语的任何定义应当以此类术语如在权利要求书中所使用的意义为准。另外,当在先前的说明书或所附权利要求书使用术语“还包括”时,该短语的下文可以是附加的步骤或实体、或先前所述的步骤或实体的子步骤/子实体。

相关技术
  • 数据处理系统、计算机实现方法及非暂态计算机可读介质
  • 车载健康平台的系统、计算机实现方法及非暂态计算机可读介质
  • 显示方法及系统、计算机系统及计算机可读存储介质
  • 排队通知方法及系统、计算机系统及计算机可读存储介质
  • 数据查询方法、计算机系统及非暂时性计算机可读介质
  • 计算机实现的方法、计算机系统和非暂态计算机可读介质
  • 检测车辆乘客舱中移动对象的计算机实现方法、计算机系统和非暂时性计算机可读介质
技术分类

06120116488860