训练用于预测交通场景未来发展的系统的方法和相应系统

文献发布时间：2024-04-18 19:53:33

技术领域

本发明涉及一种用于训练用于预测交通场景的未来发展的计算机实现的系统的方法，以及相应的系统和相应的程序产品。

背景技术

对交通场景未来发展的预测在固定应用的范畴内可得以使用，例如在固定安装的交通控制系统中，该交通控制系统监视所定义的空间区域中的交通状况。基于所述预测，这样的交通控制系统于是已经可以提早地提供相应的信息和可能的驾驶建议，以控制被监控区域中及其周围环境中的交通流量。对于本文讨论的用于预测交通场景的未来发展的计算机实现的系统和方法的另一个重要应用领域是移动应用，例如具有辅助功能的车辆。因此，自动化的车辆不仅需要检测它们当前所处的交通状况如何，还需要预测这种交通状况将如何发展，以便能够规划安全且可追溯的（nachvollziehbar）机动动作。

经典预测方法通常执行的是基于运动学/动力学进行预测。这些方案所提供的预测通常仅在很短的时间内、例如小于 2 秒的时间内有意义。出于这个原因，近年来，机器学习、尤其是深度学习 (DL) 的使用已建立了针对预测的实际标准（de facto Standard）。在此，为了表示交通场景而通常使用二进制的或用颜色编码的自上而下的网格（Top-DownGrid）、图形表示和/或激光雷达反射。作为对交通场景的未来发展的预测，而通常预测所参与的道路使用者（即车辆、骑自行车者、行人等）的未来轨迹。

已知一种多模态预测，其中为每个道路使用者预测多个模式特定的轨迹。在此，每条轨迹表示相应道路使用者未来可能的行为方式，但不考虑其余道路使用者的行为方式。因此，在此情况下也并不考虑道路使用者之间可能发生的任何交互。因此，这种多模态预测忽略了输入场景（Eingangsszene）其整体上的发展。这在各种方面都被证实为是有问题的。也就是说，计算耗费非常高并且部分是不必要的，因为通常为每个道路使用者也计算了与其他道路使用者的轨迹并不兼容的轨迹。此外，这种预测仅有条件地有说服力，并且例如对于自动化车辆的规划组件而言充其量仅是有限地可用的。

发明内容

可以利用用于预测交通场景的未来发展的计算机实现的系统在合理限制的计算耗费情况下实现预测的高度显著性（Signifikanz），该系统至少包括以下组件：

· 用于聚合输入场景的场景特定的信息的感知层面（Perzeptionsebene），

· 主干网络（Backbone-Netzwerk），用于基于所述场景特定的信息生成由潜在特征（latente Merkmale）构成的特征集，

· 分类器，其基于所述特征集而评价针对所述输入场景的未来发展的预给定数量的不同模式，以及

· 针对每个模式的预测模块，其用于生成针对所述输入场景的未来发展的预测，其中至少一个预测模块是可选择性激活的。

因此，这里讨论的系统具有多级架构。在第一级（Stufe），借助特征集来表征输入场景，所述特征集是基于场景特定的信息所获得的——与主干网络相关联的（inVerbindung）感知层面。在第二级，通过基于特征集而评价针对所述输入场景的未来发展的不同模式，对有关于所述输入场景的未来发展的不确定性（Unngewissheit）进行评估——分类器。第三级包括：被分配给各个模式的可选择性激活的预测模块。在激活情况下，这些预测模块中的每一个分别仅针对输入场景中的每个道路使用者提供单个轨迹或一组相似轨迹作为预测，这些相似轨迹于是基于对于输入场景的发展的共同意图（gemeinsameIntension）。在此，能够以确定性（deterministisch）或概率性（probabilistisch）的形式或以样本的形式来描述轨迹。

借助这种多级架构，能够非常容易地标识代表输入场景的“合理（sinnvll）”发展的各个模式，即满足预给定选择标准的模式。如果随后仅激活相应的预测模块，则仅生成针对所述输入场景的合理发展的预测。这对预测的显著性有重大贡献。此外，计算耗费可以因此很容易地保持在一定范围内。

因此，所讨论的系统提供如下多模态预测，所述多模态预测并不像是现有技术中已知的多模态预测到那样涉及输入场景中每个单独道路使用者的所有可能的未来行为方式，而是涉及针对输入场景其整体上发展的多个不同模式。

用于预测交通场景的未来发展的计算机实现的方法也是基于上述方案，其中该方法至少包括以下步骤：

·聚合输入场景的场景特定的信息，

·借助主干网络基于场景特定的信息生成由潜在特征构成的至少一个特征集，

·借助分类器基于特征集评价针对输入场景的未来发展的预给定数量的不同模式，

·基于分类器的评价选择至少一个模式并激活被分配给所选模式的至少一个预测模块，以及

·借助至少一个被激活的预测模块生成针对所述输入场景的未来发展的预测。

如已经提到的，相应系统的可选择性激活的预测模块有利地根据分类器对于所分配模式进行的评价而被激活。例如，分类器可以在“合理的（plausibel）发展”或“可排除的发展”的意义上对各个模式进行二元评价。替代地，分类器也可以针对每个模式给予（vergeben）标准化或非标准化的评分。在这种情况下，如果预给定固定数量的待激活的预测模块，则可以根据阈值或通过比较或评级（Rating）来决定是否激活所分配的预测模块。

原则上，这种计算机实现的系统包括针对至少两种不同模式的至少两个预测模块，即，针对每个模式各一个预测模块。这可以涉及相同或不同类型的预测模块，只要是每个预测模块都针对输入场景中的每个道路使用者而提供针对该输入场景的所有道路使用者的意图（Absicht）的特定组合的轨迹预测。分类器与所分配的预测模块的类型无关地评价这些不同的模式。各个预测模块的激活也与类型无关地进行。

在优选的变型中，计算机实现的系统包括至少一个预测模块，其以场景锚点网络（Szene-Anker-Netzwerk）（SAN）的形式实现，并且在激活的情况下基于由主干网络所提供的特征集而生成针对输入场景的未来发展的预测。这样的SAN有利地与系统的其他组件一起被训练，例如与主干网络和/或分类器一起被训练，以便鉴于该系统的预期应用而优化预测。

特别有利的是，这里讨论的系统架构还能够集成基于模型的预测模块和/或以预训练的预测网络的形式的预测模块。通常，这些预测模块将无法使用主干网络提供的特征集用于预测。替代于此，这些预测模块可以动用到（zurückgreifen）感知层面并基于场景特定的信息生成预测。使用基于模型的预测模块可以有利地有助于限制用于预测的计算耗费。

这里讨论的系统包括用于聚合输入场景的场景特定的信息的感知层面。这些场景特定的信息有利地包括关于输入场景的语义信息，特别是地图信息。这些语义信息既可以在本地被提供，例如从本地存储单元提供，也可以在中央调用，例如通过云。此外，场景特定的信息有利地包括关于输入场景中的道路使用者的信息。在此，特别感兴趣的是关于当前运动状态和/或各个道路使用者所走过的轨迹的信息。此类信息可以由传感器系统检测和提供，所述传感器系统例如包括传感器，诸如视频、激光雷达和雷达等，或者也包括与经典惯性传感器结合的GPS（全球定位系统）。

然后必须将经聚合的场景特定的信息转换为可以由主干网络处理的数据表示，这优选地也在感知层面进行。在本发明的有利变型中，场景特定的信息也被转换成可以由预训练的预测网络处理的数据表示，即，感知层面提供场景特定的信息的多个不同数据表示。如果主干网络和/或预训练的预测网络以图神经网络（Graph Neural Network） (GNN) 的形式实现，则所述场景特定的信息被转换为图形表示。如果主干网络或预训练的预测网络是卷积神经网络 (CNN)，那么所述场景特定的信息被转换为网格表示或必要时也可以被转换为体素网格表示（Voxel-Grid-Repräsentation）。

在此所讨论的本发明假设：上述系统的分类器以神经网络的形式实现，该神经网络基于由主干网络提供的特征集而评价针对输入场景的未来发展的预给定数量的不同模式。因此，必须根据由主干网络所提供的特征集的数据表示来选择分类器网络的类型。如果主干网络生成以特征向量形式的特征集，则分类器有利地以前馈神经网络的形式实现。

通过本发明提出了用于训练如上所述的这种用于预测交通场景的未来发展的计算机实现的系统的措施。

本发明的核心和优点

因此，本发明的主题是一种用于训练用于预测交通场景的未来发展的计算机实现的系统的方法，其中该系统至少包括：

a. 用于聚合输入场景的场景特定的信息的感知层面，

b. 主干网络，用于基于所述场景特定的信息生成由潜在特征构成的特征集，

c. 分类器网络，其基于所述特征集而评价针对所述输入场景的未来发展的预给定数量的不同模式，以及

d. 针对每个模式的预测模块，其用于生成针对所述输入场景的未来发展的预测。

在所述方法的范畴内，主干网络基于场景特定的训练数据生成学习阶段（Lernphase）特征集。然后，分类器网络基于所述学习阶段特征集生成不同模式的学习阶段评价。此外，每个预测模块都生成针对输入场景的未来发展的预测。然后，对于每个预测模块，确定相应预测与输入场景的实际发展的偏差，以便由该偏差而导出对所分配模式的真实（realisitisch）评价。

根据本发明，通过修改主干网络的权重和/或分类器网络的权重，使得不同模式的学习阶段评价与真实评价之间的偏差被减少，将主干网络与分类器网络一起训练。

在本发明的一种有利的实施方式中，每个预测模块针对输入场景中的每个道路使用者生成确定性和/或概率性的预测轨迹作为针对输入场景的未来发展的预测。然后为这些道路使用者中的每一个确定预测轨迹和实际轨迹之间的偏差，以便基于以这种方式确定的偏差而导出被分配给相应预测模块的模式的真实评价。

根据本发明的训练方法的一个特别的优点是，所述训练方法可用于各种各样的系统配置，这涉及到预测模块的实现方案。

例如，如果一个或多个预测模块以预训练的预测网络的形式或以基于模型的预测模块的形式实现，则这些预测模块（如果兼容的话）可以使用学习阶段特征集或也可以简单地使用训练数据，以生成针对输入场景的未来发展的预测。

然而，根据本发明的方法也适用于，将主干网络和分类器网络连同至少一个先前未训练的预测网络共同训练。针对这种情况而规定：

·至少一个未训练的预测网络基于训练数据和/或学习阶段特征集而生成针对输入场景的未来发展的学习阶段预测，

·确定学习阶段预测与输入场景的实际发展的偏差，并由所述偏差而导出所分配的模式的真实评价，以及

·主干网络的权重和/或分类器网络的权重和/或至少一个未训练的预测网络的权重被修改，使得不同模式的学习阶段评价和真实评价之间的偏差被减小。

为了防止要训练的预测网络所预测的场景彼此过于相似而建议：在修改权重时考虑另一个标准，即所预测的场景的熵（Entropie）。在训练方法的一个有利变型中，主干网络的权重和/或分类器网络的权重和/或至少一个未训练的预测网络的权重不仅被如此修改，使得不同模式的学习阶段评价和真实评价之间的偏差被减少，而且也被如此修改，使得预测模块的预测的熵被增大。在此情况下，再次考虑所有预测，即，要训练的预测网络的预测以及预训练和经典的预测模块的预测。

附图说明

下面依据附图讨论本发明的有利实施方式和扩展方案。

图1a)至1d)说明了本发明所基于的问题。

图2示出了要训练的用于预测交通场景10的未来发展的系统的第一变型的示意图。

图3示出了要训练的系统的第二变型的示意图。

图4说明了针对系统400的情况的根据本发明的训练方法，所述系统400仅包括经典的预测模块和预训练的预测网络。

图5说明了针对系统500的情况的根据本发明的训练方法，该系统500除了经典的预测模块和预训练的预测网络之外还包括未训练的预测网络。

具体实施方式

如上所述，在此所讨论的系统提供多模态预测，其涉及针对交通输入场景的可能的合理发展的多个不同模式。在此，通过例如也考虑输入场景的道路使用者之间的交互和优先行驶规则（Vorfahrtsregeln），输入场景的可能发展被整体考虑，即不仅仅在每个单独的道路使用者的层面上被考虑。

这通过图1a)至1d)来说明。在此，示出了有两个车辆 11 和 12参与的 T 形交叉路口处的交通场景 10 的四种可能的合理发展。在图 1b 和 1d 中，车辆 11通过在左转时遵守优先行驶规则而与车辆 12 交互。根据这两个车辆 11 和 12 与交叉路口的距离而定，预测车辆 11 忽视优先行驶权或与车辆 12交会是不合理的或至少是不太可能的。

为了说明目的，在下面描述的实施例中，给输入场景的在图1a)至1d)中所示的其中每个可能发展分配模式和预测模块。

然而，在这一点上应该明确指出，这里所讨论的系统从预给定数量的模式出发并且因此也仅包括预给定数量的预测模块。因此，输入场景的大多情况下多个的可能非常不同的可能发展在一个模式中被组合（zusammenfassen）并由分类器来评价。因此，根据本发明的系统例如也可以仅提供两个模式并且相应地提供两个不同的预测模块，以便识别上下文“高速公路驾驶”并对上下文“高速公路驾驶”进行预测或替代地对上下文“非高速公路驾驶”进行预测。

图2中的图示说明了这里所讨论的用于预测交通场景、这里是形成输入场景的交通场景10的未来发展的系统100的多级架构和作用方式。

系统100配备有用于聚集输入场景10的场景特定的信息的感知层面110。场景特定的信息包括地图信息和所谓的对象列表，其中包含有关所参与的道路使用者的当前状态的信息，所述道路使用者这里是车辆 11 和 12。场景特定的信息还包括历史数据，这里是车辆 11 和 12 所走过的轨迹。在这里描述的实施例中，在感知层面 110上所聚合的场景特定的信息被转换为图形表示 111 并以这种格式输送到主干网络 120，该主干网络以图神经网络 (GNN)的形式实现。

除了所述图神经网络以外，还可以从对象列表、历史数据和地图信息生成网格表示。在这种情况下，主干网络优选以卷积神经网络(CNN) 的形式设计。场景特定的信息也可以以来自输入场景的当前和过去记录的激光雷达反射的形式而存在。在这种情况下，体素网格形式的数据表示是适宜的。原则上，场景特定的信息可以转换为任何如下数据表示，所述数据表示允许示出输入场景中的所有对象或至少相关对象以及语义场景信息，并且与主干网络的结构或类型兼容。

在当前情况下，基于场景特定的信息的图形表示111，主干网络120生成由表征输入场景的潜在特征所构成的特征向量130。

特征向量130被输送到分类器140，分类器140在当前实施例中以前馈神经网络的形式实现。基于特征向量 130，分类器140针对输入场景 10 的未来可能发展而对预给定数量的不同模式进行评价。如已经结合图 1a) 至 1d) 所解释的，对于这里描述的系统 100，有对应于输入场景10的四种不同的合理可能发展的四种不同模式是可用的。为了评价各个模式，分类器140基于特征向量130而生成由针对不同模式的各个评分所组成的向量。然后，将评分高于或低于阈值的那些模式选为相关的模式。然而，也可以基于评分例如选择N个最佳模式，即具有最高评分的N个模式。以这种方式，在分类器140级已经可以从预测中排除输入场景的不可能发展，在当前情况下例如：不遵守优先行驶规则或车辆11与车辆12交会。

根据本发明的系统100包括针对每个模式的预测模块161至164，其中这些预测模块161至164中的至少一个是可选择性激活的。在激活情况下，每个预测模块161至164生成针对输入场景的未来发展的预测。每个预测各自包括针对输入场景中每个道路使用者、在此为车辆 11 和 12的轨迹。这些轨迹可以确定性地被描述，其方式为，针对所预测轨迹的每个时间点来说明各一个状态值——位置、取向、速度、加速度等。然而，这些轨迹也可以概率性地被确定，例如以针对所预测的轨迹的每个时间点的高斯密度的形式，即通过状态的平均值和相关联的协方差而确定。以来自所预测的分布的样本的形式的非参数的概率性轨迹表示也是可能的。

在图2所示的实施例中，所有四个预测模块都是可选择性激活的场景锚点网络（SAN），以特征向量130来向这些网络提供数据（bedaten mit）。因此，在当前情况下，仅激活那些模式基于分类器140的评价而已被选择的SAN。并且这些被激活的SAN 中的每一个分别基于由主干网络 120 提供的特征向量 130 生成对输入场景未来发展的预测。

图3所示的系统200与图2所示的系统100的不同之处仅在于所述四个预测模块的配置（Konstellation）。在系统200的情况下，仅三个预测模块161至163以SAN的形式实现，其中以特征向量130来向这些预测模块提供数据。在此，针对所述四个模式之一而设置经典的基于模型的预测模块170 。以在感知层面110上聚集的场景特定的信息来对所述预测模块170提供数据。也即，预测模块170基于场景特定的信息生成针对输入场景的未来发展的预测。

上述实施例说明了用于预测交通场景的未来发展的所述系统以及对应方法的主要方面。该系统架构基于可选择性激活的预测模块的集合，其中的每个预测模块都针对输入场景的道路使用者的意图的特定组合而提供用于所述场景中的每个道路使用者的轨迹预测。 SAN（场景锚点网络）被有利地用作预测模块，但也可以纳入（einbinden）经典的预测模块或单独训练的基于 DL 的预测模块。此外，设置以神经网络形式的分类器，其为每个预测模块提供评价，例如评分。该评分用作衡量相应预测模块的预测可信度的度量。可以在没有一般性的限制的情况下对这样的评分进行归一化。并非所有预测模块都在运行时被执行，而是只有那些评价满足预给定选择标准的预测模块才被执行。这具有好处：只会针对输入场景中合理的发展而生成预测。特别有利的是，所提出的系统架构允许结合基于 DL 的预测和经典的预测，其方式为：除了 SAN 之外还可以使用其他预测模块，例如基于规划的预测模块。在分类器网络的训练中就已经可以将这些预测模块包含在内。通过这种方式，分类器网络不仅学习评价基于 DL 的预测模块，还学习评价经典的预测模块，并且如果对其的使用是有意义的，则在运行时不仅可以选择基于 DL 的预测模块而且也可以选择经典的预测模块。

根据按照本发明的系统的架构方面的变型可能性，也有不同的方法来训练这样的系统，这将在下面参考图4和图5进行更详细的解释。

不同训练方法的共同点是：主干网络120基于场景特定的训练数据401或501而生成学习阶段特征集131。分类器网络140然后基于所述学习阶段特征集131生成不同模式的学习阶段评价141 。此外，每个预测模块针对通过训练数据401或501指定的输入场景的未来发展生成预测403或503。然后，针对每个预测模块确定相应预测与输入场景的实际发展的偏差，并且从偏差导出所分配模式的真实评价——404或504。模式的真实评价可以例如被定义为所述偏差的倒数。

此外，在这些不同的训练方法的情况下，主干网络120总是与分类器网络140一起训练，其方式为，修改主干网络120的权重和/或分类器网络140的权重——406或506，使得不同模式的学习阶段评价与真实评价之间的偏差被减少，这可以通过计算和评估所谓的损失函数 ——405 或 505 来实现。

如已经结合根据本发明的系统详细解释的，每个预测模块作为针对输入场景中每个道路使用者的输入场景未来发展的预测而生成一个或多个确定性和/或概率性的预测轨迹以作为输入场景的未来发展。这些预测轨迹在图4和5中概括地用403或503来标识。在训练方法的范畴内，分别确定输入场景中的道路使用者的预测轨迹与实际轨迹、即所谓的地面真值轨迹402或502之间的偏差。然后基于以这种方式确定的偏差而导出分配给相应预测模块的模式的真实评价。

在使用以下符号的情况下：

通过网络/经典模型k所预测的针对车辆i的轨迹

车辆i的地面真值轨迹（包含在数据中）

在时间点t在所预测轨迹/>

T 针对轨迹的预测范围（Prädiktionshorizont）

M 在该场景中的车辆数量

N 被训练的SAN的数量

L 经典的模型/预训练的网络的数量

针对模型/SAN k的分类器评分

可以针对在预测轨迹和实际轨迹或地面真值轨迹之间的距离而定义如下度量：

图4中示出了要训练的系统400的情况，其仅仅包括以预训练的预测网络481、482形式或以经典的基于模型的预测模块471、472形式的预测模块。所有四个预测模块481、482、471、472都基于训练数据401生成针对输入场景的未来发展的预测，即，与主干网络120提供的学习阶段特征集131无关。在这里所示的示例性实施例中，训练数据 401至少针对预训练的预测网络 481、482还被转换为合适的数据表示 112 和 113，例如被转换为根据场景元素的所确定布置所创建的向量或被转换为鸟瞰图。

如果仅分类器网络140结合主干网络120使用参数

。

因此，所述训练方法的目的在于，如此确定评分141，使得所述评分与预测轨迹403和地面实况402、即实际轨迹之间的距离成反比。通过这种方式，能够最好地预测场景的预测模型获得最好的评分。

图5中示出了要训练系统500的情况，所述系统500除了预训练的预测网络580和两个经典预测模块571、572之外，还包括要训练的预测网络560。预测模块 580、571 和 572基于（必要时以合适的数据表示 114的）训练数据 501而生成针对输入场景的未来发展的预测，而要训练的预测网络 560则使用学习阶段特征集 131 作为预测基础。先前未训练的预测网络560在这里与主干网络120和分类器网络140一起被训练。由此，可以针对由潜在特征构成的特征集131更容易得到合理的多样性（Mannigfaltigkeit），其不仅对于分类器140、即不同模式的表征和评价，而且对于预测也是重要的。

针对这种情况，训练方法还规定：未训练的预测网络560基于学习阶段特征集131生成针对输入场景的未来发展的学习阶段预测。然后确定学习阶段预测与输入场景实际发展的偏差。然后从偏差导出对所分配的模式的真实评价——504。然后修改主干网络120的权重和/或分类器网络140的权重和/或未训练的预测网络560的权重，使得不同模式的学习阶段评价与真实评价之间的偏差被减少—— 506。

损失函数在此设计得与上述的其中仅分类器网络140结合主干网络120而被训练的情况完全相同。但是，

为了防止由要训练的SAN所预测的场景彼此过于相似而建议：在修改权重时考虑另一个标准，即所预测的场景的熵。在训练方法的一个有利变型中，主干网络的权重和/或分类器网络的权重和/或至少一个未训练的预测网络的权重不仅被如此修改，使得不同模式的学习阶段评价与真实评价之间的偏差被减少，而且还被如此修改，使得预测模块的预测的熵被增大。这里再次考虑所有预测，即不仅考虑要训练的 SAN 的预测而且也考虑预训练的和经典的预测模块的预测。

完整全部详细技术资料下载