导航：首页> 土层或岩石的钻进；采矿>一种独立于无关信息的加速强化学习的端到端自动驾驶方法

一种独立于无关信息的加速强化学习的端到端自动驾驶方法

文献发布时间：2023-06-19 18:37:28

技术领域

本发明属于车辆自动驾驶技术领域，具体涉及一种独立于无关信息的加速强化学习的端到端自动驾驶方法。

背景技术

之前的研究人员提出过一种训练方法能够忽略输入图像的无关特征，同时保留相关特征，但是只考虑了简单的环境没有考虑动态场景的影响，在实际场景下测试会出现偏差，从动态场景下的图像信息获得有关特征有助于强化学习算法中的智能体Agent和环境进行交互并通过得到的反馈进行学习选择最优的动作再进一步影响环境，如对于环境中交通灯信息选择是否继续前进，根据行人的动作进行预测发出相应的控制信息。

自动编码器是一种人工神经网络模型并且属于无监督学习，它可以由输入的数据学习到隐含特征，再根据学习到的新特征重构原始数据，由于自动编码器学习到的新特征能够传送到有监督学习模型或者强化学习模型中，因而自动编码器可以用作特征提取器。强化学习是机器学习学习方式的其中一种，其训练的主体就是Agent智能体，其根据环境信息到行为映射的学习，根据环境的反馈与环境不断的交互、试错，进而选择最优的行为策略。FPGA属于一种半定制的数字电路器件，相比于专用集成电路ASIC通用型编程灵活性低，FPGA有大量可编程器件的门电路很适合用于硬件加速。强化学习在很多领域都有应用价值，但是由于其学习速度慢和学习效率低阻碍了在大型工程复杂问题中的应用。

发明内容

本发明的目的在于提供一种独立于无关信息加速强化学习的端到端自动驾驶方法，以解决上述背景技术中提出现有技术中的问题。

为实现上述目的，本发明采用了如下技术方案：

一种独立于无关信息的加速强化学习的端到端自动驾驶方法，包括以下步骤：

1)在包含动态场景和静态场景的情况下，利用前置摄像头收集的图像信息，将原始图像作为自动编码器的输入；

2)在所述自动编码器中将原始数据分类为相关特征数据集和无关特征数据集，对自动编码器进行训练；

3)所述自动编码器输出作为强化学习网络的输入；

4)所述强化学习网络在基于FPGA的加速平台下进行推理和训练，进而得到控制命令。

进一步地，步骤1)中所述动态场景和静态场景包括道路、车道标记、其他车辆、行人、交通灯中的一种或多种。

进一步地，步骤1)中所述自动编码器包括编码器、译码器，根据输入图像的相关特征进行分类。

进一步地，步骤4)中所述FPGA的加速器硬件架构为外部存储器、处理单元、可编程逻辑部分的加速器以及片内和片外总线互连。

进一步地，所述加速器硬件采用流水线结构优化，层次结构框架为HAC，基于FPGA加速器的流水线结构并行学习多层策略，数据的获取和多层策略的训练并行执行。

进一步地，步骤4)中忽略无关信息得到最终的驾驶控制命令时，包括如下步骤：

将所有的原始图像传输入编码器，根据图像级的标签确定图像是属于哪个数据集，再用正数据集和负数据集训练网络，对于正数据集内的数据编码器和译码器的参数都会更新，对于负数据集数据仅会更新编码器的参数；

自动编码器输出连接基于深度强化学习算法的神经网络，算法根据得到的相关特征实现智能体Agent不断与环境的交互、试错，对于环境给予的反馈进行量化，基于反馈的信息不断调整训练对象的行为。

进一步地，强化学习为分层强化学习，对任务进行分解为不同层次上的子任务，而每个子任务都处于有限的状态动作空间，以此多个智能体Agent可以在FPGA平台上并行训练加速经验积累。

与现有技术相比，本发明具有以下优点：

(1)本发明相比于只考虑静态场景下的图像特征提取，将动态场景也考虑在内使得应用场景得到扩大，也有助于减少实际测试出错的几率做出正确的决策，将相关特征作为分层强化学习网络的输入，智能体Agent从得到的相关特征执行某个动作后，环境会转换到一个新的状态并给出反馈奖励信号，以此智能体在连续时间序列通过与环境的不断交互寻找最优策略.

(2)本发明可强化学习对于每个状态State下的每一个行为Action都需要探索之后学习，所以实际应用中会有很大的训练时长和算力开销，故构建一个基于FPGA加速平台的强化学习环境加快训练速度与环境交互反馈，进而解码器输出只含相关特征的图像，强化学习网络经过推理计算训练输出控制命令。

附图说明

图1为本发明独立于无关信息加速强化学习方法的流程图；

图2为本发明的基于FPGA的HAC多层结构图；

图3为本发明的强化学习actor-critic算法结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中提供了一种独立于无关信息的加速强化学习的端到端自动驾驶方法，示例性的，如图1所示，包括如下步骤：

S1、在包含动态场景和静态场景的情况下，利用系统中前置摄像头收集的图像信息，将原始图像作为自动编码器的输入；

S2、在所述自动编码器中根据图像级的标签将原始数据进行分类为相关特征数据集和无关特征数据集，对自动编码器进行训练；

S3、所述自动编码器输出作为强化学习网络的输入；

S4、所述强化学习网络在基于FPGA的加速平台下进行推理和训练，进而得到控制命令。

步骤S1中所述动态场景和静态场景包括道路、车道标记、其他车辆、行人、交通灯中的一种或多种。

步骤S1中所述自动编码器包括编码器、译码器，根据输入图像的相关特征进行分类。

步骤S4中所述FPGA的加速器硬件架构为外部存储器、处理单元、可编程逻辑部分的加速器以及片内和片外总线互连。

所述加速器硬件采用流水线结构优化，层次结构框架为HAC，基于FPGA加速器的流水线结构并行学习多层策略，数据的获取和多层策略的训练并行执行。

步骤S4中忽略无关信息得到最终的驾驶控制命令时，包括如下步骤：

强化学习为分层强化学习，对任务进行分解为不同层次上的子任务，而每个子任务都处于有限的状态动作空间，以此多个智能体Agent可以在FPGA平台上并行训练加速经验积累。

通过上述方法，相比于直接用原始数据训练强化学习网络，通过提取相关特征忽略无关信息，从而更有利于神经网络的训练效果和加速整个训练过程，自动编码器的训练只需要图像级标签，而不需要像素级标签，其训练过程只需要低成本。

具体的，由前置摄像头收集原始图像传输入编码器，根据图像级的标签确定图像是属于哪个数据集，再根据得到的正数据集和负数据集训练网络，对于正数据集内的数据编码器和译码器的参数都会更新，对于负数据集数据仅会更新编码器的参数；

自动编码器输出连接基于强化学习算法的神经网络，算法根据得到的相关特征实现智能体Agent不断与环境的交互、试错，对于环境给予的反馈进行量化，基于反馈的信息不断调整训练对象的行为。在基于FPGA平台上的三层的HAC分层强化学习中多个智能体并行训练，在Actor神经网络中根据环境反馈的State预测各种行为发生的概率，进而根据概率的高低进行行为的优化，在Critic神经网络中根据其中的价值函数，在环境反馈的状态State下评估Actor输出的行为Action的价值，进而与环境的奖励Reward进行比较，更新两个神经网络的参数，以此不断优化智能体的行为。

如图2所示的，对于由自动编码器输入的相关特征，判断出学习网络的目标Goal，即智能体Agent需要达到什么样的目标，不同图像特征需要达到不同的目标，而每一层的不同目标同样对应着不同的策略，上层的控制器可以根据上层策略选择Goal，而下层控制器则根据选择的Goal和下层策略选择action以实现Goal，当目标实现时奖励为1，否则为0，此结构为一个多层级的分层结构，除了最后一层，其他的每一层的输出都作为下一层的目标，其中目标即为状态空间中较好的状态，根据流水线结构原理，当下一层从上一层获得相应的Goal时，上一层可以更新目标以及对应的策略，加快动作action产生与环境反馈，以此加速智能体与环境交互，基于FPGA的加速平台在控制端控制下对于相关特征的采样和强化学习网络的训练进程可以同时运行，对于分层强化学习算法的训练进行了加速和优化。

分层强化学习将任务分解为多个子任务，有着更高的样本利用率，在HAC中有平稳的环境，并没有奖励稀疏问题，智能体能够学习到最优策略，从而得到一个正确的控制命令。

如图3所示为actor-critic算法结构图，对于从环境中产生的状态state反馈给actor网络根据策略函数输出每个动作的概率选择动作actions，然后actions与状态state在critic网络中根据其内部的价值函数产生对应的值，与环境产生奖励reward进行对比判断在当前状态哪个动作是好的，进而帮助actor网络进行策略更新实现了单步更新提高学习效率。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王海;胡强;郭宪章;黄乐天;
专利申请人：电子科技大学长三角研究院(湖州);