导航：首页> 医学或兽医学；卫生学>一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法

一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法

文献发布时间：2023-06-19 09:52:39

技术领域

本发明涉及人工智能技术领域，涉及一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法。

背景技术

人工智能技术促进了自动驾驶汽车的发展，例如深度学习在自动驾驶汽车环境感知的应用，可以实现对复杂道路前方环境的目标识别和跟踪，深度强化学习在较为简单的道路环境中可以实现稳定的决策。随着道路环境的日益复杂，尤其多辆自动驾驶汽车在复杂道路环境行驶情况，要求车辆能适应环境变化的稳定性智能决策，以确保自动驾驶汽车的行驶安全性。然而在复杂道路环境下，采用强化学习算法实现自动驾驶的智能决策，并不能保证其正确性和准确性；尽管还有其余方法采用车辆与云计算服务器通信方式实现决策功能，但大批量数据传输会引起通信网络时延，大批量的数据信息也会引起深度学习网络层数和宽度不断增加，也增加了数据访问外存的时间延迟，同时每辆车的大批量重要数据的传输也会引起数据隐私问题，防止被其它用户窃取，尤其涉及到一些重要的数据信息是需要隐私保护的，以确保自动驾驶汽车的行驶安全性，因此，采用传统的云计算服务器与自动驾驶汽车的通信方式实现车辆的决策功能是存在一定局限性的。联邦学习是人工智能领域的一个新研究方向，其主要特点是将各个智能体的模型综合起来产生更为优化的学习型模型，并能实现大批量数据不必在车辆之间和车与服务器之间进行传输，就可以实现深度学习的训练数据，而是通过仅仅将更新的模型上传至响应的服务器，就可以解决实现智能体的优化运用模型，并保持各个智能体数据的隐私和安全。联邦学习方法不仅可以充分利用各个智能体的大数据进行模型训练，而且可以通过不同智能体在不同工作环境产生的不同模型，进一步可以产生更为完备的优化模型，能确保智能体在较短时间内的智能决策功能。通过在深度强化学习中引入联邦学习，有助于实现自动驾驶群车在复杂道路环境的智能决策。

发明内容

本发明的主要目的在于提供一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法，旨在解决现有技术中自动驾驶决策的准确性和行驶安全性问题，难以建立保护自动驾驶汽车的重要数据隐私和数据安全问题，以及减少大数据信息在车辆之间和车辆与服务器之间的信息传输问题，以确保自动驾驶群车能在不同环境实现智能决策的功能。

为实现上述目的，本发明提供一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法，所述自动驾驶群车是由N

1、所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位系统和具有存内计算特点的处理器；采用云计算服务器用来进行综合训练数据进行优化模型，采用边缘计算服务器用来进行分布式训练数据，并且与车辆、云计算服务器进行并行优化模型功能，所述车辆安装具有训练深度学习的处理器；

2、采用通信装置，用来链接车与车之间、车与基础设施，如云计算服务器和边缘计算服务器的信息传输功能；

3、可选地，在同一路径较短路段的自动驾驶群车，每一车辆根据道路环境和周围行车情况，不断获取环境知识，通过改变行为策略，来选择合适的决策策略来适应环境；

4、可选地，在同一路段的自动驾驶汽车的行驶状态、道路环境数据、交通信息以及天气信息，尤其当车辆经过各种较为复杂的交叉路口或者在频繁多变天气下的湿滑道路环境时，自动驾驶群车的每辆车不断对环境进行观察，并且在车辆自身的神经网络内训练模型，与云计算服务器的模型协作优化模型，并将优化的模型不断解密和加密的过程，在车辆与服务器之间的模型发布，最终实现车辆的智能决策行为；

5、自动驾驶汽车根据智能决策对环境的观测和奖励，实时调整其路径规划方案，并可以根据决策行为，对路径规划进行稳定性和可靠性的重构设计；

6、可选地，在同一路径较长路段，例如：城市附带交通的十字交叉路口或者各种高架桥等复杂的道路环境，在适当的路段配置云计算服务器和边缘计算服务器，以进行群车的状态和行为预测；

7、可选地，每组自动驾驶群车不断感知周围环境，将获取的来自周围环境的各种数据信息采集完毕后，采用深度强化学习不断对环境进行观测，以获取自动驾驶汽车需要得到环境对应的观察和奖励，同时，采用联邦学习方法实现对每辆车的私有策略模型训练后的加密，并且发送给边缘计算服务器，并结合其边缘神经网络模型进行协作训练，并加密发送给云计算服务器，最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练，从而将最终的训练模型发送给车辆终端，车辆可以迅速做出更为合适的行驶决策；当车辆以较低车速行驶时，只需要在车辆终端与边缘计算服务器之间协作模型训练；当车辆以较高车速行驶时，需要在车辆终端、边缘计算服务器和云计算服务器三者之间进行模型训练，并实时做出决策；

8、可选地，在同一路径较长路段，例如：高速公路或者各种高速高架桥等复杂的道路环境，在适当的路段配置云计算服务器和边缘计算服务器，以进行大规模群车的状态和行为预测；

9、可选地，每组自动驾驶群车的头车的车辆状态、道路环境和交通信息采集完毕后，采用深度强化学习实现对环境的观测，并且采用车车通信的方式实现状态信息交互，车辆可以根据车速和车间据进行实时重新调整组队，每组自动驾驶群车的每辆头车对道路环境进行感知，并且根据自身模型进行训练，然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程，最终实现头车的智能决策行为；其余群组内车辆的进行正常的自动驾驶汽车的决策行为，并且根据车联网通信的方式实现实时性的群体智能决策功能；

10、自动驾驶汽车根据智能决策对环境的观测和奖励，实时调整其路径规划方案，并可以根据决策行为，对路径规划进行稳定性和可靠性的重构设计。

本发明中，基于联邦深度强化学习方法的自动驾驶汽车群车的智能决策实现方法提供了一个可以用于多车行驶对复杂道路环境的智能决策行为，与现有技术相比，本发明具有如下优点：

1、通过联邦学习方法，通过在不同车辆终端和服务器之间交换模型，同一模型可分发于不同终端进行训练，提高了模型在整体道路环境的整体性和准确性，进而确保自动驾驶汽车在实时道路环境的智能决策行为；

2、通过联邦学习方法，可以保证数据在各自终端进行训练，可以有效解决训练数据的不平衡问题、降低通信条件的影响，不可预测的通信资源条件都会降低，并且在车辆终端上根据路况信息实时更新，保证了自动驾驶汽车的高效决策行驶；

3、同时联邦学习方法可以保证每辆车的数据信息不必在各终端中收发，而是单独在自身车辆中进行数据训练，提高了对隐私的保护能力。

附图说明

图1是基于同一较短路径的道路交通环境，采用联邦深度强化学习的自动驾驶群车的智能决策行为；

需要说明的是：

①车辆采用强化学习对环境进行观测，从而获得奖励；并进行各自的训练模型；

②将所有车辆训练好的模型信息发送给云计算综合训练模型，云计算综合训练模型对所有的模型信息进行训练；

③云计算综合训练模型将训练好的模型信息发送给所有车辆，并更新车辆的训练模型；

④车辆实时做出智能决策行为。

图2是基于同一较长路径的道路交通环境，采用联邦深度强化学习的自动驾驶群车的智能决策行为；

需要说明的是：

①车辆采用强化学习对环境进行观测，从而获得奖励；并进行各自的训练模型；

②将所有车辆训练好的模型信息发送给边缘计算服务器训练模型，边缘计算服务器训练模型对所有的模型信息进行训练；

③④⑤当车辆行驶环境较为简单时，边缘即使服务器将训练好的模型信息发送给车辆，并更新车辆的训练；当车辆行驶环境较为复杂时，需要周围边缘计算服务器的协作训练模型时，便将其发送到云计算服务器中，云计算服务器进行综合所有边缘计算服务器的模型训练，再将训练好的模型信息以此发送给各边缘计算服务器，边缘计算服务器再将信息发送给车辆；

⑥车辆实时做出智能决策行为。

图3是基于不同路径的道路交通环境，采用联邦深度强化学习的自动驾驶群车的智能决策行为；

①每辆自动驾驶汽车对环境进行观测，从而获得奖励；并进行各自的训练模型；并且每组群车的头车：车辆1、车辆4、车辆5、车辆7的训练数据后的模型，发送给边缘计算服务器进行边缘侧的综合训练数据；

⑥车辆实时做出智能决策行为。

具体实施方式

下面结合具体实施例对本发明进行详细说明。然而应当理解，实例的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。

一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法，其技术方案包括以下步骤：

步骤1、所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位系统和具有存内计算特点的处理器；采用云计算服务器用来进行综合训练数据进行优化模型，采用边缘计算服务器用来进行分布式训练数据，并且与车辆、云计算服务器进行并行优化模型功能，所述车辆安装具有训练深度学习的处理器；

步骤2、采用通信装置，用来链接车与车之间、车与基础设施，如云计算服务器和边缘计算服务器的信息传输功能；

步骤3、可选地，在同一路径较短路段的自动驾驶群车，每一车辆根据道路环境和周围行车情况，不断获取环境知识，通过改变行为策略，来选择合适的决策策略来适应环境；(即在同一路径较短路段的自动驾驶群车，采用深度强化学习方法将自动驾驶群车的每辆车不断对环境进行观察，并且采用联邦学习方法在车辆自身的神经网络内训练模型，与云计算服务器的模型协作优化模型，并将优化的模型不断解密和加密的过程，在车辆与服务器之间的模型发布，最终实现车辆的智能决策行为。)具体的：

步骤4、进一步，在同一路段的自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据，不必发送给其余车辆和服务器；

步骤5、进一步，所有的自动驾驶汽车参与者根据当前环境的观察状态进行动作决策，尤其当车辆经过交叉路口和雾天、雨和雪天等环境下湿滑的道路环境时，每辆自动驾驶汽车需要得到环境对应的反馈结果，包括当前环境的观察和奖励；

步骤6、进一步，每辆自动驾驶汽车将观察内容在各自车载处理器进行深度强化学习的神经网络以获得其私有策略模型；

步骤7、进一步，采用联邦学习方法对每辆车的私有策略模型进行加密，并且发送给云计算服务器综合神经网络优化模型；

步骤8、进一步，云计算服务器综合神经网络优化模型对每辆车的私有策略模型进行解密，并使用当前的损失函数进行训练神经网络；

步骤9、进一步，云计算服务器将加密过的子模型发送给协作行驶的自动驾驶汽车，每一个自动驾驶汽车对其解密并各自更新网络模型，然后进行更新自动驾驶汽车的网络模型；

步骤10、进一步、每一辆自动驾驶汽车的网络模型更新完毕后，根据强化学习对周围实时性的环境道路的观测，进行智能决策，以实现自动驾驶汽车的实时安全性行驶；

步骤11、进一步，群车内的每辆自动驾驶汽车都可以预测周围车辆的行驶状态，并且可以根据周围车辆预测的行驶状态，采用深度强化学习方法实现自身车辆智能决策功能；

步骤12、自动驾驶汽车可以根据智能决策对环境的观测和奖励，实时调整其路径规划方案，并可以根据决策行为，对路径规划进行稳定性和可靠性的重构设计；

步骤13、可选地，在同一路径较长路段，例如：城市附带交通的十字交叉路口或者各种高架桥等复杂的道路环境，在适当的路段配置云计算服务器和边缘计算服务器，以进行群车的状态和行为预测；(即采用深度强化学习不断对环境进行观测，以获取自动驾驶汽车需要得到环境对应的观察和奖励，采用联邦学习方法实现对每辆车的私有策略模型训练后的加密，并且发送给边缘计算服务器，并结合其边缘神经网络模型进行协作训练，并加密发送给云计算服务器，最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练，从而将最终的训练模型发送给车辆终端，车辆可以迅速做出更为合适的行驶决策)。具体的：

步骤14、进一步、每组自动驾驶群车每辆车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后，采用深度强化学习不断的对环境进行观测，每辆自动驾驶汽车需要得到环境对应的反馈结果，包括当前环境的观察和奖励；

步骤15、进一步，每组自动驾驶群车的每辆车根据收集的数据在各自的神经网络里进行训练数据，并且获得私有策略模型；

步骤16、进一步，边缘计算服务器获取每组自动驾驶群车的状态信息、道路环境信息、交通信息以及天气信息；

步骤17、进一步，采用联邦学习方法对每辆车的私有策略模型进行加密，并且发送给边缘计算服务器，边缘计算服务器综合边缘神经网络模型对每辆车的私有策略模型进行解密，并使用当前的损失函数进行训练神经网络；

步骤18、进一步，边缘计算服务器将训练好的数据模型进行加密，并发送给云计算服务器，云计算服务器对每个边缘计算服务器发送过来的数据模型。进行解密，并各自更新网络模型，然后进行更新边缘计算服务器的网络模型；

步骤19、进一步，边缘计算服务器将更新后的网络模型解密后，发送给每辆自动驾驶汽车，每辆自动驾驶汽车的网络模型更新完毕后，根据强化学习对周围实时性的环境道路的观测，进行全局道路的智能决策，以实现自动驾驶汽车的实时性道路安全行驶；如果每组自动驾驶群车中，有一辆或者几辆车辆脱离群组行驶，那么脱离群组行驶的车辆可以自身进行数据训练，并且与边缘计算服务器进行单独的分组模型训练，然后边缘计算服务器将数据模型发送给车辆；

步骤20、进一步，群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测，并且可以根据车辆预测的行驶状态，采用深度强化学习方法实现自身车辆智能决策功能；

步骤21、进一步，群车内的自动驾驶汽车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的；

步骤22、进一步，群车内的自动驾驶汽车可以根据智能决策对周围环境的观测和奖励，实时调整各自的路径规划路线；

步骤22、可选地，在不同路径较长路段，例如：高速公路或者各种高速高架桥等复杂的道路环境，在适当的路段配置云计算服务器和边缘计算服务器，以进行大规模群车的状态和行为预测；(即采用深度强化学习实现对环境的观测，并且采用车车通信的方式实现状态信息交互，车辆可以根据车速和车间据进行实时重新调整组队，每组自动驾驶群车的每辆头车对道路环境进行感知，并且根据自身模型进行训练，然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程，最终实现头车的智能决策行为)。具体的：

步骤23、进一步，每组自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后，采用深度强化学习不断的对环境进行观测，每辆自动驾驶汽车需要得到环境对应的反馈结果，包括当前环境的观察和奖励；

步骤24、进一步，每组自动驾驶群车内的车辆之间通过车车通信方式实现基本状态信息的交互，尤其是每组群车内的车速趋向于匀速情况下，将每组群车当作一辆自动驾驶汽车，就只需要对头车进行智能决策，其余群组内的车辆通过通信的方式实现车辆决策，进而确保群组的行驶；

步骤25、进一步，每组自动驾驶群车的每辆头车对道路环境进行感知，将车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后，采用深度强化学习不断的实现与环境的交互，将每辆自动驾驶汽车与环境交互得到的反馈结果，包括当前环境的观察和奖励；

步骤26、进一步，每组自动驾驶群车的头车根据收集的数据，采用神经网络进行训练数据，并且获得私有策略模型；

步骤27、进一步，采用联邦学习方法对每辆车的私有策略模型进行加密，并且发送给边缘计算服务器，边缘计算服务器综合边缘神经网络模型对每辆头车的私有策略模型进行解密，并使用当前的损失函数进行训练神经网络；

步骤28、进一步，边缘计算服务器获取每组自动驾驶群车的头车的私有网络模型，并采用当前的损失函数进行训练神经网络模型；

步骤29、进一步，边缘计算服务器将训练好的边缘数据模型进行加密，并发送给云计算服务器，云计算服务器对每个边缘计算服务器发送过来的加密的数据模型进行解密，并各自更新网络模型，然后进行更新边缘计算服务器的网络模型；

步骤30、进一步，边缘计算服务器将更新后的网络模型解密后，发送给自动驾驶群车的头车，每辆自动驾驶汽车的头车的网络模型更新完毕后，根据强化学习对周围实时性的环境道路的观测，进行全局道路的智能决策，以实现自动驾驶汽车的实时性道路安全行驶；

步骤31、进一步，群车内的自动驾驶汽车采用车联网通信的方式，将头车的决策信息，发送给后续群组内的自动驾驶汽车，后续的自动驾驶汽车根据车联网通信的数据信息、头车的决策信息以及自身车辆对周围环境的观测和奖励信息，进行自动驾驶汽车的智能决策；群车在行驶时候，可以根据行驶速度进行相应的群组调整，每组群车行驶时，都可以进行自身车辆的数据训练，然后与边缘计算服务器、云计算服务器进行协作训练模型；车辆行驶时，通过车车通信技术实时发布车速和车间距进行群车组队，脱离车队的单车或者多车，都可以单独通过自身车辆的数据训练模型，与边缘计算服务器、云计算服务器协作训练模型；

步骤32、进一步，通过车联网技术和联邦学习方法，群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测，并且可以根据车辆预测的行驶状态，采用深度强化学习方法实现自身车辆智能决策功能；

步骤33、进一步，自动驾驶群车的头车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的；

步骤34、进一步、自动驾驶群车可以根据环境的变化，从道路的宏观全局和车辆自身微观局面进行环境的观测，实时调整决策行为。

本发明的自动驾驶群车主要研究在不同种道路交通环境的智能决策行为，采用深度强化学习实现对自动驾驶群车的行驶环境以及周围车辆的行驶环境进行观测，并且在各自车辆的处理器内进行训练数据，并且将训练好的数据模型加密后发送给边缘计算服务器，边缘计算服务器综合训练边缘神经网络，并且将训练后的模型同时发送给云计算服务器，云计算服务器将综合各模型进行训练数据，将训练好的模型信息发送给边缘计算服务器和车辆终端，进行车辆终端的模型信息更新，实现自动驾驶汽车的智能决策功能，采用联邦深度学习方法实现自动驾驶群车的智能决策行为，有助于减少大数据通信条件的影响，也可以解决训练数据的不平衡问题，尤其对于高速行驶的自动驾驶汽车，可以解决数据隐私和安全性问题，从而避免将敏感的隐私原始数据上传到服务器，有助于实现计算负载和资源分配更加智能，形成了功能强大的智能，也实现了自动驾驶汽车群体决策的强大环境认知能力。

上述各实例仅用于本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载