导航：首页> 其他类不包含的食品或食料；及其处理>一种简化复杂模型的路网信控单元解耦方法、装置及介质

一种简化复杂模型的路网信控单元解耦方法、装置及介质

文献发布时间：2024-04-18 19:58:26

技术领域

本发明属于智能控制领域，具体涉及一种简化复杂模型训练的路网信控单元解耦方法、装置及介质。

背景技术

鉴于城市道路空间有限，产生了一系列交通问题，如交通拥堵和事故。这些问题不仅造成了严重的经济损失，还对城市的可持续发展构成了制约。因此，交通拥堵已经成为城市面临的普遍难题。为了解决这一问题，一种可行的方法是利用智能化技术来建立智能交通系统。在该系统中，交通信号控制起着核心作用，并成为解决交通问题的重要手段。

现有技术MADRL方法仍然面临一些挑战和限制。其中之一是计算复杂度的增加，随着智能体数量和环境规模的增加，训练和推理过程需要更多的计算资源，他们着重研究神经网络的复杂性、多智能体间的合作博弈以及中央控制网络的价值分解策略等，模型在现实信号控制场景的训练和利用并不容易实现。此外，MADRL方法的鲁棒性和稳定性也需要进一步改进，以应对现实场景中的不确定性和噪声。

发明内容

本发明提出了基于多智能体深度Q网络的信号优化模型，考虑用结构更为简单的独立学习模式进行干线及大规模路网信号控制，在交通环境可解耦条件下用该模型代替目前基于智能体间联合博弈的MADRL算法，以期降低模型的复杂程度，并通过不同方法对比验证本模型在多智能体信号优化中的可行性和有效性。其技术方案为：

一种简化复杂模型的路网信控单元解耦方法，包括以下步骤：

S1.设计路网环境，包括设计道路交叉口拓扑结构，布设各路口进口道检测器，建立各路口信号灯并设置起始周期绿灯时间，收集路网的静态数据，进行静态解耦；

S2.设计不同间距和流量组合作为多个交通场景，利用交通状态、动作决策构建深度强化学习模型的奖励函数；

S3.利用神经网络对深度强化学习模型进行训练；

S4.将训练好的深度强化学习模型应用到不同测试场景中进行解耦，并确定可解耦范围。

优选的，步骤S1中，

S11.收集路网的静态数据，包括道路网络连接关系、历史交通流量、道路类型信息；

S12.路网分割：根据收集到的数据构建路网拓扑结构模型，其中道路表示为节点，车辆行驶的路径表示为边，边的权重代表连接节点的道路长度；根据路网拓扑结构模型节点相对位置进行聚类，将整个路网划分成多个路段或者区域，每个路段或区域被称为一个信控单元；

S13.将步骤S11收集到的交通流量数据分配到每个信控单元中，根据分配后的交通流量数据，使用解耦方法对步骤2中路网分割结果进行进一步划分，使得每个信控单元内部的交通流量相对较为均衡，同时不同信控单元之间的交通流量较少，划分后的结果包括单点信控路口、干线信控路段和区域信控路网;静态数据的解耦方法采用聚类方法，在节点相对位置划分结果的基础上根据流量再次聚类，分离路网中交通流量无关的部分，实现路网信控单元内的解耦。

优选的，步骤S2中，

S21.将智能体分别部署在各个路口上，共有

S22.各智能体根据交通状态做出相应的决策动作，决策动作定义为信号相位的选择，可选择的相位集合记为

其中，一个交叉口的车道数量记为

优选的，步骤S2中，假设整个交叉口包括

动作决策设置为相位选择，即按照预定义的相位相序方案，根据运行状况选择保持当前阶段或切换到任意的下一阶段；相位方案集合为

优选的，步骤S3中，深度强化学习模型训练过程为：

S31.初始化模型超参数，从仿真数据中获取当前交通状态

S32.将交通状态输入到神经网络中，根据神经网络输出的动作Q值在动作集合中以

S33.将当前交通状态、决策动作、奖励值和下个时间步的交通状态作为一个四元组

神经网络每次输出实际值，而目标值会采用下一状态中对应Q值函数输出的最大动作值来近似，所以Q值函数的更新公式表示为：

通过这种方式，使神经网络的输出值近似与目标Q值，然后通过选择具有最大Q值的动作来获得最优信号控制策略。

优选的，步骤S4中，

S41.定义路口关联程度，与城市道路路网间距和路网输入车流量有关：

对于道路路网间距，设置为：快速路1500~2500米、主干路700~1200米、次干路350~500米、支路150~250米,因此扩充上下界初步确定路网间距范围在[100m，2500m]，并将间距长度记为

对于路网输入车流量，先确定路网可输入流量的进口个数，该个数与路网包含路口个数有关，已知智能体个数定义为

若第

为/>

结合路网间距和输入流量，定义相邻路口的关联程度:将相邻路口间的路段进行离散划分，已知路段长度是

关联程度反映了相邻路口间的相关联程度，关联程度数值越小，路口间的关联程度越低，路网可解耦性越强。

优选的，步骤S4中，判断是否可以解耦:

S42.将步骤S4训练好的深度强化学习模型与联合博弈模型在同一交通场景中测试并记录评价指标，评价指标可以包括车辆平均速度、车辆平均排队长度、车辆平均延误;将两组评价指标用Jaccard相似系数进行衡量，两组评价指标所在集合分别记为

其中

相似系数的取值范围在0到1之间，当系数接近于1时，表示两个集合非常相似，当系数接近于0时，表示两个集合不太相似，设置相似系数

优选的，步骤S4中，确定解耦范围：

S43.根据上述研究已知相似系数

一种解耦装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本申请的路网信控单元解耦方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现本申请的路网信控单元解耦方法的步骤。

与现有技术相比，本申请的优先如下：

a）本方案从相邻交叉口间距和进口道输入车流量出发，设计出不同的交通场景，研究表明，相邻交叉口物理间距与可输入车流量成正比，相邻交叉口物理间距越大，交叉口间独立性越高，模型可解耦性越强；

b）与基于智能体间联合博弈的MADRL算法相比，基于独立学习模式的MADRL算法在适用范围内的控制效果达到理想的水平，且算法训练难度较低；

c）基于独立学习模式的MADRL算法在多路口协调控制中能够应用于不同规模的交通需求场景，具有适应新场景的能力。

d）路网信控单元的静态解耦，指的是将路网信控单元按照静态数据进行解耦划分，划分后的不同区域之间的信号控制策略相互独立进行设计和优化。这种方法可以更加针对不同的路口进行优化，充分考虑不同路口的历史交通流量和相对位置因素，从而减少交通拥堵，提高道路通行能力。此外，解耦操作可以根据预先获取的静态数据进行优化和决策，使得信控单元静态解耦能够独立于实时数据运行，提供了较大的灵活性和可靠性。综合来看静态解耦有自己的优势，同时还为后续动态解耦提供基础数据支持。

附图说明

图1为模型的结构框架。

图2为相位选择的集合。

图3为仿真环境示意。

图4为最大排队长度频数分布情况：其中图4中的（a）为模型1在低密度状态最大排队长度频数分布情况，图4中的（b）为模型1在中密度状态最大排队长度频数分布情况，图4中的（c）为模型1在高密度状态最大排队长度频数分布情况。

图5为不同方法下评价指标的对比(车均累计延误时间)。

图6为本申请流程图。

具体实施方式

以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。

图1、图2和图6所示，一种可解耦条件下基于多智能体的网联信号协调控制方法，包括以下步骤：

在传统的路网信控系统中，交通信号控制单元常常是基于交叉口或路段进行设计的，这种方法容易导致信控单元之间的耦合性高，影响控制效果。因此，本发明提出简化复杂模型的路网信控单元解耦方法。该方法通过分析路网拓扑结构，将路网划分为若干个子区域，并将每个子区域作为一个独立的信控单元进行设计与控制，进而根据实际情况，对划分单元进行调整和优化，以达到更好的控制效果。这种解耦方法可以降低信控单元之间的耦合性，提高路网信控系统的控制效果。

S11.数据准备：收集路网的静态数据，包括道路网络连接关系、历史交通流量、道路类型等信息。本发明中这些数据可以通过交通仿真软件SUMO或者实地调查获取。

S12.路网分割：根据收集到的数据构建路网拓扑结构模型，这个模型通常是一个图，其中道路表示为节点，车辆行驶的路径表示为边，边的权重代表连接节点的道路长度。根据路网拓扑结构模型节点相对位置进行聚类，将整个路网划分成多个路段或者区域，每个路段或区域被称为一个信控单元。

S13.解耦划分：将步骤S11收集到的交通流量数据分配到每个信控单元中，根据分配后的交通流量数据，使用解耦方法对步骤S12中路网分割结果进行进一步划分，使得每个信控单元内部的交通流量相对较为均衡，同时不同信控单元之间的交通流量较少，划分后的结果包括单点信控路口、干线信控路段和区域信控路网。本发明中基于静态数据的解耦方法主要采用聚类方法，在节点相对位置划分结果的基础上根据流量再次聚类，分离路网中交通流量无关的部分，实现路网信控单元内的解耦。

S2.设计不同间距和流量组合作为多个交通场景，利用交通状态、动作决策构建深度强化学习模型的奖励函数；

假设整个交叉口包括

动作决策设置为相位选择，即按照预定义的相位相序方案，根据运行状况选择保持当前阶段或切换到任意的下一阶段；相位方案集合为

S21.将智能体分别部署在各个路口上，共有

S22.各智能体根据交通状态做出相应的决策动作，决策动作定义为信号相位的选择，可选择的相位集合记为

其中，一个交叉口的车道数量记为

S3. 信控单元深度Q网络模型构建，并对模型进行训练；

S31.初始化模型超参数，从仿真数据中获取当前交通状态

S32.将交通状态输入到神经网络中，根据神经网络输出的动作Q值在动作集合中以

S33.将当前交通状态、决策动作、奖励值和下个时间步的交通状态作为一个四元组

神经网络每次输出实际值，而目标值会采用下一状态中对应Q值函数输出的最大动作值来近似，所以Q值函数的更新公式表示为：

通过这种方式，使神经网络的输出值近似与目标Q值，然后通过选择具有最大Q值的动作来获得最优信号控制策略。

S4.将上述训练好的模型应用到不同测试场景中，确定可解耦范围。

S41.定义路口关联程度，与城市道路路网间距和路网输入车流量有关：

对于路网输入车流量，先确定路网可输入流量的进口个数，该个数与路网包含路口个数有关，已知智能体个数定义为

若第

为/>

结合路网间距和输入流量，定义相邻路口的关联程度:将相邻路口间的路段进行离散划分，已知路段长度是

关联程度反映了相邻路口间的相关联程度，关联程度数值越小，路口间的关联程度越低，路网可解耦性越强。

S42.将步骤S3的模型与联合博弈模型在同一交通场景中测试并记录评价指标，评价指标可以包括车辆平均速度、车辆平均排队长度、车辆平均延误;将两组评价指标用Jaccard相似系数进行衡量，两组评价指标所在集合分别记为

其中

相似系数的取值范围在0到1之间，当系数接近于1时，表示两个集合非常相似，当系数接近于0时，表示两个集合不太相似，设置相似系数

S43.确定解耦范围：根据上述研究已知相似系数

S5.在可解耦条件下利用模型实现对路口的实时控制。

实施案例

1）仿真环境搭建

利用微观交通仿真平台SUMO（Simulation of Urban Mobility）进行仿真实验，SUMO的主要功能包括搭建路网、生成交通需求、获取仿真中的各种评价指标等。本研究通过SUMO的TraCI接口连接Python软件，实现交叉口实时信息和多智能体深度Q网络算法的实时交互功能。本研究使用三个十字路口的环境搭建信号控制模型，利用包含两个十字路口的环境分析模型解耦的条件，两个环境的四个方向车道均为双向六车道，其中包括一条左转车道、一条直行车道和一条直右车道，如图3所示。

模型搭建完成后，以三个十字路口的环境为基础，横向扩展路口个数至6个，横纵向同时扩展路口个数至9个，形成两个新场景，并对新场景采用同样的模型进行训练及测试，用来验证模型的可扩展性。

模型的初始化超参数设置如表1所示。

表1 模型的超参数设置情况

2）交通需求场景设置

通常建议城市道路网间距设置为：快速路1500~2500米；主干路700~1200米；次干路350~500米；支路150~250米。因此将道路间距范围初步确定在[100m，2500m]，在此设置五种间距，每种间距设置三种流量，共计15种间距和流量组合作为训练场景，以期寻找模型解耦的范围。

分5个交叉口间距进行模型解耦条件实验，设置交叉口间距最小值100m，每个间距下设置低、中、高三种流量输入，仿真时长3600s，交叉口有6个进口道，分别是东、西、南1、南2、北1、北2，为了区分不同等级的车流交通状态，交叉口各方向车流量分配比例如表2所示。

表2 训练的交通场景设置

基于上述五种需求场景对模型进行训练，离散化训练过程中相邻信号灯之间路段的观测交通状态。首先将相邻信号灯之间路段划分为三个区段，区段边界值记为

以模型5为例，排队长度的上限为车道长度

表3 排队长度区间划分情况

表4 单位排队长度间隔设置情况

统计不同交叉口间距下的交通状态空间的数量，如表5所示。

表5 状态空间划分数量情况

为了进一步分析交叉口间的关联程度，统计了模型1在不同流量程度下的最大排队长度频数分布，如图4中的（a）、图4中的（b）、图4中的（c）所示。随着输入流量的增多，相邻信号灯之间路段的最大排队长度所在交通状态空间分布逐步右移，关联程度数值也逐步增大，其中低密度和中等密度对应的关联程度数值全部集中在排队长度区间的前两个，高密度对应的关联程度数值开始向最后一个区间移动，说明同一间距下输入流量越多，相邻路口的关联程度越高。进一步地，将从路口整体评价指标角度出发，观察两种训练好的模型对路口控制效果的差别，尤其是高密度下路口关联程度较高，可能存在是否解耦的临界范围。

3）模型的收敛性分析

损失函数这一指标反映多智能体深度Q网络信号控制模型训练的好坏，损失函数值越小，说明模型训练得越好。基于以上算法流程进行训练，模型的损失函数值在波动中下降，趋于稳定，模型收敛。

4）模型的性能与可替代性分析

选取车辆行驶速度、进口道最大排队长度和平均排队长度这几个指标对多智能体深度Q网络模型的控制效果进行评价。其中，车辆行驶速度指在某一时刻，所有检测车辆的瞬时速度平均值；进口道最大排队长度指在某一时刻，四个进口道检测车辆的排队长度的最大值；平均排队长度指在某一时刻，所有进口道检测车辆的排队长度的平均值。

首先，利用训练时的需求场景对训练收敛的模型进行5轮仿真测试，将5轮测试结果取平均，得到的评价指标数据如表6所示。

表6 各模型的测试评价指标数据

由测试实验的结果可知，低密度和中等密度下，进口道最大排队长度和平均排队长度均处于稳定且较低的水平，车辆行驶速度随着被检测车辆增多而上升，模型性能稳定，验证了基于独立学习模式的MADRL算法在多路口信号协调控制领域的可行性。而高密度场景下，车辆行驶速度由于拥堵相比中等密度有一定下降，最大排队长度和平均排队长度存在一定波动。为进一步检验模型的控制效果，训练同样场景下基于智能体间联合博弈的MADRL算法，并测试训练好的模型，比较两种算法的评价指标数据，测试本研究模型的适用范围。

基于智能体间联合博弈的MADRL算法同样进行5轮仿真测试，共计18000组数据，将两种算法获得的评价指标数据进行相似度分析，包括均值、方差和相似系数，从不同维度观察两组数据的差异程度，评价指标的均值如表7所示。

表7 各模型的测试评价指标数据

实验结果表明在低密度和中密度下，两种模型的评价指标相当，模型1与对应场景下的联合模型相比，评价指标变化±5%，属于可接受范围，可以用独立学习模式训练的模型代替联合博弈模型，且在模型训练时间上，基于独立学习模式的模型训练时长1.5小时，比训练基于联合博弈模型少1小时，训练时间缩短了40%。当流量处于高密度时，原有模型的性能与联合博弈模型相比下降较为明显，说明当流量逐步增大时，路口间的关联程度变大，联合控制效果将优于独立模式的控制。对于模型1，流量水平处于[0，300]范围即为当前路口间距下的模型适用范围，[300，500]范围是两种模型转换的过渡阶段，可以综合考虑控制效果和训练时长决定控制模型的选择，[500，+∞]属于模型不可解耦的范围，考虑采用联合模型进行控制，同时要注意联合模型训练时间过长的问题。

5）不同规模场景下模型的性能分析

本研究将实验环境从两个交叉口扩展到三个，并输入独立模式适用范围内的车流量，以测试模型在不同交叉口数量下的性能情况，在模型训练收敛后，与传统方法干线绿波和基于独立模式的SAC算法进行对比。观察车均累计延误时间对模型的控制优化效果进行评价并分析。三种信号控制方法的评价指标对比如图5所示。

对于车均累计延误时间这一评价指标，干线绿波平均值为19.59s，基于独立模式的SAC算法平均值为7.38s，基于独立模式的深度Q网络模型平均值为8.65s，相比传统方法延误时间有一定降低，与独立模式下的SAC训练算法相比延误略有增加。结论：在与其他信号控制方法进行对比时，本研究模型优于传统方法模型，与深度强化领域其他训练算法差异不大，验证了本研究所提出训练方法的有效性。

将场景扩展至六个和九个交叉口，继续观察评价指标如表8所示，可以看出模型在交叉口数量增加的情况下仍能进行有效控制，说明模型有一定可扩展性。

表8 不同交通场景下评价指标数据

一种解耦装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本申请所述的路网信控单元解耦方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现本申请所述的路网信控单元解耦方法的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中泰信合智能科技有限公司;山东摩西网络科技有限公司;北方工业大学;

上一篇：一种抗氧化的二氢槲皮素桑葚玫瑰红糖姜茶及其制作方法
下一篇：曲面模型打磨方法