掌桥专利:专业的专利平台
掌桥专利
首页

一种交通信号控制方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:30:30


一种交通信号控制方法、装置、电子设备及存储介质

技术领域

本申请涉及交通信号控制技术领域,具体而言,涉及一种交通信号控制方法、装置、电子设备及存储介质。

背景技术

随着信息技术的不断发展和城市信息化应用水平的提高,智慧城市建设应运而生。作为智慧城市发展的重中之重,智慧交通的实现至关重要。智慧交通涉及交通控制、灾害管理、车辆信息与导航、驾驶员辅助等。而交通信号的智能控制可以有效缓解交通拥堵,保障人们日常出行安全,提高出行效率,促进社会发展,减少环境污染,最终实现可持续发展。因此,交通信号灯智能控制算法的研究实现是智能交通中一个非常有意义和实用的方向。但现有交通信号控制方法中收敛速度慢,对路网协调调度的效果较差。

发明内容

本申请实施例的目的在于提供一种交通信号控制方法、装置、电子设备及存储介质,用以改善路网协调调度的效果。

第一方面,本申请实施例提供一种交通信号控制方法,包括:基于目标路口的第一交通状态以及相邻路口的第二交通状态,确定所述相邻路口对所述目标路口的影响权重;基于所述第二交通状态以及所述影响权重,确定用于表征所述相邻路口对所述目标路口的影响的第一聚合状态;基于所述第一交通状态以及所述第一聚合状态,确定考虑所述相邻路口对所述目标路口的影响的、用于表征所述目标路口交通状态的第二聚合状态;基于所述第二聚合状态,确定所述目标路口的交通信号变更动作;基于所述目标路口的交通信号变更动作,生成所述目标路口的交通控制信号。

在上述方案的实现过程中,使用考虑相邻路口对目标路口影响的聚合状态来表征目标路口交通状态,使得对目标路口交通状况的刻画更加准确,实现了多路口交通信息的高效与高质量聚合,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

在第一方面的一种实现方式中,所述基于目标路口的第一交通状态以及相邻路口的第二交通状态,确定所述相邻路口对所述目标路口的影响权重,包括:确定所述目标路口和所述相邻路口的嵌入层权重;采用图注意力网络,根据目标路口的嵌入层权重和第一交通状态以及相邻路口的嵌入层权重和第二交通状态,学习所述相邻路口对所述目标路口的影响权重。

在上述方案的实现过程中,考虑相邻路口对目标路口的影响,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

在第一方面的一种实现方式中,所述基于第二交通状态以及所述影响权重,确定第一聚合状态,包括:采用图注意力网络,基于所述相邻路口的嵌入层权重、所述影响权重和所述第二交通状态,获得第一聚合状态。

在上述方案的实现过程中,使用目标路口的相邻路口所聚合的交通状态来表征目标路口的交通状态,充分考虑了相邻路口对目标路口的影响,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

在第一方面的一种实现方式中,所述基于所述第一交通状态以及所述第一聚合状态,确定第二聚合状态,包括:将所述第一交通状态与所述第一聚合状态进行聚合,获得第二聚合状态。

在上述方案的实现过程中,采用第一交通状态和第一交通状态进行聚合后获得第二交通状态的目的是使用图注意力网络拟合相邻路口对目标路口的影响因素,而不是拟合目标路口复杂的未来交通状况,使用考虑相邻路口对目标路口的影响,并添加有目标路口本身状态,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

在第一方面的一种实现方式中,所述基于所述第二聚合状态,确定所述目标路口的交通信号变更动作,包括:以所述第二聚合状态作为线性层的输入,获取在所述第二聚合状态下,所述目标路口采取某个动作所能获取的未来奖励值之和;采用使得所述未来奖励值之和最大的动作作为所述目标路口的交通信号变更动作。

在上述方案的实现过程中,使用考虑有相邻路口对目标路口影响,同时还聚合有目标路口自身状态的第二聚合状态作为线性层的输入,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

在第一方面的一种实现方式中,所述第一交通状态和所述第二交通状态均包括:当前路口的信号灯相位,以及当前路口中进车道的拥堵参数。

在上述方案的实现过程中,将当前路口中进车道的拥堵参数加入当前路口状态,使得路口状态能够更好的表征路口的交通状况,对目标路口交通状态的刻画更加准确,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

在第一方面的一种实现方式中,所述当前路口中进车道的拥堵参数,包括:当前路口中进车道的感受路段中的车辆数;所述当前路口中进车道的感受路段中的车辆数的确定方法为:确定当前路口进车道中车辆所能达到的最大速度Sp

在上述方案的实现过程中,将当前路口中进车道的感受路段中的车辆数加入路口状态,该状态可以根据车道的拥堵情况动态聚焦关键路段,兼顾车辆的位置信息,同时还能更好地表征目标路口拥堵程度,对目标路口交通状态的刻画更加准确,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果;同时,相较于采用多个参数作为路口状态的情况,本申请实施例采用路口信号灯相位和当前路口中进车道的感受路段中的车辆数作为状态,保证了状态的简单性,有利于上述交通信号控制方法快速收敛。

第二方面,本申请实施例提供一种交通信号控制装置,包括:

影响权重确定模块,用于基于目标路口的第一交通状态以及相邻路口的第二交通状态,确定所述相邻路口对所述目标路口的影响权重;

第一聚合状态确定模块,用于基于所述第二交通状态以及所述影响权重,确定用于表征所述相邻路口对所述目标路口的影响的第一聚合状态;

第二聚合状态确定模块,用于基于所述第一交通状态以及所述第一聚合状态,确定考虑所述相邻路口对所述目标路口的影响的,用于表征所述目标路口交通状态的第二聚合状态;

交通信号变更动作确定模块,用于基于所述第二聚合状态,确定所述目标路口的交通信号变更动作;

交通控制信号生成模块,用于基于所述目标路口的交通信号变更动作,生成所述目标路口的交通控制信号。

第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面,本申请实施例提供一种电子设备,包括:存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的交通信号控制方法的流程示意图;

图2为本申请实施例提供的交通信号控制模型的结构示意图;

图3为本申请实施例提供的交通信号控制装置的结构示意图;

图4代表各强化算法在模拟数据集Grid

图5代表各强化算法在模拟数据集Grid

图6代表各强化算法在真实数据集C

图7代表各强化算法在真实数据集B

图8代表各强化算法在真实数据集B

图9代表各强化算法在真实数据集B

图10代表各强化算法在真实数据集A

图11代表各强化算法在真实数据集A

图12代表各强化算法在真实数据集A

图13为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。

在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

目前,智能交通信号灯控制研究领域已取得了较多的重要成果。传统的交通信号控制算法可以追溯到SCOOT(Split Cycle Offset Optimizing Technique,绿信比、周期、相位差优化技术)和SCATS(Sydney Coordinated Adaptive Traffic System,悉尼自适应交通控制系统),它们依赖于人工预先设计的规则,并推动了一系列基于预定义规则的控制算法的研究,可分为单路口独立控制方法和多路口协调控制方法。然而这种基于经验观察的方法无法应对当今复杂多变的交通状况。后来,不同的人工智能技术被应用于交通信号控制,如模糊逻辑算法、群体智能和应用最广泛的强化学习(Reinforcement Learning,RL)。基于RL的方法将交通信号控制问题建模为马尔可夫决策问题,并通过环境中收集的状态信息选择动作,从而在没有先验知识的情况下最大化奖励。近年来,得益于深度学习研究的突破,RL与深度学习(Deep Learning,DL)相结合,称为深度强化学习(DeepReinforcement Learning,DRL),已成为交通信号控制中最有效的学习框架。它结合了深度神经网络强大的非线性拟合能力和强化学习在解决控制和决策问题方面的优势,将强化学习方法扩展到更复杂的任务。之后,研究人员主要通过提取有效状态和促进交叉路口之间信息的有效聚合来提高基于DRL的方法的性能。

在状态设计中,有一个基本的权衡。状态包含的信息越全面,状态的收集和预处理就越困难。此外,随着状态的探索空间变大,模型的收敛速度也会变慢甚至无法收敛,尤其是对于空间呈指数增长的多交集模型。在模型设计上,现有技术中有通过集中控制、相邻交叉路口通信等方式促进了多个交叉路口之间更有效的信息聚合,特别是结合新兴的图神经网络(Graph Neural Network,GNN),RL结合GNN已成为多个交叉路口联合控制的较优选择,并在许多公共数据集中达到了先进水平。

基于图神经网络的方法将每个交叉路口视为图中的一个节点,收集来自环境的有效的交通信息作为节点的状态,通过共享权重的神经网络学习节点与相邻节点之间的关系,从而实现多个交叉路口之间的有效信息聚合。然而,在实际应用时发现采用GNN配合RL的方式并不能获得较好的路网协调调度效果,发明人经过大量研究发现,不能取得较好调度效果的关键在于:

未考虑路网中各个路口之间的互相影响:由于交通路口并不是独立存在的,与目标路口相邻的相邻路口中的车辆有一定概率会进入目标路口,从而对目标路口产生影响。而现有技术中的交通信号控制方法未考虑到相邻路口对目标路口的影响。

针对现有技术中上述缺陷,发明人提出以下构思:

在多路口信息聚合上,将通过相邻路口交通信息所聚合获得的对目标路口的表征状态与目标路口本身的交通状态进行叠加,同时将模型从根据相邻路口的状态拟合复杂的未来状态变为考虑相邻路口对目标路口的影响,从而改善交通信号控制方法的路网协调调度效果。

请参见图1,本申请实施例提供一种交通信号控制方法,包括:

步骤S110:基于目标路口的第一交通状态以及相邻路口的第二交通状态,确定相邻路口对目标路口的影响权重;

步骤S120:基于第二交通状态以及影响权重,确定用于表征相邻路口对目标路口的影响的第一聚合状态;

步骤S130:基于第一交通状态以及第一聚合状态,确定考虑相邻路口对目标路口的影响的、用于表征目标路口交通状态的第二聚合状态;

步骤S140:基于第二聚合状态,确定目标路口的交通信号变更动作;

步骤S150:基于目标路口的交通信号变更动作,生成目标路口的交通控制信号。

在上述方案的实现过程中,使用考虑相邻路口对目标路口影响的聚合状态来表征目标路口交通状态,使得对目标路口交通状况的刻画更加准确,实现了多路口交通信息的高效与高质量聚合,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

下面分别对上述步骤S110~S150进行详细描述:

首先,对步骤S110进行详细描述:

作为上述交通信号控制方法的一种可选实施方式,步骤S110中的第一交通状态和第二交通状态均包括:当前路口的信号灯相位,以及当前路口中进车道的拥堵参数。该实施方式例如:以信号灯放行时间内各方向各车道的信号状态的组合作为该信号灯放行时间内当前路口的信号灯相位;拥堵参数可以采用等待进车道中的车辆数量、固定路段长度中的车辆数量或者排队等待通过路口的队列长度。

需要指出,上述进车道是指:车辆进入路口的车道。与进车道相对应的是出车道,出车道是指:车辆驶出路口的车道,在路网中当前路口的出车道也是与当前路口相邻的路口的进车道。

在上述方案的实现过程中,将当前路口中进车道的拥堵参数加入当前路口状态,使得路口状态能够更好的表征路口的交通状况,对目标路口交通状态的刻画更加准确,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

作为上述交通信号控制方法的一种可选实施方式,当前路口中进车道的拥堵参数可以为:当前路口中进车道的感受路段中的车辆数。当前路口中进车道的感受路段中的车辆数的确定方法为:确定当前路口进车道中车辆所能达到的最大速度Sp

其中,Sp

在上述实施方式中将Sp

在上述方案的实现过程中,将当前路口中进车道的感受路段中的车辆数加入路口状态,该状态可以根据车道的拥堵情况动态聚焦关键路段,兼顾车辆的位置信息,同时还能更好地表征目标路口拥堵程度,对目标路口交通状态的刻画更加准确,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果;同时,相较于采用多个参数作为路口状态的情况,本申请实施例采用路口信号灯相位和当前路口中进车道的感受路段中的车辆数作为状态,保证了状态的简单性,有利于上述交通信号控制方法快速收敛。

作为上述交通信号控制方法的一种可选实施方式,步骤S110基于目标路口的第一交通状态以及相邻路口的第二交通状态,确定相邻路口对目标路口的影响权重,包括:确定目标路口和相邻路口的嵌入层权重;采用图注意力网络,根据目标路口的嵌入层权重和第一交通状态以及相邻路口的嵌入层权重和第二交通状态,学习所述相邻路口对所述目标路口的影响权重。该实施方式例如:将路网连接图以及各路口的交通状态输入图注意力网络,获得每个路口的嵌入层权重,然后通过以下公式计算路口j对路口i的影响权重:

e

其中,h

e

在上述方案的实现过程中,考虑相邻路口对目标路口的影响,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

作为上述交通信号控制方法的一种可选实施方式,上述交通信号控制方法在步骤S110之前,还包括:使用多层感知机MLP(Multilayer Perceptron)对路口交通状态进行编码,具体为:

其中,h

下面详细介绍步骤S120:

作为上述交通信号控制方法的一种可选实施方式,步骤S120基于第二交通状态以及影响权重,确定第一聚合状态,包括:采用图注意力网络,基于相邻路口的嵌入层权重、影响权重和第二交通状态,获得第一聚合状态。该实施方式例如:采用如下公式获取第一聚合状态:

其中,H

在上述方案的实现过程中,使用目标路口的相邻路口所聚合的交通状态来表征目标路口的交通状态,充分考虑了相邻路口对目标路口的影响,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

对路口j对路口i的影响权重e

其中,softmax为归一化指数函数。

需要指出,第一聚合状态可以采用一层图神经网络来聚合,也可以采用多层图神经网络来扩展聚合信息的感受野:

其中,

下面详细介绍步骤S130:

作为上述交通信号控制方法的一种可选实施方式,步骤S130基于第一交通状态以及第一聚合状态,确定第二聚合状态,包括:将第一交通状态与第一聚合状态进行聚合,获得第二聚合状态。该实施方式例如:

在交通信号控制领域,多个路口的联合建模是为了共享信息,促进合作,其本质是让每个路口更多地考虑未来其他路口的影响,而该路口当前的交通状况仍是决策的主要依据,因此采用如下方式将目标路口的第一交通状态和第一聚合状态进行聚合,以获得第二聚合状态:

H′

其中,H

在上述方案的实现过程中,采用第一交通状态和第一交通状态进行聚合后获得第二交通状态的目的是使用图注意力网络拟合相邻路口对目标路口的影响因素,而不是拟合目标路口复杂的未来交通状况,使用考虑相邻路口对目标路口的影响,并添加有目标路口本身状态,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

下面详细介绍步骤S140和步骤S150:

作为上述交通信号控制方法的一种可选实施方式,步骤S140基于第二聚合状态,确定目标路口的交通信号变更动作,包括:以第二聚合状态作为线性层的输入,获取在第二聚合状态下,目标路口采取某个动作所能获取的未来奖励值之和;采用使得未来奖励值之和最大的动作作为目标路口的交通信号变更动作。该实施方式例如:将交通信号控制问题建模为马尔可夫决策问题。将路网中每个有红绿灯的路口均视为路网节点,根据其路口状态和其相邻路口的交通状态选择下一个路网节点的执行信号,该问题的目的为最小化所有车辆平均行驶时间。上述问题可以描述为(S,A,P,R,γ),其中:

状态空间S,状态s

行动空间A,动作

转移概率P,给定时间t下的状态s

奖励R,

折扣系数γ,代表控制未来奖励的影响程度,使用折扣系数计算奖励总和的方法为:

其中,

上述状态空间S中的状态即为上述第二聚合状态,将上述(S,A,P,R,γ)输入线性层,即可获得目标路口采取某个动作所能获取的未来奖励值之和,然后将使得未来奖励值之和最大的动作作为目标路口的交通信号变更动作,以使得目标路口可以获得最大的未来奖励值。

线性层通过以下方式计算目标路口采取某个动作所能获取的未来奖励值之和,即Q值:

q

其中,W

在上述方案的实现过程中,使用考虑有相邻路口对目标路口影响,同时还聚合有目标路口自身状态的第二聚合状态作为线性层的输入,使得上述交通信号控制方法能够更好地考虑目标路口的交通状况,从而获取最优选的信号灯变换动作,有效改善了路网协调调度的效果。

在步骤S140将使得未来奖励值之和最大的动作作为目标路口的交通信号变更动作后,步骤S150将该动作转换为信号灯控制信号以控制目标路口的信号灯变更。

请参见图2,上述交通信号控制方法可以总结为一个交通信号控制模型,本申请实施例将该交通信号控制模型称为KeyLight模型200,该模型包括:

多层感知机210,用于对路口交通状态进行编码;

带残差结构的GAT220,用于对路口交通状态进行聚合;

线性层230,用于根据带残差结构的GAT220的输出进行进一步处理,获得符合最终维度的Q值。

需要指出,上述模型可以基于Ape-X框架进行强化学习训练,Ape-X是一个分布式的训练框架,面向DQN(Deep Q-learning)、DDPG(Deep Deterministic Policy Gradient)等离线强化学习算法,使用多个同时包含模型和环境的Actor进行采样,然后把采集的样本数据统一放到一个经验回放池(Replay Buffer)中用于Learner的训练。具体的训练方法请参见现有技术。

为了验证上述交通信号控制方法的性能,本申请实施例进行了如下对比实验:

采用CityFlow作为实验平台,对所提出的方法进行了实验与验证。CityFlow是一个开源的高效交通模拟器,可支持对道路网络和车流的灵活自定义,用于测试传统的或者基于强化学习的交通控制算法。

(1)数据集选用

为了充分比较已有方法和本申请实施例所提出的方法的性能,本申请实施例使用了现有技术中经典的公用数据集,其中包含了2组模拟数据和3组来自A市、B市和C市的真实场景数据集。

在模拟数据集中,车流的生成符合均匀分布。为了更好的比较调度结果的差异,水平方向的车流都比垂直方向的车流更密集。需要指出,本申请实施例将自西向东或者自东向西的车道定义为水平车道,自北向南或者自南向北的车道定义为垂直车道。相对的,车道上的车流被定义为水平车流或者垂直车流。其数据属性如表1所示:

表1模拟数据集的数据属性

其中,Grid

在真实数据集中,来自A市和B市的2组数据集都包含了3个不同车流规模和分布的数据集,其数据属性如表2所示:

表2真实数据集的数据属性

(2)环境设置

本申请实施例所涉及的对比实验所采用的环境设置如表3所示:

表3对比实验环境设置

(3)对比方法设置

为了证明本申请实施例所提出的交通信号控制方法的优越性,对以下传统的交通信号控制方法和最近提出的基于强化学习的算法进行了实验:

所设置的传统方法如下:

a.FixedTime:定时信号控制;

该方法根据预先定义的顺序和周期设置下一步动作,在稳定的交通流中被广泛使用。

b.MaxPressure:基于成熟交通理论的经典交通信号控制方法之一,释放压力最大的车道,车道压力pressure的计算方法为进车道车辆数减去出车道车辆数。

c.SOTL(Self organizing traffic lights):自组织交通灯控制;

当且仅当进入车道上的车辆数量超过预定义阈值时,此方法才会更改路口相位。

所设置的强化学习方法如下:

a.GCN(Graph Convolutional Network):基于图卷积神经网络整合相邻路口的信息,促进多路口之间的合作。

b.CoLight:是现有技术中一种使用图注意力网络进行多路口交通灯控制的方法,此方法使用规则确定目标路口的相邻路口,并且每个目标路口的相邻路口的数量预定义为3,该方法基于图注意力网络整合相邻路口的信息,促进多路口之间的合作。

c.CoLight+Res:在上述CoLight方法的基础上增加残差结构;

d.CoLight+NOV-LADLE:在上述CoLight方法的基础上路口状态使用NOV-LADLE。

(4)评价指标

根据现有研究,使用以秒为单位的平均行驶时间和吞吐量来评估上述方法的性能。车辆行驶时间定义为一辆车进入系统与离开系统的时间差。吞吐量是在一段时间内,本申请实施例设置为3600s,在路网中完成行程的车辆数量。使用三个以上不同的随机种子来测试所有基于强化学习的算法,且以下的所有结果都代表了它们的最佳性能。

(5)性能对比

a.平均行驶时间和吞吐量

表4和表5展示了本申请实施例所提出的交通信号控制方法,即KeyLight算法和其他传统算法以及基于RL的模型的性能对比。

表4各算法在A市和B市真实数据集上的结果

表5各算法在模拟数据集与C市真实数据集上的结果

由表4和表5可以看出:

1.本申请实施例所提出的交通信号控制方法,即KeyLight方法,在模拟数据集和真实数据集上都取得了最好的性能,证明了KeyLight方法在多个场景中的优越性和稳定性。

2.A市和B市的真实数据集与模拟数据集相比,真实数据集交通流复杂多变,而KeyLight的平均行驶时间减少了10%以上。特别是在平均和瞬时交通流量最大的A

3.接入残差结构和NOV-LADLE状态的分别应用都显著提高了模型性能,同时使用两者还能够进一步提高性能。

b.训练效率

请参见图4至图12,本申请实施例提供了上述各强化学习算法在各个数据集上的收敛效果图。可以看出,残差结构和NOV-LADLE状态的应用都使得模型训练更稳定,收敛速度更快,尤其是在真实数据集中。并且本申请实施例所提出的交通信号控制方法同时使用残差结构和NOV-LADLE状态可以让训练效果达到最优。

(6)对比实验总结

本申请实施例提供了一种交通信号控制方法,其采用了一种新的状态NOV-LADLE用于强化学习方法来控制交通信号。NOV-LADLE可以根据车道的拥堵情况动态聚焦关键路段,兼顾车辆的位置信息,保证状态的简单性。而在GAT模型引入残差结构显式地提高了路口本身状态的重要性,这也更符合实际,使得模型训练更稳定,同时也提升了模型性能,促进了多路口交通信息的高效聚合。在模拟数据集和真实世界数据集上的大量实验结果验证了本申请实施例所提出的交通信号控制方法的有效性。总体上,上述交通信号控制方法利用强化学习避免了人工归纳先验知识,直接从尝试中学习最优调度策略,实现了多路口协调调度的智能化控制;基于图深度神经网络多路口对路网进行建模,从而对路网进行协调调度,实现了路网的高效合作调度。

请参见图3,基于同一发明构思,本申请实施例中还提供一种交通信号控制装置300,包括:

影响权重确定模块310,用于基于目标路口的第一交通状态以及相邻路口的第二交通状态,确定所述相邻路口对所述目标路口的影响权重;

第一聚合状态确定模块320,用于基于所述第二交通状态以及所述影响权重,确定用于表征所述相邻路口对所述目标路口的影响的第一聚合状态;

第二聚合状态确定模块330,用于基于所述第一交通状态以及所述第一聚合状态,确定考虑所述相邻路口对所述目标路口的影响的,用于表征所述目标路口交通状态的第二聚合状态;

交通信号变更动作确定模块340,用于基于所述第二聚合状态,确定所述目标路口的交通信号变更动作;

交通控制信号生成模块350,用于基于所述目标路口的交通信号变更动作,生成所述目标路口的交通控制信号。

作为上述交通信号控制装置的一种可选实施方式,影响权重确定模块310基于目标路口的第一交通状态以及相邻路口的第二交通状态,确定所述相邻路口对所述目标路口的影响权重,包括:确定所述目标路口和所述相邻路口的嵌入层权重;采用图注意力网络,根据目标路口的嵌入层权重和第一交通状态以及相邻路口的嵌入层权重和第二交通状态,学习所述相邻路口对所述目标路口的影响权重。

作为上述交通信号控制装置的一种可选实施方式,第一聚合状态确定模块320基于第二交通状态以及所述影响权重,确定第一聚合状态,包括:采用图注意力网络,基于所述相邻路口的嵌入层权重、所述影响权重和所述第二交通状态,获得第一聚合状态。

作为上述交通信号控制装置的一种可选实施方式,第二聚合状态确定模块330基于所述第一交通状态以及所述第一聚合状态,确定第二聚合状态,包括:将所述第一交通状态与所述第一聚合状态进行聚合,获得第二聚合状态。

作为上述交通信号控制装置的一种可选实施方式,交通信号变更动作确定模块340基于所述第二聚合状态,确定所述目标路口的交通信号变更动作,包括:以所述第二聚合状态作为线性层的输入,获取在所述第二聚合状态下,所述目标路口采取某个动作所能获取的未来奖励值之和;采用使得所述未来奖励值之和最大的动作作为所述目标路口的交通信号变更动作。

作为上述交通信号控制装置的一种可选实施方式,第一交通状态和所述第二交通状态均包括:当前路口的信号灯相位,以及当前路口中进车道的拥堵参数。

作为上述交通信号控制装置的一种可选实施方式,当前路口中进车道的拥堵参数,包括:当前路口中进车道的感受路段中的车辆数。交通信号控制装置300还包括:当前路口中进车道的感受路段中的车辆数确定单元,具体为:确定当前路口进车道中车辆所能达到的最大速度Sp

图13为本申请实施例提供的一种电子设备的示意图。参照图13,电子设备400包括:处理器410、存储器420以及通信接口430,这些组件通过通信总线440和/或其他形式的连接机构(未示出)互连并相互通讯。

其中,存储器420包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器410以及其他可能的组件可对存储器420进行访问,读和/或写其中的数据。

处理器410包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器410可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(Network Processor,简称NP)或者其他常规处理器;还可以是专用处理器,包括数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuits,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

通信接口430包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。例如,通信接口430可以是以太网接口;可以是移动通信网络接口,例如3G、4G、5G网络的接口;还是可以是具有数据收发功能的其他类型的接口。

在存储器420中可以存储一个或多个计算机程序指令,处理器410可以读取并运行这些计算机程序指令,以实现本申请实施例提供的交通信号控制方法以及其他期望的功能。

可以理解,图13所示的结构仅为示意,电子设备400还可以包括比图13中所示更多或者更少的组件,或者具有与图13所示不同的配置。图13中所示的各组件可以采用硬件、软件或其组合实现。例如,电子设备400可以是单台服务器(或其他具有运算处理能力的设备)、多台服务器的组合、大量服务器的集群等,并且,既可以是物理设备也可以是虚拟设备。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的交通信号控制方法。例如,计算机可读存储介质可以实现为图13中电子设备400中的存储器420。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种智能控制方法、智能控制装置、电子设备和存储介质
  • 电子设备的显示控制方法、装置、电子设备和存储介质
  • 电子设备控制方法及装置、电子设备及存储介质
  • 控制方法、控制装置、计算机可读存储介质和电子设备
  • 一种交通信号控制方法、装置、电子设备及存储介质
  • 一种交通信号控制方法、装置、电子设备及存储介质
技术分类

06120115933807