掌桥专利:专业的专利平台
掌桥专利
首页

一种列车延误下的线网客流控制与列车调整协同优化方法

文献发布时间:2023-06-19 18:34:06


一种列车延误下的线网客流控制与列车调整协同优化方法

技术领域

本发明涉及城市轨道交通运营组织技术领域,尤其涉及一种列车延误下的线网客流控制与列车调整协同优化方法。

背景技术

因为快捷、环保的特点,城市轨道交通得到快速发展,吸引和承载了大量的城市交通出行。在城市轨道交通运营过程中,列车部件、信号、供电等各种原因,都可能造成列车运行受到影响而发生延误。城市轨道交通中的客流量巨大,列车发车频率高且负荷高,列车发生延误不但影响线路上其他列车的正常运行,而且容易造成客流聚集,引发安全问题。

目前,现有技术中的针对延误列车的常规赶点运行调整方法仅仅压缩运行时间和减小停站时间而忽略客流特性;近年来包括跳停、客流控制在内的调整策略在城市轨道交通运营中逐渐被采用,并取得良好实践效果。

上述现有技术中的针对延误列车的常规赶点运行调整方法的缺点包括:制定主要依据于调度员的经验及定性的预案,在全局性和精确性上还存在很大的不足。而目前对客流控制与列车跳停协同优化研究大多聚集于日常早晚高峰情形下,且当前利用的线性规划模型、二次规划模型和非线性组合优化模型等只适用于某个具体场景或者某个实例,在实际发生列车运行延误时很难满足其模型利用条件。

发明内容

本发明的实施例提供了一种列车延误下的线网客流控制与列车调整协同优化方法,以实现有效地提升铁路路网运营服务水平。

为了实现上述目的,本发明采取了如下技术方案。

一种列车延误下的线网客流控制与列车调整协同优化方法,包括:

获取列车延误发生的时间、位置和时长特征,根据所述列车延误发生的时间、位置和时长特征进行铁路线网延误场景的聚类迭代,随机生成延误场景;

构建铁路线网客流控制离线模型,利用所述延误场景对所述铁路线网客流控制离线模型进行进站离线强化学习训练,得到优化后的铁路线网客流控制离线模型;

根据实际延误发生场景生成在线训练环境,利用在线训练环境对所述优化后的铁路线网客流控制离线模型进行强化学习的在线训练,得到铁路线网客流控制与运行调整协同优化方案。

优选地,所述的获取列车延误发生的时间、位置和时长特征,包括:

根据列车延误发生的具体时间,利用时间峰值HL={早高峰,次早高峰,晚高峰,次晚高峰,午峰,平峰},判断列车发生延误的具体时间归属于哪个时间峰值;

根据列车延误发生的实际位置,计算出延误线路的起始站与终点站之间的距离,延误地点的车站数量,判断延误地点的上下行方向,上行方向D=1,下行方向D=2;

根据列车发生延误至恢复运行经过的时间t,利用k种时长等级TL={t<=t

优选地,所述的根据所述列车延误发生的时间、位置和时长特征进行铁路线网延误场景的聚类迭代,随机生成延误场景,包括:

根据概率函数随机设置客流出行以及列车延误,构造列车初始调整,构建离线训练环境;

根据所述列车延误发生的时间、位置和时长特征设定客流控制与列车调整的约束条件,基于所述客流控制与列车调整的约束条件将所述列车初始调整与离线训练环境反复交互,进行强化学习离线训练,输出离线模型;

所述强化学习离线训练在不同离线训练环境下反复迭代,随机生成延误场景。

优选地,所述的根据概率函数随机设置客流出行以及列车延误,包括:

根据乘客到达车站的特点,描述服务设施在一定时间内的到达人数,采取泊松分布来描述车站的到达人数的随机性,泊松分布的概率函数如下:

式中,参数λ是单位时间内随机事件发生次数的期望值,用来描述在单位时间内平均到达车站的乘客数,k为乘客数;

根据乘客的进站走行与换乘走行过程,利用正态分布的概率函数来描述乘客在轨道交通车站内的进站走行时间与换乘走行时间,正态分布的概率函数如下:

式中,x为随机变量,x服从一个数学期望为μ、方差为σ

根据列车延误持续时间的不确定性,列车在某车站发生故障导致延误,列车在该位置的延误时间服从正态分布,正态分布的概率如下:

式中,x为随机变量,x服从一个数学期望为μ、方差为σ

优选地,所述客流控制与列车调整的约束条件包括:

(1)客流控制约束

式中,

(2)列车容量约束

式中,

(3)列车跳站约束

式中,M为时段的集合,N

(4)列车运行约束

式中,

(5)站台基础设施能力约束

式中,s

(6)乘客换乘时间约束

式中,

优选地,所述的基于所述客流控制与列车调整的约束条件将所述列车初始调整与离线训练环境反复交互,进行强化学习离线训练,包括:

步骤1:初始训练次数n=0,训练开始;

步骤2:初始化列车延误运行计划、时段m、状态s和奖励r;

步骤3:m=m+1,等于M时跳转步骤8;

步骤4:选择线网上的车站,遍历到达该车站的列车,根据当前状态选择动作,将动作储存为动作包;

步骤5:输入当前动作包及状态,与环境进行交互,根据环境函数得出下一状态,奖励值及站台超限人数;

步骤6:把当前状态s、动作a、下一状态s’和奖励值r记录在记忆库;

步骤7:将记忆库记录的数据传入网络进行训练并更新状态,获得对应时段的奖励值,该奖励值累计到奖励r后跳转步骤3;

步骤8:n=n+1,n

优选地,所述构建铁路线网客流控制离线模型,包括:

构建铁路线网客流控制离线模型,该铁路线网客流控制离线模型包括对应的延误场景、当前网络和目标网络的神经网络结构和各层级参数矩阵,loss损失函数和优化器学习率,该铁路线网客流控制离线模型中包括记忆库存储的数据和每次训练后求和得到的奖励值大小。

优选地,所述的根据实际延误发生场景生成在线训练环境,利用在线训练环境对所述优化后的铁路线网客流控制离线模型进行强化学习的在线训练,包括:

根据实际延误场景的特点,依据保存的优化后的铁路线网客流控制离线模型对在线模型进行初始化,在线模型继承离线模型的各个参数,包括记忆库储存的数据;

根据在线环境的特点,对在线模型的更新频率大小,训练集大小,探索率大小进行设置,在线模型的目标网络只用于评价,不随着训练次数增加而更新参数;

在线模型训练次数较少,在线模型采取动作与环境进行交互,环境返回奖励值与下一状态,训练过程中只更新当前网络参数,用于生成准确的客流控制与列车运行方案。

优选地,所述的得到铁路线网客流控制与运行调整协同优化方案,包括:

分阶段分车站对进入轨道交通站台的乘客进行客流控制,在具体的时间和地点给予客流控制率;

延误发生时利用压缩追踪间隔和停站时间策略,以尽快恢复正常行车为目的更新列车时刻表,列车按照更新后的列车时刻表行车,在允许跳站的站台选择是否跳站。

由上述本发明的实施例提供的技术方案可以看出,本发明能够在列车发生不确定性延误时,在路网层面上考虑乘客行为与列车运行计划,给出客流控制与列车运行具体方案,为延误客流组织和疏导提供技术条件,提升路网运营服务水平。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种列车延误下的线网客流控制与列车调整协同优化方法的实现原理示意图;

图2为本发明实施例提出的一种列车初始调整的流程图;

图3为本发明实施例提出的一种仿真环境的框架图;

图4为本发明实施例提供的一种离线强化学习的流程图;

图5为本发明实施例提供的一种强化学习的在线训练示意图;

图6为本发明实施例提供的一种的客流控制结果示例图;

图7为本发明实施例提供的一种的列车调整结果实例图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

本发明针对列车延误场景,提出基于强化学习的线网客流控制与列车调整协同优化,以降低延误带来的客流聚集。本发明实施例提出了一种与常规客流控制与列车调整不同的方法,能够针对线网规模下考虑乘客出行与列车延误不确定场景计算得到准确的客流控制与列车运行调整方案。

本发明实施例提出的一种列车延误下的线网客流控制与列车调整协同优化方法的处理流程如图1所示,包括如下的步骤:

步骤1:根据列车延误发生的时间、位置和时长等特征进行铁路线网延误场景的聚类,根据聚类结果迭代随机生成延误场景;

步骤2:构建铁路线网客流控制离线模型,利用延误场景对铁路线网客流控制离线模型进行进站离线强化学习训练,得到优化后的铁路线网客流控制离线模型;

步骤3:根据实际延误发生场景生成在线训练环境,利用在线训练环境对所述优化后的铁路线网客流控制离线模型进行强化学习的在线训练,得到铁路线网客流控制与运行调整协同优化方案。

本发明实施例提出的一种列车初始调整的流程图如图2所示,具体处理步骤如下:

步骤1:构造列车运行图的时间矩阵,将计划运行图中列车在各站的到达时间、停留时间和出发时间提取出来,构成初始计划运行图信息;

步骤2:采集发生列车延误的具体信息,包括列车延误时间、延误地点与延误时长;

步骤3:根据延误信息与初始计划运行图信息,从初始站开始判断是否会发生延误,发生延误的话提取发生延误的车次信息,否则跳转步骤5;

步骤4:根据提取的车次信息,对车次后续运行采取压缩停留时间和运行时间策略,改变列车到发时刻,并满足其行车约束;

步骤5:判断是否为终点站,是终点站流程结束,否则车站序号加1后跳转步骤3。

本发明实施例提出的一种仿真环境的框架图如图3所示,该仿真环境可以仿真地铁线网上各个车站的客流到达、上车离开、下车及换乘过程,通常包括四个子流程:到达车站、进入车站、上车-下车、换乘-出站。如果单位时间内进站量的控制率大于0,则被限制进入站台的乘客应在站外等待,并根据下一阶段的控制率和上一阶段站外等候乘客的到达顺序进入车站;如果列车跳站,则被跳过的车站乘客需要选择乘坐下一次列车。该环境的输入主要有两方面:一方面是数据的输入,另一方面是当前的状态以及采取的动作。环境的输入与输出如下。

环境输入:车站的信息数据,包括各车站在轨道交通网络上的空间分布、站台的有效面积及最大容量;客流OD(Origin to Destination,起点到终点)数据,包括乘客出行乘坐地铁的出发站和目的站的名称编号以及刷卡时间;列车延误及运行数据,包括列车延误时间、位置与时长、初始列车运行时刻表、列车编组、列车满载率以及定员等;当前状态集,在m时段内各车站的进站客流需求,即:希望进站的人数;采取的动作,即:客流控制率、当前列车是否在当前车站跳站。

环境输出:下一个时段的状态,即:下一时段希望进站的人数,以及当前的奖励值。

本发明实施例提出的一种离线强化学习的流程图如图4所示,具体处理包括:各车站初始时段到站乘客数作为观察状态s输入到双深度Q网络中,在动作空间选择动作并预测价值,选择动作a与环境进行交互得到观察状态s’和奖励值r,并利用观察状态s’更新状态s作为下一时段状态输入;记忆库容量大小一定,根据新记忆挤掉旧记忆原则存储观察状态s、选择动作a、奖励r和观察状态s’,达到记忆库最大容量时从记忆库提取n条信息,并利用该信息来达到更新网络参数的目的。

本发明实施例提出的一种在线强化学习示意图如图5所示,具体处理步骤如下:

步骤1:根据实际延误场景,利用列车延误时间、位置、时长在离线模型库中寻找合适的离线模型,对在线模型参数初始化处理;

步骤2:根据实际环境的特点,减小在线模型的更新频率大小,训练集大小,探索率大小设置为0;

步骤3:智能体在当前网络中根据初始状态输入选择对应的动作,将状态和动作输入到环境中进行乘客与列车之间的交互,得到下一个状态与奖励,再次输入到网络中去,以此不断迭代更新G次后结束,由于只更新当前网络参数,G不会大于50。

本发明实施例提出的一种客流控制结果示例图如图6所示,以昌平线和13号线为例,延误发生时分成六个时段对部分车站进行客流控制,给出了精确的客流控制时间、客流控制地点和客流控制强度。

本发明实施例提出的一种列车调整结果实例图如图7所示,138次列车在13号线五道口站发生延误,延误时长为5分钟,并造成后续列车发生连带延误,经该优化方法后得出合理的列车运行计划。

综上所述,本发明提出了一种与常规客流控制与列车调整不同的方法,可以在列车延误下,提出对线网规模下考虑乘客出行与列车延误不确定场景下更加准确计算得到客流控制与列车运行调整的方案,提高客运组织的科学合理性,缓解列车延误带来的大客流聚集问题。

本发明的方法考虑列车延误下线网规模的客流控制与列车运行调整协同优化,提高大客流疏导的线网与措施的协同效果;考虑乘客出行与列车延误的不确定的强化学习方法,使得客流控制与列车运行调整的优化结果更具有多阶段动态决策与鲁棒性特征,提高结果的可用性。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种规避列车运行死锁状态的方法及列车运行全局优化控制方法
  • 拥挤地铁线路基于列车时刻表优化的客流协同精确控制方法
  • 基于客流分配的铁路列车运行图与停站方案协同优化方法
技术分类

06120115611178