掌桥专利:专业的专利平台
掌桥专利
首页

用于路网抢修与物资配送的联合调度方法和系统

文献发布时间:2024-04-18 19:58:26


用于路网抢修与物资配送的联合调度方法和系统

技术领域

本发明涉及联合调度技术领域,具体涉及一种用于路网抢修与物资配送的联合调度方法和系统。

背景技术

在洪涝、地震等自然灾害发生后,灾区需要大量的各类应急物资以维持救援活动的开展和灾区群众的日常生活。因此,灾后快速有效的应急物资供给对挽救灾区群众生命、降低灾区经济损失显得尤为重要。

但是,洪涝、地震等自然灾害的发生会对通往灾区的道路造成一定程度的破坏,阻碍车辆的通行,影响向灾区的物资供给,所以灾后道路的路网抢修工作也是应急救援活动的重要部分之一。

现有阶段对于应急物资配送和应急道路抢修的联合调度研究,由于其联合调度模型比较复杂,导致算法的计算和求解过程存在较高的困难度,使得求解花费的时间较长。

因此,亟需一种用于路网抢修与物资配送的联合调度方法,用于缩短其求解的时间。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种用于路网抢修与物资配送的联合调度方法和系统,解决了现有技术对于应急物资配送和应急道路抢修的联合调度求解时间较长的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

在本发明的第一方面,提供了一种用于路网抢修与物资配送的联合调度方法,所述方法包括:

S1、获取路网结构的路网参数,并令t=0;

S2、初始化抢修决策模型与运输决策模型中的状态空间和动作空间;其中,所述抢修决策模型与运输决策模型的类型均为由状态空间、动作空间和回报函数组成的三元组;

S3、基于Q学习算法对所述抢修决策模型进行求解,以获取抢修队的抢修策略H,在所述路网结构中的全部需求点均可由运输队达到后,基于缓冲表机制将更新后的路网信息发送至所述运输决策模型,并基于Q学习算法对所述运输决策模型进行求解,以获取运输队的运输策略P;

S4、基于所述抢修策略H和所述运输策略P计算目标函数的目标函数值f(P);其中,所述目标函数为

S5、判断函数值f(P)

S6、令t=t+1,判断t>T

可选的,所述抢修决策模型中包括状态空间S

其中,所述状态空间s

动作空间A

回报函数r

若没有新的需求点被打通,则回报函数R

若有新的需求点被打通,则回报函数R

可选的,所述抢修决策模型中包括状态空间S

其中,状态空间S

动作空间A

当运输队在由第一运输状态

可选的,所述步骤S3、基于Q学习算法对所述抢修决策模型进行求解,以获取抢修队的抢修策略H,在所述路网结构中的全部需求点均可由运输队达到后,基于缓冲表机制将更新后的路网信息发送至所述运输决策模型,并基于Q学习算法对所述运输决策模型进行求解,以获取运输队的运输策略P,包括:

S301、抢修队基于贪心策略从动作空间A

S302、抢修队将抢修状态由

S303、判断抢修状态是否已达最终状态,若是,则获取抢修队的抢修策略H;若否,则更新抢修决策模型的动作空间,并转至步骤S301;

S304、运输队从缓冲表中获取已修复的受损路段集

S305、运输队将运输状态由

S306、判断运输状态是否已达最终状态,若是,则获取运输队的运输策略P;若否,则更新运输决策模型的动作空间,并转至步骤S304。

在本发明的第二方面,提供了一种用于路网抢修与物资配送的联合调度系统,所述系统包括:

第一获取模块,用于执行S1、获取路网结构的路网参数,并令t=0;

初始化模块,用于执行S2、初始化抢修决策模型与运输决策模型中的状态空间和动作空间;其中,所述抢修决策模型与运输决策模型的类型均为由状态空间、动作空间和回报函数组成的三元组;

第二获取模块,用于执行S3、基于Q学习算法对所述抢修决策模型进行求解,以获取抢修队的抢修策略H,在所述路网结构中的全部需求点均可由运输队达到后,基于缓冲表机制将更新后的路网信息发送至所述运输决策模型,并基于Q学习算法对所述运输决策模型进行求解,以获取运输队的运输策略P;

第一计算模块,用于执行S4、基于所述抢修策略H和所述运输策略P计算目标函数的目标函数值f(P);其中,所述目标函数为

第一判断模块,用于执行S5、判断函数值f(P)

第二判断模块,用于执行S6、令t=t+1,判断t>T

可选的,所述抢修决策模型中包括状态空间S

其中,所述状态空间s

动作空间A

回报函数R

若没有新的需求点被打通,则回报函数R

若有新的需求点被打通,则回报函数r

可选的,所述抢修决策模型中包括状态空间S

其中,状态空间S

动作空间A

当运输队在由第一运输状态

可选的,所述第二获取模块包括:

第一输入单元,用于执行S301、抢修队基于贪心策略从动作空间A

第一更新单元,用于执行S302、抢修队将抢修状态由

第一判断单元,用于执行S303、判断抢修状态是否已达最终状态,若是,则获取抢修队的抢修策略H;若否,则更新抢修决策模型的动作空间,并转至步骤S301;

第一获取单元,用于执行S304、运输队从缓冲表中获取已修复的受损路段集

第二更新单元,用于执行S305、运输队将运输状态由

第二判断单元,用于执行S306、判断运输状态是否已达最终状态,若是,则获取运输队的运输策略P;若否,则更新运输决策模型的动作空间,并转至步骤S304。

在本发明的第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现任一用于路网抢修与物资配送的联合调度方法步骤。

在本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一用于路网抢修与物资配送的联合调度方法步骤。

(三)有益效果

本发明提供了一种用于路网抢修与物资配送的联合调度方法。与现有技术相比,具备以下有益效果:

该方法包括:S1、获取路网结构的路网参数,并令t=0;S2、初始化抢修决策模型与运输决策模型中的状态空间和动作空间;S3、基于Q学习算法对所述抢修决策模型进行求解,以获取抢修队的抢修策略H,在所述路网结构中的全部需求点均可由运输队达到后,基于缓冲表机制将更新后的路网信息发送至所述运输决策模型,并基于Q学习算法对所述运输决策模型进行求解,以获取运输队的运输策略P;S4、基于所述抢修策略H和所述运输策略P计算目标函数的目标函数值f(P);S5、判断函数值f(P)T

基于上述处理,相比于现有技术,本发明通过根据强化学习中的Q学习算法进行了改进,提出了基于双层交互Q学习的路网抢修和物资配送联合调度方法,可以将目标函数下的联合调度决策反馈至抢修队与运输队,使两者可以同时做出有利于应急响应的决策,从而达到联合调度的目的,并有效降低求解耗费的时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种受损路网的示意图;

图2为本发明实施例提供的一种用于路网抢修与物资配送的联合调度方法的流程图;

图3为本发明实施例提供的一种基于缓冲表的交互示意图;

图4为本发明实施例提供的一种实验结果图;

图5为本发明实施例提供的另一种实验结果图;

图6为本发明实施例提供的另一种实验结果图;

图7为本发明实施例提供的电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种用于路网抢修与物资配送的联合调度方法,解决了现有技术对于应急物资配送和应急道路抢修的联合调度求解时间较长的问题,实现了基于双层交互Q学习的路网抢修和物资配送联合调度方法,可以将目标函数下的联合调度决策反馈至抢修队与运输队,使两者可以同时做出有利于应急响应的决策,从而达到联合调度的目的,并有效降低求解耗费的时间。。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

首先,对本发明提供的技术方案进行基础信息说明。如图1所示,图1为受损路网示意图。

灾后受损的路网可以通过无向图G=(V,E)来表示。其中,V表示路网中节点的集合,包括储备点“0”、需求点集合V

I

当节点i∈V

对于需求点i∈V

此外,抢修队在一条长度为l

分别利用参数C

在本发明提供的技术方案中,设定抢修队和运输队从同一储备点出发,并装载足够的应急救援物资.路段的行驶时间、受损路段的抢修时间和需求点对物资的需求都是确定的。其中,本发明提供的技术方案中只保留真实路网中的储备节点、受灾区中的节点和一些潜在受灾地区的节点,因此待处理的路网规模会减少,且路网的信息是部分可观察的。抢修队和运输队从储备点出发,只能得到路网环境的部分信息(即受损路段信息).受损路网中可通行路段以及需求点之间的位置关系需要在探索中逐步获取。

抢修队的修复方案和运输队的救援方案如下:

抢修队每次从受损路段集中随机选取一条受损路段进行修复,直到所有的需求点都被满足,使所有需求点可达的受损路段称为一个修复方案,用向量H来表示。

其中,

运输队每次从需求点集中随机选取一个需求点进行救援,直到所有需求点都被救援,所有救援的需求点称为一个救援方案,用向量P来表示:

其中,i

如果通往需求点的线路上路段e

完整的应急救灾活动由抢修队和运输队协同完成。抢修队负责路段修复,保证需求点可达;运输队负责将救援补给送至需求点。对于受损路段,运输队必须在抢修队修复后才能通行,所以抢修队的修复效率影响运输队的救援效率。应急救灾活动的目的是为了保证需求点的得到及时的救援及减少人员伤亡和财产损失,因此抢修队间接决定应急救灾活动的效率,运输队直接决定应急救灾活动的效率。

路网抢修和物资配送联合调度可以描述为如下的双层规划问题:

其中,

本发明提供的技术方案考虑了需求点的救援效率:对于受损程度比较严重的需求点,它们的时间紧迫度较高,需要在尽可能短的时间内与储备点0连通,打通生命线路并得到及时的救援。

马尔可夫决策模型用于描述智能体在环境中做出决策并不断迭代优化的过程,智能体会在执行动作并得到奖励的过程中不断调整自己的策略,以便得到最大化的总奖励(本文中是最小化目标函数).

从路网模型部分可以明显看出,在受损路网修复和物资配送中,决策是按时间顺序依次做出的,都是序贯决策的过程,并且具有部分随机、部分由决策者控制的动态特征,这与马尔科夫序贯决策过程十分契合.因此基于马尔可夫决策模型来描述抢修队和运输队的决策过程。

此外,Q学习作为一种强化学习方法,通过在已知模型上进行迭代,逐步更新Q值函数,从而找到最优策略.Q学习适用于解决此类离散动作空间和状态空间、长期回报最大化和非确定性环境的路径规划问题.智能体最开始只能获取当前路网的部分信息,并且要执行的动作与之前的状态无关,只取决于当前状态,未来的状态与当前的状态以及选择的动作有关.而Q学习不需要知道整体的环境,仅知道当前状态可以选择哪些动作即可,因此用Q学习求解抢修队与运输队联合调度策略。

基于上述内容,本发明提供了一种用于路网抢修与物资配送的联合调度方法,包括以下步骤:

S1、获取路网结构的路网参数,并令t=0。

S2、初始化抢修决策模型与运输决策模型中的状态空间和动作空间;其中,所述抢修决策模型与运输决策模型的类型均为由状态空间、动作空间和回报函数组成的三元组。

S3、基于Q学习算法对所述抢修决策模型进行求解,以获取抢修队的抢修策略H,在所述路网结构中的全部需求点均可由运输队达到后,基于缓冲表机制将更新后的路网信息发送至所述运输决策模型,并基于Q学习算法对所述运输决策模型进行求解,以获取运输队的运输策略P。

S4、基于所述抢修策略H和所述运输策略P计算目标函数的目标函数值f(P);其中,所述目标函数为

S5、判断函数值f(P)

S6、令t=t+1,判断t>T

基于上述处理,相比于现有技术,本发明通过根据强化学习中的Q学习算法进行了改进,提出了基于双层交互Q学习的路网抢修和物资配送联合调度方法,可以将目标函数下的联合调度决策反馈至抢修队与运输队,使两者可以同时做出有利于应急响应的决策,从而达到联合调度的目的,并有效降低求解耗费的时间。

针对步骤S1,路网参数包括路网中的节点、节点的受灾程度、不同节点之间的距离、储备点等前述基础信息的内容。

针对步骤S2,抢修决策模型中包括状态空间S

其中,所述状态空间s

动作空间A

回报函数R

若没有新的需求点被打通,则回报函数R

若有新的需求点被打通,则回报函数R

抢修决策模型表示抢修队的决策模型。在实际工作过程中,抢修队的决策模型分别描述为由状态空间、动作空间和回报函数组成的三元组:<S

其中,抢修队的状态s

其中,

抢修队的动作集(即,动作空间)A

A

抢修队的回报函数R

当抢修队在状态

没有新的需求点打通,即

有新的需求点打通,即

其中,λ∈(0,1)为加权权重,表示回报函数对抢修队的修复效率与通行效率上的偏好。

抢修队新打通需求节点的最短路径长度越短、累计时间开销越少、重要程度越大,则抢修队的即时奖励就越大.抢修队间接影响目标函数,抢修队的修复效率越高,路段就能尽早打通,从而一定程度上减少运输队的通行时间,使得目标函数更优。

在一些实施例中,抢修决策模型中包括状态空间S

其中,状态空间S

动作空间A

当运输队在由第一运输状态

其中,η和β均为预设的控制变量、D

运输决策模型表示运输队的决策模型,其中,由状态空间、动作空间和回报函数组成的三元组:

其中,

运输队的动作集a

a

希望运输队能快速抵达需求点,并且对于联合调度目标函数较优的策略P,给予其中的每个动作一个基于目标函数上的整体奖励。这个整体回报r的更新策略为:

其中,L为给定参数,f(P)为联合调度的目标函数。

当运输队在状态

其中,η和β为控制变量,r

运输队希望尽早打通所有需求点,离新打通需求点越近则即时奖励值越大,并且还与目标函数有关,目标函数越优则执行当前动作的整体奖励越大,即时奖励值也就越大。

在一些实施例中,步骤S3包括以下内容:

S301、抢修队基于贪心策略从动作空间A

S302、抢修队将抢修状态由

S303、判断抢修状态是否已达最终状态,若是,则获取抢修队的抢修策略H;若否,则更新抢修决策模型的动作空间,并转至步骤S301;

S304、运输队从缓冲表中获取已修复的受损路段集

S305、运输队将运输状态由

S306、判断运输状态是否已达最终状态,若是,则获取运输队的运输策略P;若否,则更新运输决策模型的动作空间,并转至步骤S304。

在实际工作过程中,如图2所示,图2为本发明实施例提供的一种用于路网抢修与物资配送的联合调度方法的流程图。其中,在每一个学习周期(即,本发明中的t)内,抢修队和运输队可以分别根据

在所有需求点可达时,抢修队通过缓冲表与运输队进行路网信息的交互。并且通过最优动作集更新策略分别将较优的决策反馈给抢修队与运输队,从而实现联合调度的目的。

受操作系统中的生产者-消费者问题的启发,本发明将抢修队和运输队模拟为生产者和消费者,二者通过基于锁机制的缓冲表交互信息。参见图3,如图3所示,每个周期内抢修队和运输队的交互过程如下:

在抢修队每修复完一条受损路段后,往缓冲表中依次输入抢修队已修复的受损路段集和累计时间开销:

然后,在每个训练周期结束后,计算基于抢修策略H和运输策略P下的联合调度目标函数f(P),并与历史最优目标函数值比较,如果较优(即小于历史最优目标函数值),则说明本训练周期内的联合调度策略更好,并分别将策略H和策略P对应的状态-动作集更新到各自的最优动作集中。

在实际工作过程中,抢修队或运输队根据贪心策略选取动作,大概率从其决策模型的最优动作集中随机选择一个动作,按照小概率放弃历史学习经验,从动作集中随机选取一个动作.这样抢修队和运输队就会有一定概率选择对联合调度目标函数有利的动作,而不是选择只对各自的目标函数有利的动作,从而达到联合调度的目的,同时也提高了的学习效率。

此外,为了避免Q学习陷入局部最优,既要让Q学习在前期有一定的探索性,也要在后期有一定的收敛性。

通过大量实验证明,前三分之二周期内探索,后三分之一周期收敛时,结果较优。所以本发明设定前三分之二周期内,Q学习是处于探索的过程,即小概率从决策模型中的最优动作集中随机选择一个动作,大概率从动作集中随机选取一个动作。后三分之一周期内Q学习是处于收敛的过程,即大概率从决策模型中的最优动作集中随机选择一个动作,小概率从动作集中随机选取一个动作。

在实际工作过程中,本发明提供的基于双层交互Q学习的路网抢修和物资配送联合调度方法,用于解决受灾路网下的路网修复和物资配送联合调度问题时,其具体步骤如下:

步骤a、对路网模型、决策模型和Q学习的相关参数进行初始化。

步骤b、抢修队和运输队在同一时间分别从储备点0出发,并初始化各自的状态S

步骤c、抢修队根据贪心策略选取并执行动作a

步骤d、抢修队从状态

其中,α与γ均表示预设的参数值。

步骤e、如果已达最终状态则结束本轮抢修队的学习,否则更新抢修队的动作集A

步骤f、运输队从缓冲表中读取数据并更新路网状态,并根据贪心策略选取并执行动作a

步骤g、运输队从状态

步骤h、如果已达最终状态则结束本轮运输队学习,否则更新抢修队的动作集A

步骤i、计算基于策略H和策略P下的联合调度目标函数值f(P),如果优于历史最佳目标函数值,则分别将策略H和策略P的状态-动作集更新到各自的最优动作集中;否则不更新最优动作集,转至下一步。

步骤j、若已达到最大训练周期数,则结束训练并输出当前最佳目标函数值以及对应的抢修队和运输队的最优联合调度策略(策略H和策略P),否则返回步骤b继续训练。

为了验证本发明提供的技术方案的有效性,本发明将技术方案与传统的蚁群算法(ACO)和动态规划(DP)进行了实验比较验证,如图4-6所示,其中,IQLJS表示本发明提出的基于双层交互Q学习的路网抢修和物资配送联合调度方法。

基于图4-5的内容可知,本发明所提出的IQLJS方法得到的目标函数均值和所耗费的时间均优于ACO算法和DP算法。其中,IQLJS算法通过最优动作集更新策略减少了算法的运行时间并且因此得到更优的目标函数,抢修队与运输队在缓冲表的交互作用下也能够快速地做出合理的联合调度决策,因此,相较于ACO算法和DP算法,IQLJS方法能在合理的时间范围内得到较优的目标函数。

如图6所示,其中,从左至右进行排列分别为DP算法、ACO算法和IQLJS方法。根据图6内容可知,本发明提供的技术方案的修复率也要均由于ACO算法和DP算法。

本发明还提供了一种用于路网抢修与物资配送的联合调度系统,该系统包括:

第一获取模块,用于执行S1、获取路网结构的路网参数,并令t=0;

初始化模块,用于执行S2、初始化抢修决策模型与运输决策模型中的状态空间和动作空间;其中,所述抢修决策模型与运输决策模型的类型均为由状态空间、动作空间和回报函数组成的三元组;

第二获取模块,用于执行S3、基于Q学习算法对所述抢修决策模型进行求解,以获取抢修队的抢修策略H,在所述路网结构中的全部需求点均可由运输队达到后,基于缓冲表机制将更新后的路网信息发送至所述运输决策模型,并基于Q学习算法对所述运输决策模型进行求解,以获取运输队的运输策略P;

第一计算模块,用于执行S4、基于所述抢修策略H和所述运输策略P计算目标函数的目标函数值f(P);其中,所述目标函数为

第一判断模块,用于执行S5、判断函数值f(P)

第二判断模块,用于执行S6、令t=t+1,判断t>T

可理解的是,本发明实施例提供的用于路网抢修与物资配送的联合调度系统与上述用于路网抢修与物资配送的联合调度方法相对应,其有关内容的解释、举例、有益效果等部分可以参照用于路网抢修与物资配送的联合调度方法中的相应内容,此处不再赘述。

本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,

存储器703,用于存放计算机程序;

处理器701,用于执行存储器703上所存放的程序时,实现上述任一用于路网抢修与物资配送的联合调度方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一用于路网抢修与物资配送的联合调度方法的步骤。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一用于路网抢修与物资配送的联合调度方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。

所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

综上所述,与现有技术相比,本发明提供的技术方案具备以下有益效果:

1、本发明提供的技术方案相比于现有技术,在解决此类方法上做了创新,不同于传统的蚁群算法(ACO)和动态规划(DP),根据强化学习中的Q学习算法进行改进,提出了基于双层交互Q学习的路网抢修和物资配送联合调度方法(IQLJS)。依据实验结果可知,本发明提出的IQLJS方法法得到的目标函数均值要优于ACO算法和DP算法。

2、现有技术的研究大部分将路网修复与物资调度分裂开来,不符合现实场景。或者其研究联合调度模型较为复杂导致求解十分困难并且所提算法无法满足路网规模较大且受损率较高的情况。本发明则优化了联合调度模型,并且可以适用于路网规模大和受损率较高的场景。

3、本发明提供的最优动作集更新策略不仅解决了表更新慢的问题,同时还可以根据最优目标函数下的联合调度决策反馈至抢修队与运输队使两者同时做出有利于应急响应的决策,从而达到联合调度的目的。

4、本发明提供的技术方案建立了基于锁机制的缓冲表交互方式,从而使抢修队与运输队进行高效的沟通,避免了数据的混乱和不一致性,确保实验结果的准确性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 用于无人配送的智能快递箱、无人配送系统及其配送方法
  • 一种用于电子商务的联合式配送方法及其系统
  • 一种基于物资需求的电力物资调度配送系统
  • 电力系统灾后抢修人员与物资优化调度方法及系统
技术分类

06120116489791