掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习的移动充电服务编排管理方法

文献发布时间:2024-04-18 19:58:30


一种基于深度强化学习的移动充电服务编排管理方法

技术领域

本发明涉及移动充电服务领域的技术,具体而言,涉及一种解决移动充电服务中的编排管理问题的方法。

背景技术

本发明涉及一种基于深度强化学习的移动充电车辆路径规划方法,针对电动汽车的充电需求,以适应未来交通中电动汽车的普及和环保意识的增强。电动汽车由于其高能效和低排放的特点,正在逐步取代传统的燃油发动机车辆,国际能源署预测到2030年,电动汽车的销量将超过全球车辆销量的20%。然而,电动汽车充电规划面临一些挑战。传统的固定充电站效率低下,无法满足不断变化的充电需求,而更换电池的成本也较高且不太兼容。为了应对这些挑战,移动充电车辆作为新兴的解决方案出现,移动充电车可以按需提供充电服务而无需依赖固定的基础设施,其覆盖范围广泛,可以适应城市和农村地区的灵活充电需求。智能充电技术的应用使得移动充电车能够实现快速充电、高能效和环境可持续性。

移动充电路径规划问题是一个复杂的多目标组合优化问题,其目标是在充电车辆的路径中同时优化能量消耗和时间成本。近年来,研究人员开始运用深度强化学习算法解决组合优化问题。其中,一些先进的模型如指针网络模型和transformer模型被引入来处理旅行商问题(TSP)等多目标优化问题,这些模型在一定程度上提高了问题的求解效率和质量。受到深度强化学习方法的启发,一些学者提出了DRL-MOA等新的深度强化学习算法,用于解决多目标优化问题,取得了优秀的性能和泛化能力。然而,目前大部分工作主要集中在解决TSP等特定问题上,并未广泛应用于实际移动充电场景中的多目标组合优化问题。

综上所述,现有技术在移动充电车辆路径规划方面存在一定局限性。因此,本发明旨在结合深度强化学习算法和transformer模型,提出一种高效、灵活的移动充电服务编排管理方法实现对充电路径的规划优化,以适应不断增长的电动汽车市场和日益加强的环保意识。通过优化充电车辆路径,本发明有助于推动电动汽车的普及和环保交通的发展。

发明内容

发明目的:本发明致力于研究移动充电服务的编排管理问题,旨在为电动汽车提供额外的充电能力,实现优化电动汽车的充电能耗成本及时间惩罚成本的双重控制,在控制充电网络成本的的同时提升电动汽车用户的移动充电体验。

技术方案:一种基于深度强化学习的移动充电服务编排管理方法,由电动汽车用户发出请求信息,经由控制中心接受以后,再根据移动充电车服务信息做出充电服务序列编排,其步骤如下:

(1)构建关系网络模型,建立移动充电车、电动汽车和控制中心之间的社交关系网络拓扑结构,且所述的关系网络模型中,移动充电车、电动汽车和控制中心之间通过双向连接的通信线路进行信息交换;

(2)根据移动充电车的充电服务信息和电动汽车的充电需求信息确定优化目标函数,所述的充电服务信息包括充电基站的位置、移动充电车携带的储能电量,所述充电需求信息包括电动汽车的位置、需求电量以及期望的时间窗口;

该步骤综合考虑最小化服务路径总长度和时间惩罚总成本两个目标效益,为同时实现两个优化目标构成总优化目标函数;

(3)构建神经网络模型并进行训练,将充电服务信息和充电需求信息作为输入,通过神经网络计算得出移动充电车为电动汽车提供充电服务的顺序;

(4)控制中心根据整体优化目标函数调度移动充电车为电动汽车提供充电服务,完成充电任务。

进一步,对步骤(1)所述的关系网络模型,其设定为一个服务区域内的车联网络,其中包含一辆移动充电车和多辆电动汽车,同时设有一个控制中心及补充移动充电车电能的基站。控制中心根据相应信息决定如何安排充电任务,以尽可能满足电动汽车在预期时间窗口内的充电需求。该环境下,移动充电车与电动汽车之间没有直接的联系,而是通过控制中心进行充电任务的协调和分配。这种架构可以实现高效的移动充电车服务调度,为电动汽车用户提供便捷的充电服务。

基于此,步骤(1)中交换的信息包括充电服务指令的收发,电动汽车向控制中心发送充电需求信息,而移动充电车在控制中心的指导下为电动汽车提供充电服务。

通过这种双向通信,充电需求和充电服务指令得以高效地传递,使得整个充电调度过程更加智能和灵活。

进一步的,对步骤(2)所述的移动充电服务多目标优化问题,本发明考虑一个城市环境,其中电动汽车随机分布在二维城市地图上,充电服务序列为ρ={ρ

每辆电动汽车在被服务时,其电量需求都会得到一次性满足,并且不会被访问两次。移动充电车可能会多次前往充电站更换电池。访问路线的起始和终止结点默认为充电基站结点,记为cd

因此,步骤(2)所述的最小化服务路径总长度所对应的目标函数如下:

其中ρ表示移动充电车的充电服务序列ρ={ρ

如果移动充电车在期望时间窗口之外到达电动汽车请求地点,将会收到系统的负面评价,并对用户给予相应的金额补偿。因此,在时间窗口内及时到达对于减少惩罚成本至关重要。处罚主要分为两种情况:早到和迟到。在第一种场景中,如果移动充电车先于电动汽车用户到达指定位置,它将选择附近的另一个结点进行充电,这种不必要的行程应尽可能不产生。第二种情况涉及迟到,如果移动充电车超过时间窗的最晚时限,用户到达时可能会发现汽车未充满电导致用户体验下降和基于时间的惩罚。

因此第二个目标是最小化这些基于时间的惩罚成本,即,最小化时间惩罚成本对应的目标函数表示如下:

其中p

其中,v表示移动充电车的行驶速度、d

本发明所涉及的移动充电服务目标是规划一个满足用户电量需求的服务序列的同时优化两个目标。第一个目标是尽量最小化移动充电车的总行驶路程,降低移动充电车本身的能耗成本。第二个目标是最小化时间惩罚成本,它反映了用户满意度并对控制中心的编排有指导作用。因此可以表述为一个多目标优化问题的形式:min f=[f

在此过程中,步骤(2)对于本发明的输入信息,包含N个电动汽车结点,将结点集合信息表示为X={x

进一步的,步骤(3)中所述神经网络基于整体优化目标和优化目标函数,对最小化行驶路程与最小化时间惩罚成本设定权重,神经网络的结构和训练过程如下:

(31)分解子问题:利用加权分组技术将移动充电服务的多目标优化问题分解为M个单目标子问题。

通过定义一组均匀分布的权重向量{λ

对每个子问题,采用基于transformer的深度神经网络对其进行建模和求解,以获得局部最优解。

本发明中子问题的神经网络模型源自transformer的的注意力机制,在本发明中被称为Att-Model,其遵循编码器-解码器架构。Att-Model的编码器相当于是一个图注意力网络,用于计算每个结点的嵌入。解码器采用transformer模型的自注意力计算方法,并通过附加层来增强其性能。本发明引入子问题的神经网络输入形式X={x

使用强化学习算法对深度神经网络进行训练,以优化子问题的求解策略。

本发明采用REINFORCE算法与Rollout基线相结合的训练机制。Att-Model的网络参数表示为θ,用于评估Att-Model性能的网络称为Rollout基线网络,表示为RBL。梯度计算公式为

通过邻居参数传递的方式,使得各个子问题的求解策略能够相互协作,提高全局解的质量。

每个子问题都由神经网络建模并使用强化学习方法进行训练。求解子问题时,将对应模型的参数传递给下一个相邻权向量组对应的子问题网络模型作为其初始参数,通过训练好的模型可以直接得到帕累托前沿。

有益效果:本发明提供的用于移动充电车对电动汽车进行充电服务的编排管理方法综合考虑了移动充电车的充电服务信息和电动汽车的充电需求信息,并借助控制中心的算法实现了同时最小化充电路径长度成本和时间惩罚成本的目标。相比现有的固定充电桩或换电项目中可能出现的充满等待或排队等问题,本发明能够明显改善这些问题,提高电能利用率,并提高充电服务的灵活性和多样性,为电动汽车充电领域带来更高效和便利的充电服务,为环保交通的发展做出贡献。

附图说明

图1为本发明所述方法的流程示意图;

图2(a)为使用本发明所述方法和NSGA-II求解包含10辆电动汽车的实例所得到的帕累托前沿对比示意图;

图2(b)为使用本发明所述方法和MOEA/D求解包含10辆电动汽车的实例所得到的帕累托前沿对比示意图;

图3(a)为使用本发明所述方法和NSGA-II求解包含20辆电动汽车的实例所得到的帕累托前沿对比示意图;

图3(b)为使用本发明所述方法和MOEA/D求解包含20辆电动汽车的实例所得到的帕累托前沿对比示意图;

图4(a)和图4(b)分别为本发明的实施例在10辆电动汽车和20辆电动汽车情况下的充电路径规划示意图;

具体实施方式

为了详细的说明本发明所公开的技术方案,下面结合说明书附图做进一步的表述。

首先,本发明所提供的是一种基于深度强化学习的移动充电服务编排管理方法,请参照图1所示的流程,本发明的重点在于使用基于transformer的神经网络实现问题的快速在线求解,该方法所得到的帕累托前沿效果明显优于传统多目标遗传算法NSGA-II和MOEA/D。

本发明所考虑的移动充电车服务编排管理问题主要是为了解决移动充电的成本控制难点,通过控制移动充电的行驶成本和时间窗惩罚成本使得控制中心能在满足电动汽车用户的电量需求基础上,实现尽可能满足用户期望时间窗使得用户满意度良好的目标的同时有效控制移动充电车的能耗成本。

本发明所述方法根据电动汽车用户的服务请求信息,包括位置信息、电量需求信息、期望时间窗信息,再结合移动充电车状态信息,通过控制中心系统计算出充电服务序列,达到同时最小化移动充电车的行驶路程和时间窗惩罚成本两个目标,从而实现移动充电服务控制中心的成本控制战略目标。

下面进一步的阐述本发明实施的具体步骤。一种基于深度强化学习的移动充电车服务编排管理方法如图1所示,包括如下步骤:

(1)构建关系网络模型。

在该步骤中,首先建立移动充电车、电动汽车和控制中心之间的社交关系网络拓扑结构。移动充电车负责为电动汽车提供充电服务,控制中心负责计算移动充电车的充电调度顺序,并向移动充电车发送指令指导其为电动汽车提供充电服务。

(2)确定信息与优化目标函数。

针对移动充电车和电动汽车分别确定相关信息,并建立相应的优化目标函数。这些信息包括充电汽车的位置、充电需求、期望时间窗等,优化目标函数考虑移动充电车行驶能耗成本和因时间窗限制而产生的时间惩罚成本两个因素。

(3)使用神经网络确定下一个充电目标。

将移动充电车和电动汽车的信息作为输入,通过神经网络预测出下一个充电目标。神经网络是基于transformer的深度神经网络模型,再结合强化学习训练算法,能够根据当前状态和策略输出最优的行动。

(4)执行充电任务。

当所有电动汽车的充电顺序确定后,移动充电车按照计划路线完成充电任务,充电任务的执行遵循由控制中心通过训练好的模型在线计算得出的路线。

针对上述步骤做更进一步的说明,对于步骤(1)中构造的关系网络模型有三个主要的实体:电动汽车、移动充电车和控制中心。电动汽车是关系网络的起点,因为它们是需要充电服务的对象。移动充电车是为电动汽车提供充电服务的实体,控制中心负责计算移动充电车的充电服务顺序,它与移动充电车之间有充电调度的关系。

步骤(2)中确定电动汽车的信息包括位置信息、充电需求量以及期望时间窗。本发明将电动汽车集合表示为X={x

在本发明中,考虑一辆移动充电车服务多辆电动汽车,使用一个索引为0的特殊结点x

dist计算的是表示的是访问目标ρ

惩罚成本主要包括两种情况,一是早到惩罚,如果移动充电车比电动汽车更早到达预定位置,那么移动充电车就会就近选择另一个节点进行充电,相当于走了一段没有必要的路,所以给予一定惩罚;如果移动充电车到达时间已经超出了时间窗的最晚限制,用户来取车时可能汽车还没有充好电,用户体验感就会下降,也会进行时间惩罚。最小化时间惩罚被表示为:

其中p

v、d

本发明的充电服务优化目标是在满足用户需求电量的前提下,规划出一条路线,实现两个目标的优化,第一个目标是最小化移动充电车的总行驶距离,以此减少运行能耗成本,第二个目标是最小化惩罚成本,这关乎对服务质量的分析和提升,是能够反映用户满意程度的重要指标,也是控制中心规划服务方案的重要参考指标,所以本发明的充电服务优化目标可以表示为如下形式:

min f=[f

步骤3中本发明采用了加权分解、transformer、参数迁移等方法原理进行网络建模和模型训练。对于本发明所解决的移动充电服务编排管理问题,需要同时优化两个目标函数,因此本发明基于加权分解的方式将问题分解成多个子问题,首先定义一组均匀分布的权重向量{λ

每个子问题通过神经网络建模并结合强化学习方法训练并求解,首先将每个子问题的建模成由transformer变体得到的具有Multi-head attention机制的神经网络模型,采用强化学习算法结合Rollout baseline的方法训练神经网络。为了加快模型的训练同时优化训练效果,不同子问题模型的训练利用了基于邻居的参数迁移方法进行协同训练。当求解一个子问题时,相应模型的参数会被转移到下一个相邻权重向量组的子问题网络模型,作为其初始参数,从而加速训练。

子问题的神经网络模型由transformer变体而来,在本发明中被称为Att-Model,其遵循编码器-解码器结构,Att-Model的编码器相当于一个图注意力网络,用于计算每个结点的嵌入。而解码器采用了transformer模型的Self-attention计算方法,增加了更多计算层以提高模型的表现。将结点信息X={x

p

每做一步决策,参与计算的最后节点信息、剩余电量信息会更新,直到所有电动汽车的需求得到满足,便可得到输出序列。

本发明采用REINFORCE算法与Rolloutbaseline相结合的训练机制。Att-Model的网络参数表示为θ,用于评估Att-Model性能的网络称为Rollout基线网络,表示为RBL。梯度计算公式如下:

表示第i个子问题的目标函数,它是不同目标的加权和,λ

步骤(4)中移动充电车接收由控制中心计算得到的充电服务序列指令,前往各电动汽车的请求位置进行充电服务,直到完成所有充电服务任务。

实施例

本实施例为了验证本发明的有效性和优化效果,进行了仿真实验,设置一个15x15km

由图2a和图2b所示的帕累托前沿对比可以看出本发明所述方法对两个优化目标函数的最小化效果明显更好。即使增加迭代次数,NSGA-II和MOEA/D的结果也没有表现出明显的改善,并且它们的优化效果也逊色于本发明所述方法。

在计算时间方面,通过进行10次随机实验取平均值的数据如表1所示,当迭代次数为1000时,NSGA-II平均求解用时为9.494秒,MOEA/D平均求解用时为42.975秒,而本发明所述方法能够在平均1.3572秒内直接输出结果,而且对于NSGA-II和MOEA/D,增加迭代次数还会导致计算时间呈倍数增加。此外,本发明所述方法得到的帕累托解集具有高于其他两种方法的HV值,这也反映本发明所述方法得到的帕累托解集质量优于NSGA-II和MOEA/D。

表1不同方法获得帕累托前沿的计算时间和HV值

使用由包含10辆电动汽车的实例训练得到的模型,进一步求解20辆电动汽车的实例,如图3a和图3b所示,本发明所述方法仍然明显优于NSGA-II和MOEA/D,本实施例说明了本发明所述方法具有良好的泛化能力。模型训练完成后,可以用来解决不同规模但同一类型的问题,同时保持优异的性能,如快速的计算速度和高于NSGA-II、MOEA/D的HV水平。

如图4a和图4b所示的充电服务路线,对于10辆电动汽车,移动充电车一次往返即可完成所有充电任务。然而,当电动汽车数量增加到20辆时,移动充电车在服务期间返回了一次充电基站更换电池,证明了本实施例的有效性和合理性。

相关技术
  • 一种基于深度强化学习的移动充电车服务调度方法
  • 基于深度强化学习的动态服务功能链编排方法及系统
技术分类

06120116502662