一种基于强化学习的陆空联合轨迹优化与资源分配方法

文献发布时间：2023-06-19 16:11:11

技术领域

本发明涉及空天一体化的物流交付问题，尤其涉及到一种综合考虑用户包裹可靠性交付和无人机与车辆联合服务两方面的协同轨迹优化与资源分配问题，并且能在最大程度减少服务商成本的基础上做到节能减排，并保障每位用户的包裹可靠性投递。

背景技术

陆空联合包裹配送作为新型投递方式，将无人机的灵活性与车辆的机动性紧密结合，扩展配送范围的同时减少车辆排放。推进无人机与车辆的协同交付关键在于在配送过程中如何协调两者进行路线规划与资源分配。现有研究大多集中在对于单一设备的轨迹优化问题上但是对于无人机可靠性交付的路线规划与资源分配研究较少。如何协同陆空信息、如何解决包裹可靠性交付问题有待进一步深入研究。

发明内容

本发明的主要目的是针对现有研究的不足之处，考虑当前场景下空地信息协同难、NP-hard问题计算复杂、无人机可靠性交付等多方面问题，综合权衡陆空轨迹优化与资源分配问题。本发明旨在实现碳中和，从成本与减排两个方面考虑陆空交付方法；根据用户地理位置及无人机与车辆状态提出客户分配方法；提出可靠空地交付方案，根据初始解不断进行迭代，在大量算子改进解的过程中设计有效的算子排列顺序。本发明首次将陆空协同运输与带有丰富算子的强化学习结合，在保证服务商运营成本的基础上，保证设备服务可靠性，为车辆与无人机提供性能较好的路径集合与包裹投递顺序，为陆空协同轨迹优化与包裹投递问题研究提供新思路。

本发明采用的技术方案是：一种陆空联合轨迹优化与资源分配方法，步骤如下：

(1)构建最小化运营商成本与节能减排的优化模型，确定服务提供商与用户需求的效用；

(2)根据目标与多个约束根据可靠交付的用户分配方法形成问题初始解；

(3)采用基于丰富操作符的策略网络解决对于解的改善迭代过程；

(4)采用无人机与车辆的陆地联合交付方案解决协同投递问题。

本发明的有益效果：本发明提出的基于可靠性的陆空联合轨迹优化与资源分配方法权衡运营商的成本与节能减排两方面的目标，对研究场景进行数学建模。并定义相关的可靠性表达，使用强化学习及丰富的操作符对解进行多轮迭代操作，目的是跳出局部最优解并获得效果较好的解，真正为车辆与无人机提供性能较好的路径集合与包裹投递顺序，为陆空协同轨迹优化与包裹投递问题研究提供新思路。

附图说明

图1为陆空联合轨迹优化与包裹投递场景；

图2为仅车辆服务与无人机车辆协同角度在交付时间上的对比；

图3为27种操作符的分类、名称及详细信息表述；

图4为一个改善操作符与扰乱操作符对行程改善的例子；

图5为基于可靠的陆地联合交付方案框架；

图6、7、8为不同用户数量下每条行程的距离比之和、车辆行驶距离、无人机飞行距离之间的关系；

图9、10、11为不同无人机负载下每条行程的距离比之和、车辆行驶距离、无人机飞行距离之间的关系；

图12、13、14为不同无人机电量下每条行程的距离比之和、车辆行驶距离、无人机飞行距离之间的关系。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，以下结合附图和技术方案进一步说明本发明的具体实施方式。

步骤1)：分析真实无人机与车辆协同配送包裹场景下服务提供商的成本以及无人机的可靠性交付，抽象车辆行驶与无人机飞行距离与服务运营商的运营成本，抽象描述无人机能量消耗过程，建立最小化运营商成本与节能减排的优化模型。

图1为真实场景下模拟无人机车辆协同交付的场景。其中包括单仓库、多个用户节点以及多辆携带单无人机的车辆。

1.1)抽象车辆行驶距离与无人机飞行距离：

本发明将搭载无人机的车辆从仓库出发服务客户到返回仓库的过程定义为行程，用s表示。系统的解由多个行程组成，用S表示。单个车辆行驶距离与该设备行驶轨迹s有关，即服务的用户节点顺序：

其中，N

同理可得单个无人机飞机距离为：

其中，C表示客户集合，e表示无人机从i点起飞后服务用户j后返回k点的距离，δ′

由上述式子可得，系统中车辆与无人机行驶总长度为：

φ＝φ

1.2)抽象服务运营商的运营成本：

本发明将服务运营商的运营成本表示为在不同数量的用户地理位置与需求场景下使用车辆数量，每辆车辆携带单个无人机进行交付服务，并且在无人机与车辆并行期间进行充电服务。因此，服务运营商的运营成本可表示为分配服务用户的车辆数量，表示为N

1.3)抽象无人机能量消耗过程：

本发明将无人机能量消耗过程分为三个部分：无人机最远飞行距离、无人机充电过程、无人机可靠性交付。

无人机最远飞行距离：无人机在某一节点的最远飞行距离受无人机剩余功率、包裹重量和该节点的自重影响。本发明将无人机的最大飞行范围定义为：

其中，

无人机充电过程：本发明将无人机的充电过程抽象为无人机降落在车辆上，直到下一次起飞的完整过程。充电量与行驶时间和充电效率有关。假设无人机在完成一次交付服务过程中消耗的电量为ξ

其中，v表示车辆行驶速度，ε表示无人机每秒的充电容量。

无人机可靠性交付：综合上述，本发明将无人机的可靠性定义为三个方面：在无人机起飞之前，它需要携带一个重量小于无人机的最大有效载荷κ的包裹；其次，无人机在交付服务过程中，起飞节点的电量足以支持无人机完成服务；最后，无人机降落在车辆上进行充电，直到下一次起飞时能够支持无人机完成下一次服务。

无人机可靠性服务设计：本发明将无人机交付可靠性进行数学化定义，无人机服务能力定义为三方面：续航服务、覆盖范围与交付服务，公式表达如下：

其中α，β，γ为系数，与其相乘的分别为：服务能耗与起飞功率的比值、飞行距离与最大飞行距离的比值、运送包裹重量与无人机最大负载的比值。

1.4)建立最小化运营商成本与节能减排的优化模型：

为了实现碳中和，本发明从成本和减排两个方面考虑了两目标模型。成本设定为最小化车辆数量，减排体现在最大化无人机飞行距离与车辆行驶距离的比值上，具体表达式为：

min N

通过整合在每条行程s中车辆与无人机的数量与距离，我们可以将上述优化模型表示为：

s.t.

其中，

C1保证最少分配一辆携带无人机的车辆服务用户；

C2保证每位用户都有且仅有一种设备服务；

C3和C4分别保证交付包裹均小于车辆与无人机的最大负载；

C5保证无人机飞行距离在最大飞行范围

C6保证无人机的电量足够支撑其进行下一次交付服务。

图2表示对比仅车辆交付场景，本发明涉及的交付场景在交付时间上更具有优势。

步骤2)：根据目标与多个约束根据可靠交付的用户分配方法形成问题初始解。

Step1：将用户集与相应需求、无人机的最大电量、两设备最大负载作为输入，初始化solution、trip分别作为系统的总体轨迹优化解与单个行程轨迹。

Step2：对于每一位用户，判断加入该交付包裹后是否超过车辆的最大负载ψ (约束C3)，若超过最大负载，则分配给下一辆车辆进行服务。

Step3：将该用户列为当前车辆的轨迹行程to_indices中，并计算当前车辆行驶距离adjusted_distance，返回step2，该部分旨在为每位用户分配车辆进行服务。

Step4：对于每辆车辆，从to_indices中随机选择节点作为访问节点 random_index，该步骤为车辆分配选择顺序。

Step5：只要random_index非0，计算当前节点是否满足无人机的服务约束 (C4，C5，C6)，若能满足则该节点分配给无人机服务，并存储无人机的起飞、交付与降落节点；返回Step5；

Step6：若random_index为0，则说明该车辆的用户节点顺序分配完毕，返回Step4，直至每辆车辆分配用户完毕；

步骤3)：设计基于丰富操作符的策略网络解决对于解的改善迭代过程。

策略网络包括四个部分，分别是对状态、行为、策略网络函数与奖励的设计。

3.1)状态设计

在基于学习的轨迹优化与资源分配算法中，每个无人机节点或者车辆节点都有一个状态，每个状态由三部分组成：当前节点的相关信息、当前实例的具体信息、历史信息。

当前节点相关信息包括该节点在行程中的位置(x

3.2)行为设计

本发明在该框架下设计了27种操作符用来全面改进或重构当前解决方案。图3为27种操作符的分类、名称及详细信息表述。其中每种操作名称可能会对应多种行为。选择操作符时，只有在减少目标和满足所有约束的情况下，才视为良好的迭代操作。值得注意的是，本发明提到的操作符均映射为强化学习中的动作，将操作符分为改进操作符与扰乱操作符。每类操作符可在行程内或行程间进行迭代改进。改进操作符与扰乱操作符的区别在于，改进操作符以较为缓和的方式对解进行改进，改进范围常在几个节点之间，而扰乱操作符改变的范围更大，通常以段的方式进行。

3.3)奖励设计

本发明采用基于优势的奖励函数，以第一次改进时获得的总距离为基线。对于未来的每一次改变，下一时间段内的所有操作都将获得一份奖励，该奖励等于当前距离与基线距离的差值。在实验中，本发明发现在迭代开始时，目标的优化速度更快，但随着迭代次数的增加，优化速度变得越来越慢。早期迭代的操作者获得更大的回报是不合理的。因此，被设计改进迭代的操作符可以在没有折扣的情况下获得相同的奖励。

3.4)策略网络函数设计

在策略网络中使用带基线函数的REINFORCE算法来更新策略梯度不等式：

J(θ|s)表示在s状态下策略参数的θ的期望回报，

当前的解决方案和相关状态信息是网络的输入，输出是行为的概率。通过策略网络后，控制器选择具有∈-greedy的操作符更改方案。首先将输入转换为长度为D＝64的嵌入，将其转化为8头64单位的注意力网络。将结果与历史行为及其奖励联系在一起。最后，注意力网络输出值作为两个全连接层的输入，输出为操作符的选择概率。

图4为一个简单的对行程进行改善和扰乱操作的例子。

步骤4)：设计可靠的陆地联合交付方案解决无人机与车辆的协同投递问题。

本发明设计可靠的陆地联合交付方案(Reliable Ground-air Delivery scheme，ROAD)，通过对解进行多轮改进迭代得到最终解，并设计27种操作符用以对解进行改进或扰乱。对于设计中存在两种问题：尽管丰富的操作符对解由良好的改进效果，但是对于不同的解如何选择一个或多个最有效的操作符；其次，对于每一个解决方案提前确定多个操作符的顺序是很费力的事情。为解决上述问题进行相关框架设计，具体表述如下：

方案框架设计了阈值控制器、改进控制器和扰动控制器，以保证解的快速收敛，获得每个算子的选择概率和基于强化学习的较优算子执行顺序。改进控制器采用温和的方法对解决方案进行改进。为了避免陷入局部最优解，当多次改进对解没有影响时，通过干扰控制器重构或重构实质性的变化解。本研究发现，从一个好的起点迭代的效果更明显。框架设计改进并干扰当前的解决方案，而不是在每次迭代中重新构建解决方案。

该算法用图G表示场景中的所有节点和距离，并将它们作为算法的输入。首先，根据所有约束条件构造初始解，保证算法迭代的良好开始，同时计算解的目标函数φ

ROAD算法伪代码如下：

表1 ROAD算法伪代码

图5为基于可靠的陆地联合交付方案框架。方案框架由三个模块组成，分别为用户分配模块、决策控制模块、操作符选择模块。用户分配模块以问题描述为输入，基于可靠性的用户分配算法构造系统的初始解，对于当前的解进行重复的迭代，每次迭代由控制决策模块决定对当前解改善或扰乱，并通过操作符选择模块对不同的操作符进行概率选择，并将结果返还给决策控制模块，对解进行相应的更改操作，上述过程反复迭代，最后输出该场景下的最优解。

图6、图7和图8分别为不同用户数量下每条行程的距离比之和、车辆行驶距离、无人机飞行距离之间的关系。从三张图片看出，当客户数量为20、30、 50时，ROAD算法的距离比接近贪心算法，小于其他两种对比算法，并且随着客户数量的增加，这种差距变得更加明显。因此，在用户数量大、车辆使用少、无人机飞行路线合理安排的情况下，ROAD方案也可以接近最优方案，证明我们提出的方案能够适应大客户的复杂场景。

图9、图10和图11分别为不同无人机负载下每条行程的距离比之和、车辆行驶距离、无人机飞行距离之间的关系。随着无人机有效载荷的增加，目标呈现下降趋势。由于轻需求包装在客户需求中所占比例较大，当装载量为1.0kg到 3.0kg时，目标函数下降趋势更为明显。随着无人机载荷的增加，无人机的功耗过程也越来越快，导致无人机的服务范围有限，重包用户的分布越来越少。因此，负荷3.0kg后，目标函数下降趋势平缓。当最大载荷大于3.0kg时，由于无人机载荷大但飞行范围小，存在满足无人机载荷但在无人机有效服务范围之外的用户，因此算法呈下降趋势，但本发明的算法依然能保持较好的效果。证明了在无人机大载荷条件下，ROAD算法的有效性。

图12、图13和图14分别表示不同无人机电量下每条行程的距离比之和、车辆行驶距离、无人机飞行距离之间的关系。当客户数量固定，无人机功率为 3000～4000mAh时，可服务大量轻需求客户，因此目标函数值变化迅速。随着无人机的电池更换，ROAD接近最佳解决方案。在4000-7000mAh范围内，四种算法的下降趋势都比较平缓。随着无人机电量的增加，无人机服务用户的能力也随之增强。与无人机的重量相比，无人机电量对目标函数的影响更大，不同电量大小的目标函数相差近3倍。通过对比实验结果，验证了ROAD算法在无人机功率设置和航路优化中的可行性。

以上的所述乃是本发明的具体实施以及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：宁兆龙;朱帅琦;王小洁;亓伟敬;宋清洋;郭磊;
专利申请人：重庆邮电大学;

上一篇：半导体结构及其形成方法
下一篇：一种基于电路控制的人工智能设备的唤醒自动化测试装置