一种基于蒙特卡罗树搜索的AGV小车的路径预测方法

文献发布时间：2024-04-18 20:02:40

技术领域

本发明属于AGV(自动引导车)系统的路径规划的技术领域，更具体地，本发明涉及一种基于蒙特卡罗树搜索的AGV小车的路径预测方法。

背景技术

1、相关技术发展背景介绍：

近年来，工业AGV小车已运用到工业制造的方方面面，但是调度系统派任务存在潮汐状态的可能，即在某一时间段，任务量过多，系统中现有AGV小车无法响应更多的任务；同样在某一时间段，任务量过少，多数AGV小车在空闲状态。这会导致AGV小车完成任务量较小、负荷不均衡、运力浪费等情况。

现阶段的AGV路径规划研究主要重点是AGV小车起始点到目标点的的路径优化，往往针对的是一对一的情况，即小车需要先等待，然后根据调度系统发送的指令，来将物品从起始点运送目标点；

当所有小车所停位置离起始点都较远，那么小车从当前位置到起始点位置会耗费大量时间，造成AGV系统运行效率较低，

2、现有技术情况：

现有技术针对于AGV小车的路径规划，主要研究点在于如何将货物目标点和运送终点的路径最优化，较少研究小车当前位置到目标起始点位置的最优化。

路径规划主要采用的算法分为传统算法、基于随机采样的规划算法和智能仿生算法，其中传统的算法有Dijkstra算法、A*算法，D*算法等；基于随机采样的规划算法有随机路线图算法，快速随机扩展树算法；智能仿生算法有遗传算法、神经网络算法、深度学习算法等。

3、最接近的现有技术及其存在的技术问题：

现有路径规划主要应用于任务起始点到目标点的最优路径规划。

当所有AGV小车所停位置离任务起始点的位置较远时，AGV小车行驶到起始点也需要一定时间，

发明内容

本发明提供一种基于蒙特卡罗树搜索的AGV小车的路径预测方法，其目的是提高AGV系统的工作效率。

为了实现上述目的，本发明采取的技术方案为：

本发明基于蒙特卡罗树搜索的AGV小车的路径预测方法，所述的蒙特卡罗树搜索载入路网信息；所述的蒙特卡罗树搜索将任务起始点历史数据作为训练样本载入；所述的蒙特卡罗树搜索向AGV小车发送推荐路径模型；所述的AGV小车向蒙特卡罗树搜索发送当前位置信息；所述的AGV小车根据蒙特卡罗树搜索的推荐信息，运行至新任务起始点，再将更新后的算法模型发送给蒙特卡罗树搜索。

当AGV小车接收到路径推荐模型时，将会从当前位置规划到任务起始点的位置，即当前点到任务起始点，所述的路径预测方法在获取两个节点间最短路径时，采用了A*算法。

所述的蒙特卡罗树搜索分为四个步骤：分别为选择(Select)、扩展(Expansion)、模拟(Simulation)和反向传播(Back propagation)；

在所述的选择步骤中，在当前根节点下选择一个最急迫需要拓展的节点，针对于该节点存在三个可能：所有动作都已经被拓展过；存在有未被拓展过的动作；以及当前节点为最终节点；

在所述的扩展步骤中，在选择阶段结束时，找到迫切被拓展的节点n和n还没有拓展的动作a，在搜索树中创建一个新的节点n’作为n的新子节点，该子节点就是节点n在执行动作a后的结果；

在所述的模拟步骤中，从n’开始，随机进行模拟，得到n’的初始评值；

在所述的反向传播步骤中，在n’模拟结束后，它的父节点n以及从根节点到n的路径上的所有节点都会根据n’的模拟评值来更新自己的累计评值；若在选择中得到的是一个最终节点，根据该节点进行评值。

所述的算法的每一次迭代都会拓展搜索树；当迭代一定次数或到达一定时间，依据根节点下最优的子节点作为决策的结果，来进行最优方案的选择。

所述的路径预测方法采用Python Network X构建AGV系统运行的环境，将地图与历史派送任务起始点信息作为经验值融入算法训练中，根据AGV运行环境中道路与道路间的关系生成道路路网，将道路用边表示，路与路间的交接点为节点。

所述的路径预测方法首先构建路网信息字典，将道路编号作为关键字、道路长度、道路宽度，所在区域等信息作为输入值存入路网信息字典，初始化网络G，对于路网信息字典中不存在的路和边存入字典，直到全部更新完毕，输出网络G’。

所述的路径预测方法中任务最大概率的寻找可看作多臂赌博机(Multi-ArmedBandit，MAB)，手臂为AGV小车下一个行驶的路径，收益值为路径中潜在的运送任务起始点；

在第i轮中被挑选的路径表示为A

蒙特卡罗树搜索在第i轮选择最佳的路径的期望概率值Q

第i轮的累计遗憾值e

式(3)中，C(d)是该路径在i轮中被选择的次数。

所述的路径预测方法将蒙特卡罗算法与UCB-V算法(Upper Confidence Boundsfor Value Iteration)相结合，利用UCB-V算法评估蒙特卡罗树搜索选择步骤中的值最大的子节点，该值为UCB-V值；在蒙特卡罗树搜索选择步骤中父节点的所有动作已被拓展后，将会使用UCB-V公式对该节点下的所有子节点进行计算，找到一个UCB-V值最大的并向下迭代。

所述的蒙特卡罗树搜索算法是通过模拟得到的UCB-V值，在下一次模拟中根据既往经验选择有最大UCB-V值的节点继续模拟，最终根据这些UCB-V值作为路径推荐的依据，UCB-V算法的计算公式如下：

式(4)中：

Q(s，a)为父节点状态s执行动作a所得到的平均奖励；

N(s)是父节点状态s的访问次数；

N(s，a)是父节点状态s下动作a的访问次数；

c为超参数，一般为常量，用来控制算法策略的探索；

V(s，a)是一个可变性估计项，是父节点状态s执行动作a得到的累计奖励的方差上界，公式如下：

式(5)中：

所述的路径预测方法将AGV当前初始位置、货物起始点位置坐标，通过路径推荐算法模型后，输出道路的UCB-V值；所述的UCB-V值为路径的权重；当权重较高时，AGV选择此道路，有更大概率可以接受到任务，对提高AGV系统工作效率具有一定的效果。

本发明采用上述技术方案，针对现有技术中AGV系统小车原始位置到任务起始点的距离较长的问题，使用蒙特卡罗树搜索算法对任务的起始点进行预测，提前调用小车至有起始点较大概率的路段中，提高AGV系统的工作效率。

附图说明

图1为本发明的AGV小车路径预测方法的流程图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

如图1所示本发明的预测方法的流程，为一种基于蒙特卡罗树搜索的AGV小车的路径预测方法，主要应用于需要AGV小车运货的大型仓储系统，能有效提高系统的运货效率。

为了解决现有技术存在的问题并克服其缺陷，实现提高AGV系统的工作效率的发明目的，本发明采取的技术方案为：

如图1所示，本发明基于蒙特卡罗树搜索的AGV小车的路径预测方法，所述的蒙特卡罗树搜索载入路网信息；所述的蒙特卡罗树搜索将任务起始点历史数据作为训练样本载入；所述的蒙特卡罗树搜索向AGV小车发送推荐路径模型；所述的AGV小车向蒙特卡罗树搜索发送当前位置信息；所述的AGV小车根据蒙特卡罗树搜索的推荐信息，运行至新任务起始点，再将更新后的算法模型发送给蒙特卡罗树搜索。

本发明利用蒙特卡罗树搜索方法进行AGV小车的路径规划推荐，对含有任务起始点较大概率的路径进行预测并推荐给AGV系统，即推荐模型算法向AGV推荐能接到AGV运送货物请求权重值最高的路径，令小车停留在这些推荐的路径中，实现AGV小车在下一条行驶的路径中有最大概率接受到潜在的运送任务。

当有任务进行发布时，小车能最快速的到达任务起始点，减少任务执行时间，进一步提高AGV系统工作效率。

1、本发明要解决的基本问题、技术方案及技术效果：

(1)、本发明需要解决的技术问题：

AGV小车运送货物的起始点看似是随机分布的，但对于一些具体的使用场景来说是有规律的，比如大型商品货仓中热销品和滞销品，他们对于AGV运送的需求频率要求是不同的，在业务高峰期间，多数AGV小车停靠在离热销品较近的范围，会降低AGV小车完成任务所需时间。

(2)、当前点到任务起始点间最短路径的算法：

当AGV小车接收到路径推荐模型时，将会从当前位置规划到任务起始点的位置，即当前点到任务起始点，本发明在获取两个节点间最短路径时，采用了A*算法。

为了解决空闲AGV小车距离运送货物起始点的距离较远，进而影响整体AGV小车工作效率的问题，本发明提出一种基于蒙特卡罗树搜索的AGV小车路径推荐方法。

(3)、蒙特卡罗树搜索的步骤：

蒙特卡罗树搜索一般分为4个步骤：选择、拓展、模拟和反向传播。

所采用的技术方案具体如下：

选择(Select)：在当前根节点下选择一个最急迫需要拓展的节点，针对于该节点存在三个可能：所有动作都已经被拓展过、存在有未被拓展过的动作以及当前节点为最终节点。

扩展(Expansion)：在选择阶段结束时，找到迫切被拓展的节点n和n还没有拓展的动作a，在搜索树中创建一个新的节点n’作为n的新子节点，该子节点就是节点n在执行动作a后的结果。

模拟(Simulation)：从n’开始，随机进行模拟，得到n’的初始评值。

反向传播(Back propagation)：在n’模拟结束后，它的父节点n以及从根节点到n的路径上的所有节点都会根据n’的模拟评值来更新自己的累计评值，若在选择中得到的是一个最终节点，根据该节点进行评值。

(4)、算法的迭代：

算法的每一次迭代都会拓展搜索树，当迭代一定次数或到达一定时间，依据根节点下最优的子节点作为决策的结果，来进行最优方案的选择。

(5)、构建AGV系统运行的环境：

采用Python Network X构建AGV系统运行的环境，将地图与历史派送任务起始点信息作为经验值融入算法训练中，根据AGV运行环境中道路与道路间的关系生成道路路网，将道路用边表示，路与路间的交接点为节点。

(6)、构建路网信息字典：

首先构建路网信息字典，将道路编号作为关键字、道路长度、道路宽度，所在区域等信息作为输入值存入路网信息字典，初始化网络G，对于路网信息字典中不存在的路和边存入字典，直到全部更新完毕，输出网络G’。

(7)、

本发明中任务最大概率的寻找可看作多臂赌博机(Multi-Armed Bandit，MAB)，手臂为AGV小车下一个行驶的路径，收益值为路径中潜在的运送任务起始点。

在第i轮中被挑选的路径表示为A

蒙特卡罗树搜索在第i轮选择最佳的路径的期望概率值Q

第i轮的累计遗憾值e

其中，C(d)是该路径在i轮中被选择的次数。

(8)、蒙特卡罗算法与UCB-V算法的结合：

本发明将蒙特卡罗算法与UCB-V算法(Upper Confidence Bounds for ValueIteration)相结合，利用UCB-V算法评估蒙特卡罗树搜索选择步骤中的值最大的子节点，该值为UCB-V值；在蒙特卡罗树搜索选择步骤中父节点的所有动作已被拓展后，将会使用UCB-V公式对该节点下的所有子节点进行计算，找到一个UCB-V值最大的并向下迭代。

(9)、UCB-V算法的计算：

蒙特卡罗树搜索算法是通过模拟得到的UCB-V值，在下一次模拟中根据既往经验选择有最大UCB-V值的节点继续模拟，最终根据这些UCB-V值作为路径推荐的依据，UCB-V算法的计算公式如下：

式(4)中：

Q(s，a)为父节点状态s执行动作a所得到的平均奖励；

N(s)是父节点状态s的访问次数；

N(s，a)是父节点状态s下动作a的访问次数；

c为超参数，一般为常量，用来控制算法策略的探索；

V(s，a)是一个可变性估计项，是父节点状态s执行动作a得到的累计奖励的方差上界，公式如下：

式(5)中：

(10)、AGV按路径的权重选择：

本发明将AGV当前初始位置、货物起始点位置坐标，通过路径推荐算法模型后，输出道路的UCB-V值；所述的UCB-V值为路径的权重；

当权重较高时，AGV选择此道路，有更大概率可以接受到任务，对提高AGV系统工作效率具有一定的效果。

2、本发明的有益效果：

针对AGV系统小车原始位置到任务起始点的距离较长的问题，使用蒙特卡罗树搜索算法对任务的起始点进行预测，提前调用小车至有起始点较大概率的路段中，提高AGV系统的工作效率。

3、本发明技术方案的适用条件：

本发明中将蒙特卡罗树搜索算法应用于AGV系统的路径规划中，主要针对的是具有偏向性任务起始位置的仓储系统，对于任务起始位置分布平均化的AGV使用场景没有较好的使用效果。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：长三角哈特机器人产业技术研究院;

上一篇：一种配合AGV小车使用的自动堆叠料架
下一篇：一种具有多种颜色可逆变化的柔性变色电池及其制备方法