导航：首页> 计算；推算；计数>一种基于深度强化学习的智能清洁机器人路径规划方法

一种基于深度强化学习的智能清洁机器人路径规划方法

文献发布时间：2023-06-19 09:47:53

技术领域

本发明涉及智能清洁机器人领域，具体涉及一种基于深度强化学习的智能清洁机器人路径规划方法。

背景技术

目前随着物业管理行业发展，大部分的物业服务企业主要骨干力量是50岁以上的员工，年轻人匮乏。研究智能清洁机器人不仅可以有效解决物业一线员工短缺问题，而且可以大幅度促进企业快速向外输出服务，同时增加其他服务附加值。

但是目前室内的智能清洁机器人导航主要基于即时定位与地图构建技术(Simultaneous Localization And Mapping，SLAM)，但是路径规划的问题导致部分区域清扫不干净，清扫效率低等问题。

深度确定性策略梯度算法(Deep Deterministic Policy Gradient，DDPG)作为深度强化学习中的经典算法，在连续控制问题上有着较大的优势。

本发明提出一种基于深度强化学习的智能清洁机器人路径规划方法。该方法基于DDPG算法，融合多种传感器信息，实现清洁机器人路径动态规划。实现清洁机器人优先清扫垃圾多的地方，自适应避障，及时返回充电等功能。

发明内容

为了克服现有技术中存在的缺点和不足，本发明的目的在于提供一种基于深度强化学习的智能清洁机器人路径规划方法，以提高清洁机器人工作效率。

本发明是通过以下技术方案实现的：

一种基于深度强化学习的智能清洁机器人路径规划方法，其特征在于，包含以下步骤：

S1、初始化策略神经网络、评判网络、目标策略网络、目标评判网络、网络参数、经验缓存池以及清洁机器人；

S2、清洁机器人通过传感器感知周围环境，融合传感器数据，判断机器人的地面情况、垃圾分布情况、周围是否有无障碍物以及清洁机器人自身状态；

S3、策略神经网络接受周围环境的传感器数据，传感器数据输入策略神经网络后，策略神经网络通过计算选取执行行为策略；

S4、清洁机器人执行行为策略，将行为策略转换为驱动机构可识别的指令,并将该指令输入至驱动机构；

S5、上位机发送指令后,下位机接收该指令并执行相应的动作后完成清洁任务和路径规划，下位机执行完成得到奖励rt和下一状态st+1；

S6、判断此时清洁机器人是否到达垃圾站以及行动时间是否结束，若符合上述情况则继续执行步骤S1至步骤S6，否则对步骤S1至步骤S6进行经验总结，并执行步骤S7；

S7、将经验存储存入经验缓存池中，使用经验缓存池使得状态间相互独立，来消除输入经验间存在的很强的相关性；

S8、从经验缓存池随机采样N个经验，计算策略价值算法的损失函数值和策略决策算法损失函数值。

S9、通过目标策略网络以及评判网络计算当前策略期望回报，估计每个状态策略对的累积回报。

S10、采用梯度下降法训练神经网络，目标值网络的权重系数使用随机梯度下降算法，进行更新以最小化损失函数，计算梯度更新目标策略网络以及策略神经网络的参数。

其中，步骤S2中的传感器可以是陀螺仪、激光雷达、摄像头、超声波、红外中的一种或多种。

其中，步骤S3中行为策略包括清扫行为策略和运动行为策略，清扫行为策略包括洗、拖、扫以及吸的行为，运动行为策略包括前进、后退、左转、右转以及刹车的行为。

其中，步骤S4中驱动机构包括运动电机、滚刷电机、边刷电机、滚刷电机、盘刷电机、拖布驱动电机、吸尘电机中的一种。

其中，步骤S5中奖励奖励rt的大小与收集垃圾数量、清扫范围、避障、电量等因素正相关。

其中，步骤S8中损失函数评估指标为采用均方误差。

其中，步骤S10中随机梯度下降采用Adam优化器。

本发明的有益效果：

提高清洁机器人工作效率：本发明的一种基于深度强化学习的智能清洁机器人路径规划方法，通过设置策略神经网络、评判网络、目标策略网络、目标评判网络、网络参数以及经验缓存池等模块，并由本发明的方法实现各个模块的调取以及应用，从而实现清洁机器人的正反馈工作，提高清洁机器人工作效率。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明的流程框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本说明书附图所绘示的结构，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰或调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

如图1所示，本发明实施例提供的一种基于深度强化学习的智能清洁机器人路径规划方法流程示意图，包括：

步骤S1：初始化策略神经网络、评判网络、目标策略神经网络、目标评判网络以及网络参数，初始化经验缓存池，初始化清洁机器人；

步骤S2：清洁机器人通过传感器感知周围环境，融合传感器数据，构建地图，基于视觉技术识别地面环境、垃圾情况，所述传感器包括陀螺仪、激光雷达、摄像头、超声波、红外等，具体情况根据清洁机器人实际需求来配置的传感器设备；

步骤S3：策略神经网络收到周围环境状态数据，传感器数据输入策略神经网络后，策略神经网络通过计算选取执行策略，行为策略是根据当前策略和随机噪声生成的随机过程,从这个随机过程采样获得行为策略的值，该行为策略规划优先清理垃圾多的地方，在本实施例中，清扫行为策略包括洗、拖、扫以及吸的行为，运动行为策略包括前进、后退、左转、右转以及刹车的行为；

步骤S4：清洁机器人执行行为策略，将行为策略转换为电机可识别的指令,并将该指令输入至电机，进而控制电机的转速、转速向、转动时间等，在本实施例中，驱动机构优选为运动电机、滚刷电机、边刷电机、滚刷电机、盘刷电机、拖布驱动电机、吸尘电机中的一种，具体情况根据清洁机器人实际需求来配置；

步骤S5：上位机发送指令后,下位机接收并执行相应的动作,完成清洁任务和路径规划，通过视觉传感器判断当前室内环境中是否有垃圾，执行完成得到奖励rt和下一状态st+1；

步骤S6：判断此时清洁机器人是否达到垃圾站以及行动时间是否结束，若终止，转入步骤S1。否则，转入步骤S7；

步骤S7：将执行动作、奖赏等经验存储存入经验缓存池中，使用经验缓存池使得状态间相互独立，来消除输入经验间存在的很强的相关性；

步骤S8：从经验缓存池随机采样N个经验，计算策略价值算法的损失函数值和策略决策算法损失函数值，优选的，损失函数评估指标为采用均方误差。

步骤S9：通过目标评判神经网络计算当前策略期望回报，估计每个状态策略对的累积回报。

步骤S10：采用梯度下降法训练神经网络。目标值网络的权重系数使用随机梯度下降算法，进行更新以最小化损失函数，计算梯度更新目标值神经网络、策略神经网络的参数，其中，中随机梯度下降优选采用Adam优化器。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杜林;
专利申请人：东莞市均谊视觉科技有限公司;

上一篇：一种基于CSO优化神经网络的变压器损耗计算方法
下一篇：防爆泛光灯