掌桥专利:专业的专利平台
掌桥专利
首页

输水隧洞巡检AUV运动规划方法

文献发布时间:2024-01-17 01:23:59


输水隧洞巡检AUV运动规划方法

技术领域

本发明属于水下机器人运动规划方法的技术领域,尤其涉及采用DDPG算法的自主水下机器人运动规划方法。

背景技术

输水隧洞通常具有深埋大、隐蔽性强、工程难度大以及存在不确定因素等特点,容易受到施工质量、温度以及地质的影响,在运行一段时间后,大概率会出现变形、坍塌、脱落和裂缝等不同程度的病害,因此,对输水隧洞进行定期巡检与安全评价具有十分重要的意义。目前,对输水隧洞的检测广泛使用的方法为人工普查法、数字化检测法和使用有缆水下机器人进行运维巡检,以上方法存在危险性高、小缺陷信息无法获取、成本高、线缆易缠绕等问题。相比较而言,使用体积小、重量轻的自主水下机器人(Autonomous UnderwaterVehicle,AUV)搭载满足探测需求的水下探测设备和传感器,自主地完成隧洞检测任务,是一种低成本、低风险、高效率的隧洞检测方法,是隧洞检测发展的必然趋势。

AUV的运动规划是指为了完成某项任务,基于环境和自身约束,对AUV进行行为和动作的规划。由于水下环境是一个复杂的动态系统,且相比于开阔水域,隧洞等狭窄水域还存在光线黑暗、通航范围窄以及存在多壁面障碍限制等问题,大大增加了AUV运动规划的困难性,因此,如何解决AUV在进行巡检时的安全航行问题,提高AUV的运动规划能力,是使用AUV进行隧洞检测的先决条件和研究难点。而目前多数AUV运动规划都是依靠人工在上位机点击选取路径节点的方法获得全局运动路径,无法在输水涵洞内进行实时避障,航行安全性及环境自适应性差。

发明内容

针对现有技术的缺陷,本发明的目的在于提供一种基于深度确定性策略梯度算法(DDPG)的AUV运动规划方法,使用该运动规划方法的AUV在进行输水隧洞巡检时具有良好的在线自适应性和对非线性系统的学习能力,具有实时避障能力,能显著提高巡检时的环境自适应性和航行安全性。

本发明的技术方案如下:

进行输水隧洞巡检的AUV运动规划方法,其包括:

S1建立AUV运动学模型和避障声呐探测模型,其中,所述避障声呐探测模型所需的模型参数由设置在AUV上的避障声呐检测得到,所述AUV运动模型所需的模型参数由感知AUV周围环境的其他传感器检测得到;

S2建立结合了输水涵洞地形情况及地形约束条件的输水隧洞环境模型,及在输水隧洞环境模型下,基于AUV周围环境和障碍物信息作出运动方案决策的马尔可夫决策过程(MDP)模型;

S3基于所述MDP模型,建立运动规划模型,所述运动规划模型为Actor-Critic双网络结构即策略网络-价值网络双网络结构,使用基于事后经验回放的DDPG算法即HER-DDPG算法进行运动方案决策,并以AUV的状态空间和动作空间分别作为输入和输出;

S4通过若干所述运动规划模型的组合构建含奖励机制的子任务运动规划模型系统,根据所述子任务运动规划模型系统获得的各子任务的动作空间完成总的AUV巡检任务,其中,所述子任务通过将总的AUV巡检任务进行分解得到;

S5对所述子任务运动规划模型系统进行自交互训练,将获得最优策略的模型参数进行保存,并通过最优策略进行AUV的运动控制。

根据本发明的一些优选实施方式,所述AUV运动学模型建立如下:

其中,η为AUV在大地坐标系下的水平面位置矢量,

根据本发明的一些优选实施方式,所述输水隧洞环境模型的建立包括:

通过已知地图信息提取出进行巡检的输水隧洞的若干深度数据;

通过二叉树法将提取出的若干深度数据进行分块处理,直到分块后得到的子集的数据点数量小于阈值M,分块处理中,采用逐点插入法构建输水涵洞的Delaunay三角网模型,并按分块逆序对形成的各子三角网进行合并,获得基于不规则三角网的输水隧洞地形模型;

根据插值计算得到的网格点高程数据,对不规则三角网进行内插处理,生成规则网格,得到栅格化后的输水隧洞地形模型;

将约束条件作为栅格单元的属性信息输入所述栅格化后的输水隧洞地形模型中,获得所述输水涵洞环境模型;其中,所述约束条件包括输水涵洞壁面信息、巡检目标信息和不可航行区域信息。

其中,所述插值计算可选择线性插值、双线性插值、或三次样条插值等方法。

根据本发明的一些优选实施方式,所述MDP模型由四元组(P,S,A,R)构成,其中,A表示动作空间,S表示状态空间,P为状态转移概率,R为奖励函数;其中,所述状态空间由输入状态信息s

根据本发明的一些优选实施方式,所述运动规划模型使用的策略网络-价值网络双网络结构中,每个网络均含有进行在线参数更新的在线网络和根据在线网络的参数更新情况进行参数更新并输出估计值的目标网络,即所述策略网络包含在线策略网络和目标策略网络,所述价值网络包含在线价值网络和目标价值网络。

根据本发明的一些优选实施方式,通过所述HER-DDPG算法进行运动方案决策包括:

(1)用随机的网络参数ω

(2)复制参数ω

(3)初始化经验池R;

(4)在任意第e次训练回合中,e=1,2,…E,其中E表示总训练回合数,根据环境给予的目标g和初始状态s

(4)从经验池R中采样N个(s

(5)从经验池中随机采样M个轨迹数据组,对其中任意第i个轨迹数据组(i=1,2,…M),用目标价值网络

(6)最小化目标价值网络的目标损失函数,即最小化所得目标值y

(7)根据在线价值网络Q

其中,τ表示更新系数,ω为在线价值网络的当前价值参数,θ为在线策略网络的当前策略参数;

根据本发明的一些优选实施方式,通过所述子任务运动规划模型系统完成所述总的AUV巡检任务包括:

(1)将AUV的输水隧洞巡检任务进行分解,获得若干子任务;

(2)分别设计各子任务的奖励函数和各子任务的奖励函数加权组合后的总任务的奖励函数;

(3)将各子任务的奖励函数及总任务的奖励函数带入由多个运动规划模型组合形成的子任务运动规划模型系统各奖励函数中,进行子任务规划,即获得每个子任务对应的动作空间;

(4)设置各子任务的优先级,根据优先级排序依次完成全部子任务的动作空间,由此完成总的AUV巡检任务。

根据本发明的一些优选实施方式,所述若干子任务包括避障子任务、居中航行子任务和趋向目标子任务,所述奖励函数包括:

居中航行和趋向目标子任务的奖励函数r

r

α=σ-β

其中,k

避障子任务的奖励函数r

其中,AUV与障碍物的靠近或远离通过第二距离差值d

总任务奖励函数r如下:

r=r

根据本发明的一些优选实施方式,所述各子任务的优先级为:避障子任务优先级大于居中航行子任务优先级大于趋向目标子任务优先级。

根据以上运动规划方法,可进一步得到一种根据该运动规划方法获得的决策方案进行输水隧洞巡检的AUV。

本发明具备以下有益效果:

本发明采用的DDPG算法使用经验回放机制和构造双网络结构的方法,在解决连续动作空间下的马尔可夫序列决策问题效果突出。同时,考虑到AUV在训练初期难以完成目标而出现的奖励稀疏的情况,引入了能通过重新对历史轨迹设置其目标而使得奖励信号更加稠密,进而从原本失败的数据中学习到使新任务成功的经验的事后经验回放方法,提升训练的稳定性和样本效率。

对于灾害后隧洞内AUV的自主检测与避障,本发明设计了将地形模型栅格化处理形成输水隧洞环境模型的建模方法,在此基础上通过结合深度强化学习理论与分层思想,提出基于多任务网络调用的规划体系结构。根据灾后隧洞的探测任务需求定义多个子任务,构建多任务规划的深度学习网络,设计每种任务对应的奖励函数,最终实现隧洞内AUV的运动规划,能有效解决维数灾难问题,提高模型的收敛速度。

目前多数AUV运动规划系统都是靠人工在上位机点击选取路径节点的方法规划全局路径,并且不具备实时避障能力,并且在输水隧洞内传统的方法也很难实现实时避障。本发明利用深度强化学习的算法对AUV进行避障训练,并且可直接通过仿真训练得到的避障策略,写入下位机模块,结合下位机的控制模块输出偏航角、速度实现规避障碍物,到达目标区域。由此该方法不仅具有全局规划能力而且具备实时避障能力。

本发明可直接在仿真系统中对AUV进行训练,避免了AUV实际训练中的碰撞损坏,并且通过仿真训练时直接结合了AUV的运动学模型,由此得到的避障策略可以直接应用于实际的机器人,相对于传统路径规划、动作规划分开的模式,该方法可节省一定的人力物力。

附图说明

图1为AUV运动坐标系图。

图2为AUV声纳模型。

图3为输水隧洞环境模型建立原理图

图4为马尔可夫决策过程图。

图5为HER-DDPG神经网络结构示意图。

图6为子任务调用流程图

图7为AUV运动规划系统图。

具体实施方式

以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。

根据本发明的技术方案,所述进行输水隧洞巡检的AUV的运动规划方法的一些具体实施方式包括以下步骤:

S1:建立AUV运动学模型和传感器模型,从而获取AUV周围环境和障碍物信息;其中,传感器包括避障声呐。

在一些更具体的实施方式中,其可包括:

S11在如附图1所示的AUV运动坐标系即AUV随体坐标系下,建立运动学模型,如下:

其中,η为AUV在大地坐标系下的水平面位置矢量,

本发明的以上运动学模型考虑了AUV的3自由度水平运动包括进退、横移和偏航运动,基于3自由度水平面运动学方程建立。

S12建立避障声呐探测模型。

参照附图2,AUV利用避障声呐获取障碍物的位置信息,避障声呐的采样频率为2Hz,探测距离为20m,AUV艏部共搭载7个避障声呐,随体坐标系下分布角度依次为90°,60°,30°,0°,-30°,-60°,90°,共可以探测到七个方向的障碍物距离信息。

S2建立输水隧洞环境模型及结合环境和障碍物信息的、进行运动方案决策的马尔可夫决策过程(MDP)模型。

在一些更具体的实施方式中,其可包括:

S21参照附图3,首先建立输水隧洞环境模型。输水隧洞环境模型融合了输水隧洞地形模型和约束条件,其中,地形模型的建立可包括:

通过已知地图信息提取出进行巡检的输水隧洞的散乱深度数据;

通过二叉树法将散乱的深度数据进行分块处理,直到分块后得到的子集的数据点数量小于阈值M,分块处理中,采用逐点插入法构建输水涵洞的Delaunay三角网模型,并按分块逆序进行各子三角网的合并,获得基于不规则三角网的输水隧洞地形模型。

进一步的,为简化地形模型并便于与环境模型融合,利用最近点所在三角形快速计算网格点高程数据,将不规则三角网模型内插生成规则网格,从而将地形模型进行栅格化处理。其中,最近点即距离目标网格点最近的三角网格节点或内部点,其可通过距离度量法计算确定,所用度量距离可如欧几里得距离、曼哈顿距离、切比雪夫距离等。

进一步的,将包括输水涵洞壁面信息、目标信息和不可航行区域信息的约束条件作为栅格单元的属性信息输入栅格化后的地形模型中,获得融合了地形和约束条件的动态多维栅格化的输水涵洞环境模型。

S22建立含有AUV的状态空间和动作空间的马尔可夫决策过程(MDP)模型,其中,所述状态空间由AUV的输入状态信息组成,所述动作空间由AUV的输出动作信息组成。

考虑到AUV的运动规划是一个复杂的多约束问题,其基本任务是在到达目标点的同时避开障碍物,在实际运动过程中,需要传感器将环境和自身状态的信息s

在一些更具体的实施方式中,所述输入状态信息包括目标点位置、AUV当前位置及通过避障声呐检测得到的障碍物位置,所述输出动作信息包括AUV的纵向速度和其艏向角。

即输入状态信息s

AUV隧洞内的运动规划过程即决策过程可转化为:

(V

s

其中V

通过以上决策过程,本发明可将直接输出AUV推力映射的端到端运动规划系统进行简化,降低学习难度,直接通过深度强化学习训练得到机器人的目标速度与目标艏向,再使用S面控制器进行控制。

基于以上决策过程,为了进行深度强化学习训练,本发明结合所搭建的环境和收集的障碍物信息建立了马尔可夫决策过程(MarkovDecisionProcesses,MDP)模型,其针对运动规划的决策过程为:AUV在t时刻接收到状态信息s

更具体的,由四元组(P,S,A,R)构成MDP模型,其中A表示动作空间,S表示状态空间,P为状态转移概率,R为奖励函数,状态空间由输入状态信息s

在更具体的一些实施方式中,设置AUV可选的艏向角和速度大小为:

ψ∈[-90°,90°]

V∈[-2m/s,2m/s]。

S3基于所述马尔可夫决策过程(MDP)模型,建立使用基于事后经验回放的DDPG算法(HER-DDPG)的运动规划模型,该模型使用策略网络-价值网络即Actor-Critic双网络结构,且每个网络中均含有进行在线参数更新的在线网络和根据在线网络的参数更新情况进行参数更新的目标网络,即所述策略网络进一步包含在线策略网络和目标策略网络,所述价值网络进一步包含在线价值网络和目标价值网络,所述运动规划模型以状态空间和动作空间分别作为输入和输出。

本发明的运动规划模型使用深度强化学习算法DDPG,通过不断地调整神经网络的权重ω

更具体的,在DDPG算法中,策略是确定的,即策略在一个确定的状态下只可能采取一种行为,记为a=μ

J(μ

其中,μ

为寻找最优策略μ

其中,▽

在优化过程中,DDPG算法采用经验回放(MemoryReplay)方法对Actor-Critic双网络结构中的目标策略网络的策略参数θ

其中τ是更新系数,可取较小的值,如0.1或者0.01;ω为在线价值网络的当前价值参数,θ为在线策略网络的当前策略参数,ω和θ初始化都是随机的,其后根据最小化损失函数进行更新;

本发明进一步在以上DDPG算法中引入了事后经验回放(HER)方法,在事后经验回放中,强化学习智能体通过把已经实现的目标当成虚拟目标,重新计算奖赏并放入经验池中,进行训练。

如,假设现在使用策略在环境中以g为目标进行探索,得到的轨迹为:

s

在更具体的实施方式中,本发明采用的HER-DDPG算法具体技术流程如下:

(1)用随机的网络参数ω

(2)复制参数ω

(3)初始化经验池R;

(4)在任意第e次训练回合中,(e=1,2,…E,其中E表示总训练回合数),根据环境给予的目标g和初始状态s

(5)从经验池R中采样N个(s

(6)从经验池中随机采样M个轨迹数据组,对其中任意第i个轨迹数据组(i=1,2,…M),用目标价值网络

(7)最小化目标价值网络的目标损失函数,即最小化所得目标值y

(8)根据在线价值网络Q

在更具体的一些实施方式中,所述策略学习模型的神经网络结构如附图5所示:其与一般的DDPG算法框架相同,Actor负责执行决策,Critic负责指导Actor的决策是否正确,算法架构中使用双重神经网络架构,对于策略函数和价值函数均使用双重神经网络模型架构(即在线网络和目标网络),使得算法的学习过程更加稳定,收敛的速度加快。本发明中对DDPG算法进行了基于经验回放的改进,对经验池进行了扩充,不仅存入了实际采样得到的经验,还使用新的目标(如已经达到的状态)替换掉原本想达到的目标,即将采样得到的经验经过经验回放处理后,同样存入经验池。

S4基于所述运动规划模型,构建含奖励机制的子任务运动规划模型系统,根据所述子任务运动规划模型系统获得的各子任务的动作空间可完成总的AUV检测任务,其中,所述子任务通过将总的AUV检测任务进行分解得到。

通过该步骤,本发明可通过分层思想将AUV的检测任务分解,通过搭建的运动规划模型建立AUV的规划子任务,设计每个子任务对应的奖励函数,通过子任务的调用实现AUV的总任务。

如在一个具体实施例中,S4具体包括:

(1)将AUV的隧洞检测任务分解,据隧洞探测的任务需求,AUV需居中航行便于利用其携带的环扫声纳进行缺陷扫描,因此将检测任务分解为避障、居中航行和趋向目标三个子任务。AUV的期望路径是以隧洞中轴线为主要路线进行航行,当遇到障碍物时即使避开,并且在障碍解除时及时回到中轴线,到达目标点,即隧洞出口。

(2)设计各子任务的奖励函数,并根据各子任务的奖励函数设计总任务的奖励函数,其进一步包括:

设计居中航行子任务和趋向目标子任务的总奖励函数r

在居中航行过程中,根据隧洞中线路径上分布的虚拟离散点坐标,将隧洞中线路径离散为有序的虚拟子目标点序列{g

考虑到居中航行是以AUV巡检路径的终点为最终目标点g

根据AUV在t时刻的大地坐标系下的坐标(X

其中,目标艏向β∈[0,π],y

计算当前AUV艏向与目标点的艏向间的夹角α:

α=|σ|-β,其中,σ表示当前AUV艏向,

根据艏向角越接近目标奖励值越大的奖励机制,设计居中航行子任务的奖励函数r

r

式中k为奖励系数,设定为正值,其可根据实际应用反馈进行调整,初始可取为0.2。

另外根据当前AUV与虚拟子目标点或终点目标间的距离变化的情况,设置如下的趋向目标子任务的奖励函数r

其中,所述目标点为居中航行子任务中的虚拟子目标点g

进一步的,考虑到居中航行和趋向目标之间的相互关系,以加权组合的居中航行子任务的奖励函数和趋向目标子任务的奖励函数作为两者的总奖励函数r

r

其中,k

r

设计避障子任务的奖励函数r

避障的目的在于让AUV有效避开突发障碍物,因此可设计其奖励机制为:当AUV与障碍物靠近时,得到一个负奖励的警告;当AUV与障碍物距离变远时,获得一个正奖励,鼓励AUV远离障碍物航行,与障碍物碰撞时获取奖励值为-1并结束当前训练周期,具体的奖励函数可设置如下:

其中,AUV与障碍物的靠近或远离通过第二距离差值d

根据居中航行子任务和趋向目标子任务的总奖励函数r

r=r

(3)将各子任务的奖励函数及总任务的奖励函数带入由多个运动规划模型组合形成的子任务运动规划模型系统各奖励函数中,即可进行子任务规划,获得每个子任务对应的动作空间。

(4)进一步的,考虑所得多个子任务动作空间之间可能存在冲突或不同的完成顺序,对子任务的优先级进行设置,根据优先级排序依次完成全部子任务的动作空间,以此完成总的AUV检测任务。

如在一个具体实施例中,设置AUV隧洞巡检的子任务优先级为:避障子任务为最高级,居中航行子任务优先级大于趋向目标子任务,即当AUV的避障传感器探测到障碍物在安全距离以内时,调用运动规划模型获得的避障子任务的运动规划方案即其动作空间,当AUV安全距离内无障碍物时,调用运动规划模型获得的居中航行子任务的运动规划方案,当无障碍物且居中航行中虚拟子目标点已全部更新消亡时,调用运动规划模型获得的趋向目标子任务的运动规划方案,通过三种子任务运动规划方案的调用实现AUV自主检测避障的总任务,具体流程如图6。

S5对所述子任务运动规划模型系统进行自交互训练,将获得最优策略的模型参数进行保存,并将最优策略对应的指令传递给下位机,通过底层的控制模块实现对AUV的运动控制。

经过步骤S5,本发明的运动规划方法可实现感知-规划-控制的全部过程。

在一些具体的实施方式中,S5可利用python搭建可视化模拟训练环境,并通过pytorch搭建神经网络,完成程序的编写,开始训练。为了避免AUV仅学会在单一环境的策略,而是可以在多种环境下完成任务,模拟训练中,障碍物的位置并不设置为固定不变,而是随机出现在地图范围内。

进一步的,除了AUV到达目标点或与障碍物碰撞导致的回合终止外,为了加快训练,避免AUV在探索过程中陷入死区的状况,训练中可限制每回合的最大步数,当超过此数值时,回合同样结束。

以上步骤中将自交互训练获得的最优策略保存,即保存训练好的神经网络参数,将具体的控制指令传递给下位机来指导AUV的实际航行过程,完成巡检任务,其过程如图7所示。

以上实施例方式是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施方式。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下的改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术分类

06120116187097