掌桥专利:专业的专利平台
掌桥专利
首页

面向模块船运动特性分析的深度强化学习黑箱辨识方法

文献发布时间:2023-06-19 19:30:30


面向模块船运动特性分析的深度强化学习黑箱辨识方法

技术领域

本发明属于船舶运动建模及船舶模型参数辨识技术领域,尤其涉及面向模块船运动特性分析的深度强化学习黑箱辨识方法。

背景技术

随着船舶智能化以及集成技术的发展,船舶上配置了越来越多的电子传感设备。模块船是指将船舶设备和传感器按功能或层次体系分解成若干有接口关系的相对独立单元,再按照标准化、通用化、系列化、组合化的设计以不同的方式组合成完整的船舶。模块化船的应用具有多样性,能够根据不同的环境和任务需求搭载不同的传感器设备,提高了船舶的扩展性和灵活性。

运动特性分析是实现船舶自主航行的关键技术之一,同时,也是一个极其复杂的问题。船舶运动会受到风浪流等环境因素的干扰而具有不确定性和非线性,虽然现有六自由度模型可以用来描述船舶运动,但是其参数过多,且各自由度存在相互耦合的情况,船舶参数难以确定。此外,模块船舶自身的运动特性,如不同模块组装带来的结构变化、船舶配载变化、动力系统响应特性等均会影响运动特性的分析与抽象表达,并且存在较为明显变化性。这些相较于常规一体船舶,会使得构建精准的模块船运动模型更为困难。

现有技术的方法,至少存在如下技术问题:为实现模块船准确且鲁棒的运动特性辨识,需要确定可精确描述模块船运动的模型,包括模型结构的确定,以及模型参数的估算。确定船舶运动模型的常规方法是基于牛顿第二运动定律,用12个微分方程描述6个自由度的船舶运动,然后根据龙格库塔、泰勒展开等数学方法表示作用在船舶上的力和力矩。这种方法虽然能准确描述船舶的操纵运动,但在6自由度方程中有大量的参数需要确定,这会极大地增加模型的计算量,多个参数的漂移现象和共线性使得参数不可估或不准确。同时,由于模块船上各种模块传感器的安装与移动,将会导致船舶吃水以及载荷发生变化,从而导致船舶运动模型发生改变,使得现有模型无法准确描述当前船舶运动状态。在目前确定模型参数的主流方法中,数据库或经验公式法受船型影响较大,应用受到限制;约束模试验法需要专门的测试设施,费时费力,而且存在“尺度效应”问题;理论与数值计算方法计算所有的水动力导数比较困难,且不能满足所需要的工程精度;而在辨识测量技术不断发展的今天,基于船模试验和自由航行试验的系统辨识方法是一种最实用有效的方法。但目前针对模块船的系统辨识方法中的白箱模型由于其参数固定,无法适应载荷条件发生变化的情况,且存在参数抵消效应、参数漂移等问题。由此可知,现有技术中的方法存在高度依赖数学模型、系统建模复杂和忽略装载情况改变的技术问题。因此,极有必要针对模块船运动建模提出一种创新方法。

发明内容

本发明的目的在于提供面向模块船运动特性分析的深度强化学习黑箱辨识方法,旨在解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

面向模块船运动特性分析的深度强化学习黑箱辨识方法,包括以下步骤:

步骤S1:根据模块船运动坐标系以及模块船的运动描述,确定六自由度模块船运动模型;

步骤S2:根据确定出的六自由度模块船运动模型以及模块船运动特性,获得用以描述模块船运动特性的平面三自由度运动模型;

步骤S3:根据预设高精确度模块船运动模型,模拟模块船操纵运动,并结合传感器移动情况下模块船运动模型结构变化特点,选取深度强化算法为辨识方法;

步骤S4:根据深度强化学习算法对模块化船舶运动的模型进行辨识,得到辨识结果;

步骤S5:根据预设的评价标准,从辨识结果中选择准确率最高的黑箱模型作为目标三自由度模块船运动特性分析模型。

进一步的,所述步骤S1中,选取向量形式的六自由度船舶运动模型为基础,根据牛顿第二运动定律,船舶动力学模型表示为:

其中,

模块船六自由度运动模型表示为:

其中,

其中,

进一步的,所述步骤S2中,用以描述其运动特性的平面三自由度运动模型表示为:

其中,

进一步的,所述步骤S3中,选取深度强化算法中的DDPG算法为辨识方法,DDPG算法包括Actor网络、Critic网络、Target Actor网络和Target Critic网络。

进一步的,在训练阶段,从Replay Buffer中采样一个批次的模块船运动数据,采样到的数据为(

利用Target Actor网络计算出状态

利用Target Critic网络计算出状态动作对(

利用 Critic网络计算出状态动作对(

利用梯度下降算法最小化模块船运动预测数据与模块船运动真实数据之间的差值

进一步的,所述Actor网络的更新过程为:

利用Actor网络计算出状态

利用Critic网络计算出状态动作对(

利用梯度上升算法最大化累积期望回报

进一步的,所述DDPG算法采用软更新方式对目标网络进行更新,具体为:

Target Actor网络的更新过程:

Target Critic网络的更新过程:

其中,

进一步的,所述步骤S4中,模块船运动动力学建模中,输入包括当前时间步的状态变量和控制变量,输出包括下一时间步的状态变量,具体描述为:

其中,

根据公式遵循非线性映射的函数,函数用作待识别的黑箱模型:

其中u、v、r分别表示模块船的纵荡速度、横荡速度和转艏角速度;

进一步的,所述步骤S4中,辨识结果包括三自由度模块船运动特性纵荡速度、横荡速度、转艏角速度和经纬度坐标。

进一步的,所述步骤S5 的具体操作为:

将提取出的建模所需模块船运动数据分为输入-输出两组,其中,输入量包括转艏角速度、横向速度、纵向速度、经纬度坐标、命令舵角和传感器的数量,输出量包括转艏角速度、横向速度、纵向速度和经纬度坐标;

将对应于各运动模型的输入量和输出量输入给深度强化学习黑箱模型,利用所用模块船运动的输入-输出数据和深度强化学习黑箱辨识算法对各三自由度运动模型进行辨识,并对简化运动模型进行辨识;

对比分析所有结果,根据评价标准,选取精确度最高的模型为最理想的简化三自由度模块船运动特性黑箱辨识模型。

与现有技术相比,本发明的有益效果是:

1、本发明在模块化船舶六自由度运动模型的基础上,通过仿真实验研究,推导出描述模块化船舶平面运动的三自由度模型。该简化模型具有复杂度低、精度高的特点,对描述多模块船的运动具有良好的适用性,可以节省实验设计和实施的费用,节约成本,对船舶建模效率高。

2、本发明采用了深度强化学习算法,建立了一种黑箱模型,不依赖数学模型和物理知识,具有实时调整的非参数性能,能有效应对船舶在受到外界干扰时运动模型产生的变化,确保辨识结果的最优性和准确性。

3、本发明考虑了模块船由于其传感器设备的扩展性和灵活性,在移动过程中对模块船产生吃水和纵倾改变的情况,将传感器纳为模块船运动模型的组成部分,更能灵活应对因模块船运动模型改变而产生的不同状态。

附图说明

图1为本发明的流程图。

图2为本发明实施例中建模方法的实现流程图。

图3为本发明实施例的船舶运动参考坐标系示意图。

图4为本发明实施例的船舶运动平面坐标系示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

本发明一个实施例提供的面向模块船运动特性分析的深度强化学习黑箱辨识方法,包括以下步骤:

S1:根据模块船运动坐标系以及模块船的运动描述,确定六自由度模块船运动模型;

S2:根据确定出的六自由度模块船运动模型以及模块船运动特性,获得用以描述模块船运动特性的平面三自由度运动模型;

S3:根据预设高精确度模块船运动模型,模拟模块船操纵运动,并结合传感器移动情况下模块船运动模型结构变化特点,选取深度强化算法为辨识方法;

S4:根据设计的深度强化学习算法对模块化船舶运动的模型进行辨识,得到辨识结果;

S5:根据预设的评价标准,从辨识结果中选择准确率最高的黑箱模型作为目标三自由度模块船运动特性分析模型。

作为本发明的一种优选实施例,所述步骤S1中,选取向量形式的六自由度船舶运动模型为基础,根据牛顿第二运动定律,船舶动力学模型表示为:

其中,

模块船六自由度运动模型表示为:

其中,

其中,

在本发明实施例中,优选的,模块船的运动状态描述主要包括纵荡、横摇、横荡、纵摇、艏摇和垂荡6种,并且使用地球固定坐标系、船载坐标系和惯性坐标系来进行描述。其中,对于地球固定坐标系,x轴,y轴和z轴指向定义为:x轴指向真北,y轴指向东,z轴垂直于地球表面;船载坐标系是指随模块化船舶运动的坐标系,通常假设其作用中心位置与模块化船舶水面线中心线的中心位置相同;轴线x

表1

基于MMG分离模型的思想,选取向量形式的六自由度船舶运动模型为基础。

作为本发明的一种优选实施例,所述步骤S2中,用以描述其运动特性的平面三自由度运动模型表示为:

其中,

在本发明实施例中,三自由度船舶运动模型可描述为:

其中,

为了简化模块船运动模型,忽略模块船六自由度运动模型中作用不明显的项,本实施方式中做以下合理假设:

(1)模块船质量均匀分布,且左右对称;

(2)模块船重心位置为船载坐标系圆心位置;

(3)作用于模块船的重力和浮力作用点重合;

(4)只考虑模块船水平面纵荡、横荡和艏摇运动,认为垂荡、横摇和纵摇运动对纵荡、横荡和艏摇运动的耦合作用效果甚微,甚至可不予考虑。

根据以上假设,结合模块船运动的特点,将六自由度运动简化为三自由度运动,得到用以描述其运动特性的平面三自由度运动模型。

作为本发明的一种优选实施例,所述步骤S3中,选取深度强化算法中的DDPG算法为辨识方法,DDPG算法包括Actor网络、Critic网络、Target Actor网络和Target Critic网络。

在本发明实施例中,DDPG算法是提出的一种专门用于解决连续控制问题的在线式深度强化学习算法,也是Actor-Critic (AC) 框架下的一种在线式深度强化学习算法,算法内部包括Actor网络和Critic网络,每个网络分别遵从各自的更新法则进行更新,从而使得累计期望回报最大化。

具体而言,DDPG算法主要包括以下三个关键技术:

(1)经验回放:智能体将得到的模块船运动数据(

经验回放就是一种让概率分布变得稳定的技术,可以提高训练的稳定性。经验回放主要有“存储”和“回放”两大关键步骤:存储:将模块船运动数据(

(2)目标网络:在Actor网络和Critic网络外再使用一套用于估计模块船的TargetActor网络和Target Critic网络。在更新网络时,为了避免参数更新过快,采用软更新的方式。

由于DDPG算法是基于AC框架,因此算法中必然含有Actor和Critic网络。另外每个网络都有其对应的目标网络,所以DDPG算法中包括四个网络,分别是Actor网络:

(3)噪声探索:确定性策略输出的动作为确定性动作,缺乏对外界环境的探索。在训练阶段,给Actor网络输出的模块船运动预测数据动作加入噪声,从而让智能体具备一定的探索能力。采用服从正态分布的噪声来添加进Actor网络的输出的动作中。噪声只加在训练阶段Actor网络输出的动作上,因为只需要在训练阶段让智能体具备探索能力。

作为本发明的一种优选实施例,在训练阶段,从Replay Buffer中采样一个批次的模块船运动数据,采样到的数据为(

利用Target Actor网络计算出状态

计算出模块船运动动作后不需要加入噪声。利用Target Critic网络计算出状态动作对(

利用 Critic网络计算出状态动作对(

利用梯度下降算法最小化模块船运动预测数据与模块船运动真实数据之间的差值

作为本发明的一种优选实施例,所述Actor网络的更新过程为:

利用Actor网络计算出状态

计算出模块船运动动作后不需要加入噪声。利用Critic网络计算出状态动作对(

利用梯度上升算法最大化累积期望回报

作为本发明的一种优选实施例,所述DDPG算法采用软更新方式对目标网络进行更新,具体为:

Target Actor网络的更新过程:

Target Critic网络的更新过程:

其中,

在本发明实施例中,对于目标网络的更新,DDPG算法中采用软更新方式,也可以称为指数平均移动 (Exponential Moving Average, EMA)。即引入一个学习率

深度强化学习算法伪代码如下:

算法:DDPG算法

输入:初始化Critic网络

初始化记忆库

对于每一条轨迹,

初始化一个随机过程

获得初始化状态

对于轨迹中的每一步,

根据当前策略和探索噪声,获得行为

执行行为

将状态转换序列

onlineQ网络(Critic)的一小批训练数据。

令:

通过最小化损失函数

通过计算样本策略梯度

通过滑动平均更新目标网络参数

单条轨迹结束,循环结束

M条轨迹结束,循环结束

输出:最优网络参数

作为本发明的一种优选实施例,所述步骤S4中,模块船运动动力学建模中,输入包括当前时间步的状态变量和控制变量,输出包括下一时间步的状态变量,具体描述为:

/>

其中,

根据公式遵循非线性映射的函数,函数用作待识别的黑箱模型:

其中u、v、r分别表示模块船的纵荡速度、横荡速度和转艏角速度;

作为本发明的一种优选实施例,所述步骤S4中,辨识结果包括三自由度模块船运动特性纵荡速度、横荡速度、转艏角速度和经纬度坐标。

在本发明实施例中,建模所需数据包括三自由度模块船运动特性纵荡速度u、横荡速度v、转艏角速度r、经纬度坐标x y、命令舵角

作为本发明的一种优选实施例,所述步骤S5 的具体操作为:

将提取出的建模所需模块船运动数据分为输入-输出两组,其中,输入量包括转艏角速度、横向速度、纵向速度、经纬度坐标、命令舵角和传感器的数量,输出量包括转艏角速度、横向速度、纵向速度和经纬度坐标;

将对应于各运动模型的输入量和输出量输入给深度强化学习黑箱模型,利用所用模块船运动的输入-输出数据和深度强化学习黑箱辨识算法对各三自由度运动模型进行辨识,并对简化运动模型进行辨识;

对比分析所有结果,根据评价标准,选取精确度最高的模型为最理想的简化三自由度模块船运动特性黑箱辨识模型。

以上仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些均不会影响本发明实施的效果和专利的实用性。

技术分类

06120115938333