掌桥专利:专业的专利平台
掌桥专利
首页

一种基于旋转对称性的多智能体强化学习训练方法

文献发布时间:2024-04-18 19:52:40


一种基于旋转对称性的多智能体强化学习训练方法

技术领域

本发明属于多智能体强化学习技术领域,涉及一种基于旋转对称性的多智能体强化学习训练方法。

背景技术

各种现代人工智能挑战可以被表述为多智能体强化学习(Multiagentreinforcement learning,MARL)问题。随着MARL的发展,在多个任务场景中取得了许多成就,例如多人游戏、交通控制和多机器人等。然而,大多数强化学习(Reinforcementlearning,RL)方法需要使用大量数据训练智能体。在仿真模拟中,由于渲染速度的限制,数据效率对于实现快速实验迭代十分重要。虽然并行和加速的仿真环境使代理能够在合理的时间内解决复杂的任务,但在真实环境中的智能体训练受到物理条件的限制。因此,提高现有MARL方法的样本效率对于理论研究和实践都至关重要。

提高MARL样本效率是指减少环境交互的数量,以便更好地学习智能体的行为策略。最近有些文献提出了许多方法来解决深度强化学习数据效率低下问题。这些方法可以大致分为两类:基于数据增强的方法和基于网络结构设计的方法。具体来说,数据增强在最近的研究中被广泛用于在单智能体RL中生成更多数据样本,但大多数提出的解决方案都集中在基于图像的数据增强。如一种名为RAD的数据增强的强化学习技术对所观察到的图像数据进行裁剪,翻转等操作,使单代理RL的数据效率提高。因此尽管数据增强很重要,但目前MARL中的数据增强方法几乎没有被研究过。在多智能体强化学习中,智能体在每个时刻根据当前状态依据神经网络策略执行动作,智能体之间存在复杂的交互关系,无法简单使用计算机视觉中的数据增强方法,因此基于数据增强的方法虽然会产生足够多的样本,但会大大提高多智能体强化学习算法的计算量。另一种基于网络结构设计的方法通常旨在设计专门的网络架构,隐含地嵌入与给定任务相关的先验知识。多智能体同态网络将多智能体系统的全局对称性集成到神经网络模型中,从而提高数据效率。尽管它们具有显着的效果,但这些方法需要精心设计网络结构。此外,由于潜在的不变性很难隐式编码到神经网络架构中,这类方法通用性差且难以扩展到更复杂的任务中。

发明内容

为了克服现有技术的缺陷,解决多智能体强化学习样本效率低的问题,本发明提出了一种基于旋转对称性的多智能体强化学习训练方法,通过改进多智能体强化学习算法的损失函数,利用多智能体系统的全局对称性,为神经网络的训练提供额外信息,使多智能体强化学习算法在训练的过程中有更高的数据效率和更好的收敛效果,有效促进了多智能体强化学习算法的训练。

本发明提供的一种基于旋转对称性的多智能体强化学习训练方法,包括以下步骤:

步骤1:初始化多智能体的策略网络参数、动作价值网络参数以及对称损失权重。

步骤2:获取每一个智能体在环境中的当前状态,利用每一个智能体的当前策略网络得到每个智能体的动作向量,并执行各自的动作向量;获取执行动作后的奖励以及执行动作后的智能体状态;生成原始样本(s,a,r,s')。

步骤3:获取到足够多的设定数量的原始样本存入经验缓存池。

步骤4:从经验缓存池中随机采集样本,对所采集到的样本执行旋转变换。

步骤5:利用步骤3采集的样本分别对策略网络和动作价值网络进行训练,其中使用基于旋转对称性的新的动作价值网络的损失函数对动作价值函数进行更新。

步骤6:在决策阶段,各个智能体根据本地观测和自身的策略函数来选择动作并输出给环境,从而与环境进行交互。

所述步骤3中,根据多智能体系统的全局对称性,基于原始样本执行旋转变换获得增强样本;设获得原始样本(s,a,r,s'),其中,s为多智能体在环境中的当前状态,a为多智能体的策略网络获得的智能体的动作向量,r和s'分别为各智能体执行各自的动作向量后,获得执行动作后的奖励以及执行动作后的多智能体在环境中的状态;

根据预先设置的旋转角度β得到旋转矩阵

所述步骤5中,计算基于旋转对称性的对称损失,在多智能体强化学习算法的原始动作价值网络的损失基础上增加所述对称损失,获得新的动作价值网络的损失函数L(φ),如下:

L(φ)=L

其中,φ为动作价值网络的参数,L

L

其中,

本发明的一种基于旋转对称性的多智能体强化学习训练方法的优点在于:

(1)传统多智能体强化学习算法忽略了系统自身存在性质,本发明方法基于多智能体系统的旋转对称性,对智能体与环境交互所产生的样本进行变换用于计算对称损失,改进多智能体强化学习的损失函数,在原始损失函数的基础上增加对称损失,提高了样本利用率,提高了多智能体强化学习算法的收敛速度和最终收敛效果。

(2)相比于数据增强方法将额外样本存入经验缓存池,本发明方法在每次训练过程中无需将对称性变换后的增强样本加入经验缓存池,直接在求损失函数时使用对称性变换的样本进行计算,不增加额外的样本量。

(3)由于本发明是对多智能体强化学习训练过程中损失函数的改进,无需任何特定MARL算法设计的假设,是一种即插即用的方法,因此可以嵌入到任何多智能体强化学习算法中,具有十分广泛的应用。

附图说明

图1为多智能体的全局对称性的可视化示例图;

图2为本发明一种基于旋转对称性的多智能体强化学习训练方法的模块结构图;

图3为本发明一种基于旋转对称性的多智能体强化学习训练方法的流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

现有的主流MARL算法忽略了多智能体系统的对称性,而本发明多智能体系统中最普遍的对称性是如图1所示的全局对称性。图1表示一个典型的多智能体导航任务,其中圆形表示智能体,叉表示目标点,智能体的任务是导航到目标点。在强化学习的训练过程中,使用智能体策略π

受多智能体领域中的对称现象的启发,本发明方法提出了一种面向多智能体强化学习的损失函数,该损失函数为神经网络的训练提供额外信息,能够引导多智能体强化学习算法训练的方向,当神经网络的更新方向违背系统对称性时,能够及时调整更新方向,避免多智能体强化学习训练崩溃,从而利用更少的样本达到更好的效果,提高多智能体强化学习算法的数据效率。本发明的一种基于旋转对称性的多智能体强化学习训练方法,是一种即插即用的方法,适用于大多数MARL算法,无需任何特定MARL算法设计的假设。如图2和图3所示,本发明下面分六个步骤来说明。

步骤1:初始化多智能体的策略网络参数、动作价值网络参数以及对称损失权重。

初始化N个智能体策略π

步骤2:获取每一个智能体在环境中的当前状态,利用每一个智能体的当前策略网络得到每个智能体的动作向量,并执行各自的动作向量;获取执行动作后的奖励以及执行动作后的智能体状态。

使用智能体策略π

步骤3:获取到足够数据存入经验缓存池

获取足够多的原始样本(s,a,r,s')存入经验回放池D中。随后在经验回放池中随机采集M组样本(s

步骤4:对所采集到的样本执行旋转变换。

根据系统的全局对称性设计旋转变换L[s]和K

定义矩阵

所述的对状态s的旋转操作计算公式为:

所述的对动作a的旋转操作计算公式为:

采用上述方法获得的增强数据不需要智能体和环境交互。

可以将获得的增强数据存入经验缓存池,以参与下一轮训练。

步骤5:使用多智能体强化学习算法更新智能体策略π

以典型的多智能体强化学习算法MADDPG为例,描述更新过程。

所述的策略网络的损失函数为:

其中

对于动作价值网络

其中L

计算基于旋转对称性的对称损失:

则动作价值网络

L(φ)=L

其中c

多智能体系统中存在对称性是固有存在的,原始的多智能体强化学习算法需要通过智能体与环境交互产生的样本来学习这一性质。本发明方法将多智能体系统的对称性转化为对称损失L

重复步骤4和5将对多智能体的策略网络和动作价值网络执行多轮训练。若增强样本存入经验缓存池中,则在下一轮训练中也将会被采样用来训练多智能体强化学习网络。

步骤6:训练完成后,策略网络参数已确定,在决策阶段,动作价值网络被移除,智能体将根据本地观测输入给自身策略网络来选择动作输出给环境,从而与环境进行交互,与常规的做法无异,此处不再阐述。

自此,本发明实现了在不与环境进行额外交互的前提下计算对称损失来加速训练多智能体强化学习的方法,该方法且可以嵌入到任何主流多智能体强化框架中。

相关技术
  • 一种基于旋转对称性的多智能体强化学习数据增强方法
  • 一种基于PPO算法的强化学习智能体训练方法
技术分类

06120116331857