一种求解多智能体系统纳什均衡的方法

文献发布时间：2023-06-19 11:26:00

技术领域

本发明涉及一种求解多智能体系统纳什均衡的方法，尤其涉及一种基于无模型和值迭代的求解多智能体系统纳什均衡的方法。

背景技术

多智能体系统是分布式人工智能的一个重要分支，研究的目的在于解决大型、复杂的现实问题，而解决这类问题已超出了单个智能体的能力。而发挥多智能体优势的关键是多智能体系统能保持一致性。多智能体一致性的研究结合图论、博弈论、最优控制和机器学习等领域的研究。基于模型的算法能够在已知的环境模型参数的基础下，处理速度会更快，但是由于涉及系统模型参数的处理，所以会比较复杂。除此以外，现有的技术考虑得现实情况还有很多不足，例如多智能体的通信情况、移动情况、环境等等，所以在未来多智能体系统的一致性算法还有非常大的研究空间。

发明内容

本发明的目的在于提供一种求解多智能体系统纳什均衡的方法，不需要模型的参数信息，降低了对策略评价的过程，以更快的速度求解多智能体系统的纳什均衡。

为了达到上述目的，本发明提供一种求解多智能体系统纳什均衡的方法，包含以下步骤：

步骤S1、根据多智能体系统的值函数给出初始策略

步骤S2、求解值函数

步骤S3、根据值函数的结果来改进策略

步骤S4、判断

所述值函数是基于Q函数设计的：

其中，

给出了最优控制策略即：

则

根据最优控制定理

其中，l代表迭代指数，U代表智能体的值函数，

同理可得

所以

该算法有上界，是具有收敛性的；

同时，值函数的计算基于上一次迭代的值函数，与策略的提升是同步的，因此它的收敛速度快于策略迭代；

本发明具有以下优点：

1、算法是基于无模型的，不需要系统模型的信息。

2、算法是基于值迭代的思维，不用特定设置值函数的初始值和策略值，并且有较快的速度。

附图说明

图1是本发明提供的一种求解多智能体系统纳什均衡的方法的技术效果图。

具体实施方式

以下根据图1具体说明本发明的较佳实施例。

本发明提供一种求解多智能体系统纳什均衡的方法，先设计出智能体的值函数，给出初始策略和初始值，再计算值函数来判断策略的性能，根据值函数结果来改进策略，重复前面所述的步骤，直到达到纳什均衡。

具体包含以下步骤：

步骤S1、根据多智能体系统的值函数给出初始策略

步骤S2、求解值函数

步骤S3、根据值函数的结果来改进策略

步骤S4、判断

在本发明的一个具体实施例中，所设计的值函数是基于Q函数设计的，如下所示：

其中

ε：一致性误差。

μ：智能体的策略。

i,r,y：智能体的编号。

k：时刻。

T：矩阵的转置。

j：智能体i的邻居。

N：智能体i的邻居所组成的集合。

给出了最优控制策略即：

则

根据最优控制定理

l代表迭代指数，U代表智能体的值函数。

同理可得

所以

所以该算法有上界，是具有收敛性的。

同时，值函数的计算基于上一次迭代的值函数，与策略的提升是同步的，因此它的收敛速度快于策略迭代。

图1显示了所有跟随着智能体的跟踪误差动态变换，三条线段代表各个智能体一致性误差的变化曲线。所有误差都逐渐趋近于0，当到达0时，代表多智能体系统的状态达到了一致。

本发明基于无模型的强化学习，不需要模型的参数信息，不拘于环境的限制，同时基于值迭代的思想设计，值迭代是在策略迭代的基础上，降低了对策略评价的过程，旨在求得最佳值函数，也有助于提高求解多智能体系统纳什均衡的速度。

需要说明的是，在本发明的实施例中，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述实施例，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：姜元男;谭拂晓;
专利申请人：上海海事大学;

上一篇：一种室内外两用天线
下一篇：一种快速拆装接头及具有该接头的起落架