掌桥专利:专业的专利平台
掌桥专利
首页

基于参数化量子线路的强化学习策略梯度方法

文献发布时间:2023-06-19 16:11:11



技术领域

本发明涉及量子计算技术领域,具体涉及一种基于参数化量子线路的强化学习策略梯度方法。

背景技术

强化学习、监督学习及无监督学习被统称为机器学习的三大范式。在监督学习中,训练一个带标签的数据集,目的是使用该机器学习数据集来确定一个通用规则。在无监督学习中,训练一个未标记的机器学习数据集,目的是通过检查数据点之间存在的关系来得出有关数据底层结构的结论。然而,在强化学习中,没有预先展示的数据集,智能体通常会面对一个最初未知的“环境”(比如迷宫),它必须通过在该环境中选择各种动作来收集数据(例如,在电子游戏中选择两扇门中的哪扇)并观察结果。

因此面对未知的“环境”,智能体如何才能快速地作出奖励最高的动作,并且在面对大量待训练的参数,找到一种减少参数的方法,从而准确、快速地做出决策是急需要解决的问题。

发明内容

本发明是为了解决上述问题而进行的,目的在于提供一种基于参数化量子线路的强化学习策略梯度方法。

本发明提供了一种基于参数化量子线路的强化学习策略梯度方法,具有这样的特征,包括:将智能体的输入状态向量编码为输入状态密度矩阵;将输入状态密度矩阵输入量子决策神经网络进行演化,测量演化结果获得期望值;基于期望值进行损失函数计算与策略梯度更新,训练预定轮数后即得决定动作选择的概率。

本发明提供的方法,还具有这样的特征:其中,量子决策神经网络由量子逻辑门和量子比特构成,量子逻辑门包括参数化泡利旋转门与受控门。

本发明提供的方法,还具有这样的特征,还包括:其中,参数化泡利旋转门包括泡利旋转RX门、泡利旋转RY门和/或泡利旋转RZ门。

本发明提供的方法,还具有这样的特征:其中,任意前后相邻的两个量子比特之间设置有受控门。

本发明提供了另一种基于参数化量子线路的强化学习策略梯度方法,具有这样的特征,包括:将智能体的输入状态向量编码为输入状态密度矩阵;将输入状态密度矩阵输入量子决策神经网络进行演化,测量演化结果获得期望值;将期望值输入全连接层中进行损失函数计算与策略梯度更新,训练预定轮数后即得决定动作选择的概率。

本发明提供的方法,还具有这样的特征其中,将智能体的输入状态编码为输入状态密度矩阵包括:步骤S1,将长度为n的输入状态向量进行归一化,得到输入状态归一化向量;步骤S2,将输入状态归一化向量转变为量子态右矢;步骤S3,将量子态右矢共轭转置得到量子态左矢;步骤S4,将量子态右矢与量子态左矢做外积,即得输入状态向量对应的n*n维输入状态密度矩阵。

本发明提供的方法,还具有这样的特征:其中,量子决策神经网络的演化过程包括:步骤S1,输入参数w与超参数学习率α、奖励折扣γ、更新一次策略所需要的轮数M;步骤S2,初始化参数w并使量子决策神经网络π与环境进行交互,循环执行M轮后,输出M个长度为T的轨迹数据;步骤S3,基于长度为T的轨迹数据计算第m轮中t时刻的折扣奖励

本发明提供的方法,还具有这样的特征:其中,步骤S2中第m轮中长度为T的轨迹数据如下:

本发明提供的方法,还具有这样的特征:折扣奖励

其中,

本发明提供的方法,还具有这样的特征:其中,更新参数w通过如下公式进行更新:

发明的作用与效果

根据本发明所提供的基于参数化量子线路的强化学习策略梯度方法,因为该方法将输入状态密度矩阵输入至量子决策神经网络进行演化,从而输出决定动作对应的概率,因此,该方法相比传统的强化学习策略梯度算法需要训练的参数大幅减少,对于损失函数的选取更加灵活多变,易于进行参数优化,同时增加了智能体的优化方向。

根据本发明所提供的另一基于参数化量子线路的强化学习策略梯度方法,因为该方法提供的量子-经典混合架构的决策器相比经典的神经网络使得需要训练的参数减少、训练速度明显提升,同时设置全连接层可以使得输出动作的输出维度可调,灵活性更强。

附图说明

图1是本发明的实施例一中基于参数化量子线路的强化学习策略梯度方法的总流程图;

图2是本发明的实施例一中输入状态密度矩阵的获取流程图;

图3是本发明的实施例一中环境和智能体交互的过程示意图;

图4是量子决策神经网络对应的参数化量子线路的结构示意图;

图5是本发明的实施例一中基于参数化量子线路的强化学习策略梯度方法的训练过程示意图;

图6是本发明的实施例二中基于参数化量子线路的强化学习策略梯度方法的总流程图;

图7是图6中的量子决策神经网络对应的参数化量子线路的结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明基于参数化量子线路的强化学习策略梯度方法作具体阐述。

<实施例一>

图1是本发明的实施例一中基于参数化量子线路的强化学习策略梯度方法的总流程图。

如图1所示,本发明的实施例中基于参数化量子线路的强化学习策略梯度方法包括如下步骤:

步骤S1,将智能体的输入状态向量编码为输入状态密度矩阵。

图2是本发明的实施例一中输入状态密度矩阵的获取流程图。

如图2所示,输入状态密度矩阵的获取包括如下步骤:

步骤S1-1,将长度为n的输入状态向量进行归一化,得到输入状态归一化向量。

步骤S1-2,将输入状态归一化向量转变为复数形式,即得对应的n*1维量子态右矢。

步骤S1-3,将量子态右矢共轭转置得到1*n维量子态左矢。

步骤S1-4,将n*1维量子态右矢与1*n维量子态左矢做外积,即得输入状态向量对应的n*n维输入状态密度矩阵。

步骤S2,将输入状态密度矩阵输入量子决策神经网络进行演化,测量演化结果获得期望值。

图3是本发明的实施例一中环境和智能体交互的过程示意图。

如图3所示,图中Enviroment(环境)与Agent(智能体)交互过程可大体描述为:环境通过设置不同的状态s(States)并传输给Agent,Agent基于环境的每一个状态s做出对应的a(Action),环境基于Agent执行的每一个动作a给于Agent一个奖励r(Reward),重复交互至最后一个状态s,从而最终输出Argmax a(概率最大的动作)。

图4是实施例一中量子决策神经网络对应的参数化量子线路的结构示意图。

如图4所示,本发明实施例提供的量子决策神经网络(量子线路)由量子逻辑门和量子比特构成,量子逻辑门包括参数化泡利旋转门与受控门。

其中,参数化泡利旋转门包括泡利旋转RX门、泡利旋转RY门和/或泡利旋转RZ门,参数化泡利旋转门用于提供量子线路可学习的参数,受控门用于量子纠缠。本实施例中共设有四个量子比特,分别对应四条量子线路,每条量子线路的相同位置摆放有相同参数化泡利旋转门,并且在前后相邻的两条量子线路之间设置有受控门。在量子线路中,通过对输入状态密度矩阵进行演化,多次重复测量演化结果获得期望值。

本实施例中,量子决策神经网络的演化过程包括如下步骤:

步骤S2-1,输入参数w与超参数学习率α、奖励折扣γ、更新一次策略所需要的轮数M。

步骤S2-2,初始化参数w并使量子决策神经网络π与环境进行交互,循环执行M轮后,输出M个长度为T的轨迹数据。

其中,步骤S2-2中第m轮中长度为T的轨迹数据如下:

步骤S2-3,基于长度为T的轨迹数据计算第m轮中t时刻的折扣奖励

其中,折扣奖励

规整化奖励

其中,

步骤S2-4,基于折扣奖励

步骤S2-5,基于学习率α、规整化奖励

其中,步骤S2-5中更新参数w通过如下梯度更新公式进行更新:

进一步地,梯度更新公式中的

步骤S3,基于期望值进行损失函数计算与策略梯度更新,训练预定轮数后即得决定动作选择的概率。

图5是本发明的实施例一中基于参数化量子线路的强化学习策略梯度方法的训练过程示意图。

如图5所示,将环境给予的输入状态编码为量子状态(Quantum State),即通过量子线路中的U

实施例一的作用与效果

根据本实施例一所提供的基于参数化量子线路的强化学习策略梯度方法,因为该方法将输入状态密度矩阵输入至量子决策神经网络进行演化,从而输出决定动作对应的概率,因此,该方法相比传统的强化学习策略梯度算法需要训练的参数大幅减少,并且增加了智能体的优化方向。

<实施例二>

图6是本发明实施例二中基于参数化量子线路的强化学习策略梯度方法的流程图。

如图6所示,本发明实施例二提供的基于参数化量子线路的强化学习策略梯度方法与实施例一类似,区别仅在于步骤S3。本实施例中步骤S3为:将步骤S2获取的期望值输入全连接层中进行损失函数计算与策略梯度更新,训练预定轮数后即得决定动作选择的概率。

图7是图6中的量子决策神经网络对应的参数化量子线路的结构示意图。

如图7所示,本实施例二提供的参数化量子线路的结构与实施例一类似,区别仅在于本实施例将参数化量子线路输出的期望值多次测量后输入全连接层进行线性变换,因此,本实施例提供的量子-经典混合架构的决策器相比经典的神经网络使得需要训练的参数减少、训练速度明显提升,同时输出维度可调,灵活性更强。对于与实施例一中图4相同的部分,本实施例在此不再赘述。

进一步地,对于存储有计算机程序的存储介质,该计算机程序可以被设置为运行时执行本实施例一、二提供的基于参数化量子线路的强化学习策略梯度方法。

进一步地,对于包含存储器和处理器的电子产品,该存储器中存储有计算机程序,并且该处理器被设置为运行其存储的计算机程序以执行本实施例一、二提供的基于参数化量子线路的强化学习策略梯度方法。

上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。

相关技术
  • 基于参数化量子线路的强化学习策略梯度方法
  • 一种基于策略梯度强化学习的智能任务调度策略训练方法
技术分类

06120114738569