掌桥专利:专业的专利平台
掌桥专利
首页

一种面向智能体视觉控制的迁移强化学习系统

文献发布时间:2024-04-18 20:00:50


一种面向智能体视觉控制的迁移强化学习系统

技术领域

本公开涉及计算机人工智能技术领域,具体地,涉及一种面向智能体视觉控制的迁移强化学习系统。

背景技术

强化学习是一种机器学习方法,涉及一个智能体与环境之间的交互,智能体通过在环境中采取一系列动作来实现特定的目标,同时根据环境的反馈信号来学习并优化其行为策略。一类有模型的强化学习方法为先对环境动态进行建模,以便在模拟环境中,非实际环境中进行行为规划和策略优化。对于视觉图像这一高维输入,强化学习需要先通过表示学习的方法从输入的视觉图像中提取表示,以将高维图像降维到低维状态向量。因此,能否准确地对环境动态进行建模,以及是否能够提取出有助于完成强化学习任务的图像表示,是强化学习代理能否取得优秀表现的重要因素。

在离线数据集上进行预训练,并使用预训练得到的模型再在线环境中进行微调,是一种提高强化学习算法数据效率的有效方法。具体来说,给定一系列离线数据集,离线预训练阶段会在不与环境交互的条件下,在这些离线数据集数据上学习一个预训练模型。根据训练模型的需要,离线数据集能够包括图像、动作等用于对世界模型训练的基础信息,也能够包含奖励信息以用于奖励预测器的训练。

在传统意义上,预训练-微调的架构能够提高模型在微调阶段的数据效率和数据表现,其为两个阶段设计了兼容的模型结构,并使得预训练阶段得到的预训练模型能够被直接加载到微调阶段作为初始模型。但是,传统的预训练-微调架构需要保证采用的离线数据集与在线环境之间没有较大的域差异,否则,预训练得到的模型会严重依赖于源域环境的动态,而无法较好地扩展到在线的目标域任务上,从而导致模型在在线任务上的表现更差。

随着迁移强化学习的发展,依靠知识迁移来解决强化学习中域差异成为了较好的解决方案。但是,由于这些方案通常以源域和目标域之间的域差异为主要着眼点,其在面临离线数据集中包含多个源域数据的情况时表现也会下降。近年的一些方法中,通过在预训练阶段去除离线数据集的动作标签来提升预训练模型的泛化性能,但不考虑动作的方法实际上丢失了潜在的与控制任务相关的信息,不利于所述世界模型的学习。

发明内容

针对现有技术中的缺陷,本公开的目的是提供一种一种面向智能体视觉控制的迁移强化学习系统。

为实现上述目的,根据本公开的一个方面,提供一种面向智能体视觉控制的迁移强化学习系统,包括:

教师模型预训练模块,采用源域动作离线视频数据对教师模型进行模型训练,确定完成模型训练的所述教师模型;

学生模型训练模块,采用智能体与环境的在线交互数据对学生模型进行模型训练,并将所述完成模型训练的所述教师模型迁移至所述学生模型训练模块对所述学生模型进行辅助训练,确定完成模型训练的所述学生模型,将目标域任务的视觉图像作为所述完成模型训练的学生模型的输入,输出执行目标域任务的动作。

可选地,所述教师模型预训练模块包括:

第一隐空间特征提取模块,用于将所述源域动作离线视频数据的视频帧图像作为输入,输出所述源域动作离线视频数据的视频帧图像对应的低维隐空间特征;

第一环境动态模拟模块,用于将所述源域动作离线视频数据的视频帧图像对应的低维隐空间特征和所述源域动作离线视频数据中的动作作为输入,输出预测的源域的下一时间步对应的低维隐空间特征和第一预测误差;

第一视频预测模块,用于将所述预测的源域的下一时间步对应的低维隐空间特征作为输入,输出重建的源域的下一时间步的视频帧图像和第一图像重建误差;

第一预训练模块,用于将所述第一预测误差和所述第一图像重建误差作为输入,通过梯度反向传播对所述教师模型进行模型训练,输出完成模型训练的所述教师模型。

可选地,所述第一环境动态模拟模块包括第二编码器和第一门控循环单元,所述第一门控循环单元用于提取所述预测的源域的下一时间步对应的低维隐空间特征的先验分布,所述第二编码器用于提取所述预测的源域的下一时间步对应的低维隐空间特征的后验分布。

可选地,所述第一环境动态模拟模块还用于根据所述预测的源域的下一时间步对应的低维隐空间特征的先验分布和所述预测的源域的下一时间步对应的低维隐空间特征的后验分布之间的相似度,确定所述第一预测误差。

可选地,所述学生模型训练模块包括:

在线数据采集模块,用于将目标域的智能体的动作作为输入,输出所述智能体与环境的在线交互数据,所述智能体与环境的在线交互数据包括当前时刻环境的视觉观测、所述智能体的动作、执行所述智能体的动作的奖励值、下一时间步环境的视觉观测;

第二隐空间特征提取模块,用于将所述智能体与环境的在线交互数据作为输入,输出当前时刻环境的视觉观测的图像对应的低维隐空间特征;

第二环境动态模拟模块,用于将所述当前时刻环境的视觉观测的图像、所述当前时刻环境的视觉观测的图像对应的低维隐空间特征、所述智能体的动作作为输入,输出预测的目标域的下一时间步对应的低维隐空间特征的后验分布和源域重要性权重;

第二视频预测模块,用于将所述预测的目标域的下一时间步对应的低维隐空间特征的后验分布作为输入,输出重建的所述当前时刻环境的视觉观测的图像和第二图像重建误差;

奖励预测模块,用于将所述预测的目标域的下一时间步对应的低维隐空间特征的后验分布作为输入,输出重建所述当前时刻环境的视觉观测的图像的奖励和奖励重建误差;

行为策略模块,用于将所述源域动作离线视频数据、所述当前时刻环境的视觉观测的图像、所述源域重要性权重作为输入,输出所述智能体当前时刻的执行动作。

可选地,所述第二环境动态模拟模块包括第二门控循环单元和第四编码器,所述第二门控循环单元用于提取所述预测的目标域的下一时间步对应的低维隐空间特征的先验分布,所述第四编码器用于提取所述预测的目标域的下一时间步对应的低维隐空间特征的后验分布,所述第二环境动态模拟模块还用于根据所述预测的目标域的下一时间步对应的低维隐空间特征的先验分布和所述预测的目标域的下一时间步对应的低维隐空间特征的后验分布之间的相似度,确定第二预测误差。

可选地,所述第二环境动态模块还包括基于迁移学习的源域动态蒸馏模块,将所述完成模型训练的所述教师模型、所述当前时刻环境的视觉观测的图像、所述智能体的动作、所述预测的下一时间步对应的低维隐空间特征的后验分布作为输入,输出蒸馏损失和所述源域重要性权重。

可选地,所述行为策略模块包括:

辅助动作生成模块,用于将所述源域重要性权重、所述源域动作离线视频数据、所述当前时刻环境的视觉观测的图像作为输入,输出辅助动作信息;

策略函数预测模块,用于将所述第二环境动态模拟模块提取的所述预测的目标域的下一时间步对应的低维隐空间特征的后验分布与所述辅助动作信息的融合特征作为输入,输出所述智能体当前时刻执行动作的概率分布;

值函数预测模块,用于将所述第二环境动态模拟模块提取的所述预测的目标域的下一时间步对应的低维隐空间特征的后验分布作为输入,输出所述智能体在当前状态的价值的预测值。

可选地,所述辅助动作生成模块包括:

第五编码器,用于将所述源域动作离线视频数据作为输入,输出编码正态分布的均值和方差;

解码器,用于将所述当前时刻环境的视觉观测的图像、所述编码正态分布的均值和方差作为输入,输出所述辅助动作信息和所述第五编码器的训练误差。

可选地,所述第三编码器和所述解码器采用所述源域动作离线视频数据中具有最大源域重要性权重的动作视频数据进行训练处理。

与现有技术相比,本公开实施例具有如下至少一种有益效果:

通过上述技术方案,本公开的教师预训练模块采用源域动作离线视频数据对教师模型进行模型训练,学生模型训练模块采用智能体与环境的在线交互数据对学生模型进行模型训练,并将完成模型训练的教师模型迁移至学生模型训练模块对学生模型进行辅助训练,通过已有的源域动作离线视频数据辅助在线目标域智能体的学习,有效缓解离线域与在线域之间的域差异,提高目标域智能体解决任务的表现。

本公开通过采用迁移方法解决强化学习过程中的域差异问题,并在教师模型预训练模块的第一环境动态模拟模块和学生预训练模块的第二环境动态模拟模块中保留动作信息,提高环境动态建模的精确度。

本公开采用具有源域选择的迁移方式,在学生模型训练过程中,动态调整不同源域对目标域学生模型中的第二环境动态模拟模块和行为策略模块迁移的贡献程度,较好处理源域动作离线视频数据中包含多种源域的情况,提升在线学习阶段的学习质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:

图1是根据一示例性实施例示出的一种面向智能体视觉控制的迁移强化学习系统的整体框图。

图2是根据一示例性实施例示出的一种教师模型预训练模块的示意图。

图3是根据一示例性实施例示出的一种学生模型训练模块的工作示意图。

具体实施方式

下面结合具体实施例对本公开进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本公开,但不以任何形式限制本公开。应当指出的是,对本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进。这些都属于本公开的保护范围。

图1是根据一示例性实施例示出的一种面向智能体视觉控制的迁移强化学习系统的整体框图。如图1所示,本公开提供一种面向智能体视觉控制的迁移强化学习系统,包括教师模型预训练模块和学生模型训练模块。

教师模型预训练模块,采用源域动作离线视频数据对教师模型进行模型训练,确定完成模型训练的教师模型。

其中,教师模型包括第一卷积编码器、第一循环状态空间模型和第一卷积解码器。

其中,源域动作离线视频数据可以包括多个源域上的离线带动作视频数据,并且,离线带动作视频数据为由不同时刻的视频帧和不同时刻的视频帧对应的动作组成的二元组信息(o’)。针对不同的源域上的离线带动作视频数据,可以训练多个教师模型,以捕捉不同源域的动态信息。

学生模型训练模块,采用智能体与环境的在线交互数据对学生模型进行模型训练,并将完成模型训练的教师模型迁移至学生模型训练模块对学生模型进行辅助训练,确定完成模型训练的学生模型,将目标域任务的视觉图像作为完成模型训练的学生模型的输入,输出执行目标域任务的动作。

其中,学生模型包括第二卷积编码器、第二循环状态空间模型、第二卷积解码器以及行为模型。

通过上述技术方案,本公开的教师预训练模块采用源域动作离线视频数据对教师模型进行模型训练,学生模型训练模块采用智能体与环境的在线交互数据对学生模型进行模型训练,并将完成模型训练的教师模型迁移至学生模型训练模块对学生模型进行辅助训练,通过已有的源域动作离线视频数据辅助在线目标域智能体的学习,有效缓解离线域与在线域之间的域差异,提高目标域智能体解决任务的表现。

图2是根据一示例性实施例示出的一种教师模型预训练模块的示意图。

如图2所示,在一种可能的实施例中,教师模型预训练模块包括:第一隐空间特征提取模块、第一环境动态模拟模块、第一视频预测模块、第一预训练模块。

第一隐空间特征提取模块,用于将源域动作离线视频数据的视频帧图像作为输入,输出源域动作离线视频数据的视频帧图像对应的低维隐空间特征。

其中,第一隐空间特征提取模块包括第一编码器(Enc

第一环境动态模拟模块,用于将源域动作离线视频数据的视频帧图像对应的低维隐空间特征和源域动作离线视频数据中的动作作为输入,输出预测的源域的下一时间步对应的低维隐空间特征和第一预测误差。

其中,第一环境动态模拟模块用于建模环境动态。

第一环境动态模拟模块包括第二编码器(Enc

其中,采用第一门控循环单元(GRU

其中,

采用第二编码器(Enc

z

其中,z

第一环境动态模拟模块还用于根据预测的源域的下一时间步对应的低维隐空间特征的先验分布和预测的源域的下一时间步对应的低维隐空间特征的后验分布之间的相似度,确定第一预测误差。

在本公开中,采用源域的先验分布和后验分布之间的相对熵衡量源域的先验分布和后验分布之间的距离。

第一视频预测模块,用于将预测的源域的下一时间步对应的低维隐空间特征作为输入,输出重建的源域的下一时间步的视频帧图像和第一图像重建误差。

其中,第一视频预测模块用于从低维空间重建图像。

示例地,第一视频预测模块包括线性层和二维逆卷积层,其中,第一视频预测模块可以包括多层二维逆卷积层,例如四层。

线性层,用于提取图像重建的特征向量,将预测的源域的下一时间步对应的低维隐空间特征作为输入,输出图像重建的特征向量。

二维逆卷积层用于从线性层所提取的图像重建的特征向量中重建图像,将图像重建的特征向量作为输入,输出重建图像。

第一预训练模块,用于将第一预测误差和第一图像重建误差作为输入,通过梯度反向传播对教师模型进行模型训练,输出完成模型训练的教师模型。

在一种可能的实施例中,对教师模型进行模型训练的方法,包括:

采用第一编码器对输入的特定的源域的源域动作离线视频数据的视频帧图像进行编码,确定特定的源域的源域动作离线视频数据的视频帧图像在隐空间中的隐状态向量表示;

采用第一循环状态空间模型预测源域的下一时间步对应的隐状态向量的先验分布和源域的下一时间步对应的隐状态向量的后验分布,并将该先验分布和后验分布之间的相对熵作为第一预测误差;

从预测的源域的下一时间步对应的隐状态向量的后验分布中提取源域的下一时间步对应的隐状态向量,并将源域的下一时间步对应的隐状态向量输入第一卷积解码器中,确定重建的源域的下一时间步的视频帧图像,并将重建的源域的下一时间步的视频帧图像的负对数似然作为第一图像重建误差;

根据第一预测误差和第一图像重建误差确定总优化目标,并根据总优化目标,采用反向传播方式对教师模型进行模型训练,输出完成模型训练的教师模型。

图3是根据一示例性实施例示出的一种学生模型训练模块的工作示意图。

在一种可能的实施例中,如图3所示,学生模型训练模块包括:在线数据采集模块、第二隐空间特征提取模块、第二环境动态模拟模块、第二视觉预测模块、奖励预测模块、行为预测模块。

在线数据采集模块,用于将目标域的智能体的动作作为输入,输出智能体与环境的在线交互数据,智能体与环境的在线交互数据包括当前时刻环境的视觉观测、智能体的动作、执行智能体的动作的奖励值、下一时间步环境的视觉观测。

其中,在线数据采集模块通过智能体在目标域任务所制定的动作空间选择动作并执行,实现目标域的智能体与环境的在线交互,采集智能体与环境的在线交互数据并存储至经验回放。

在线环境会根据智能体的动作以及当前时刻环境的视觉观测,确定下一时间步的环境的视觉观测以及智能体的动作的奖励值。

智能体与环境的在线交互数据为四元组信息(o,a,r,o’),其中,o表示当前时刻环境的视觉观测,a表示智能体的动作,r表示智能体的动作的奖励值,o’表示下一时间步环境的视觉观测。

第二隐空间特征提取模块,用于将智能体与环境的在线交互数据作为输入,输出当前时刻环境的视觉观测的图像对应的低维隐空间特征。

其中,第二隐空间特征提取模块包括第三编码器(Enc

第二环境动态模拟模块,用于将当前时刻环境的视觉观测的图像、当前时刻环境的视觉观测的图像对应的低维隐空间特征、智能体的动作作为输入,输出预测的目标域的下一时间步对应的低维隐空间特征的后验分布和源域重要性权重。

其中,第二环境动态模拟模块,用于模拟环境的动态,即在线环境的状态转移。

在一种可能的实施例中,第二环境动态模拟模块包括第二门控循环单元(GRU

第二门控循环单元(GRU

其中,

第四编码器(Enc

z

其中,z

第二环境动态模拟模块还用于根据预测的目标域的下一时间步对应的低维隐空间特征的先验分布和预测的目标域的下一时间步对应的低维隐空间特征的后验分布之间的相似度,确定第二预测误差。

在本公开中,采用目标域的先验分布和后验分布之间的相对熵衡量目标域的先验分布和后验分布之间的距离。

在一种可能的实施例中,第二环境动态模块还包括基于迁移学习的源域动态蒸馏模块,将完成模型训练的教师模型、当前时刻环境的视觉观测的图像、智能体的动作、预测的下一时间步对应的低维隐空间特征的后验分布作为输入,输出蒸馏损失和源域重要性权重。

其中,基于迁移学习的源域动态蒸馏模块用于将源域教师模型的第一循环状态空间模型的信息迁移至目标域学生模型中。

在基于迁移学习的源域动态蒸馏模块内,包括:源域教师模型前向传播模块、源域重要性权重模块、知识蒸馏模块。

源域教师模型前向传播模块,将当前时刻环境的视觉观测的图像、智能体的动作作为输入,输出各源域教师模型预测的源域的下一时间步对应的低维隐空间特征的后验分布(post

其中,源域教师模型前向传播模块包括各个源域完成模型训练的教师模型(F

其中,

源域重要性权重模块,将目标域学生模型预测的目标域的下一时间步对应的低维隐空间特征的后验分布post

其中,源域重要性权重模块包括重要性权重网络Imp,采用线性层构建重要性权重网络,重要性权重网络由包括一个输出单元的全连接层构成,用于将输入量映射至一维向量,将线性层的输出作为各个源域对应的重要性权重。

示例地,将目标域学生模型预测的目标域的下一时间步对应的低维隐空间特征的后验分布post

其中,

采用归一化指数函数Softmax,对所有源域对应的源域重要性权重进行归一化处理,确定源域归一化重要性权重(w

知识蒸馏模块,将目标域学生模型预测的目标域的下一时间步对应的低维隐空间特征的后验分布post

其中,知识蒸馏模块包括蒸馏网络(Distill),蒸馏网络由全连接层组成,该知识蒸馏网络的输出单元数等于输入单元数。采用蒸馏网络将各个教师模型预测的源域的下一时间步对应的低维隐空间特征的后验分布转化为能够用于蒸馏的特征

其中,

采用能够用于蒸馏的特征

其中,L

第二视频预测模块,用于将预测的目标域的下一时间步对应的低维隐空间特征的后验分布作为输入,输出重建的当前时刻环境的视觉观测的图像和第二图像重建误差。

其中,第二视频预测模块用于从低维隐空间特征中重建图像。

示例地,第二视频预测模块包括线性层和二维逆卷积层,其中,逆卷积层可以为多层。

线性层,将预测的目标域的下一时间步对应的低维隐空间特征的后验分布post

逆卷积层,将图像重建的特征向量z

奖励预测模块,用于将预测的目标域的下一时间步对应的低维隐空间特征的后验分布作为输入,输出重建当前时刻环境的视觉观测的图像的奖励和奖励重建误差。

其中,奖励预测模块用于从低维隐空间特征中重建述当前时刻环境的视觉观测的图像的奖励。

示例地,奖励预测模块包括线性层和二维逆卷积层,二维逆卷积层可以为多层。

线性层,将预测的目标域的下一时间步对应的低维隐空间特征的后验分布post

二维逆卷积层,将图像重建的特征向量z'

行为策略模块,用于将源域动作离线视频数据、当前时刻环境的视觉观测的图像、源域重要性权重作为输入,输出智能体当前时刻的执行动作。

其中,行为策略模块还可以包括辅助动作生成模块、策略函数预测模块、值函数预测模块、行为模块。

辅助动作生成模块,用于将源域重要性权重、源域动作离线视频数据、当前时刻环境的视觉观测的图像作为输入,输出辅助动作信息

其中,辅助动作生成模块用于生成来自源域的辅助动作信息。

在一种可能的实施例中,辅助动作生成模块包括第五编码器(Enc

第五编码器,用于将源域动作离线视频数据作为输入,输出编码正态分布的均值与方差。

解码器,用于将当前时刻环境的视觉观测的图像、编码正态分布的均值和方差作为输入,输出辅助动作信息和第五编码器的训练误差。

在一种可能的实施例中,第五编码器和解码器采用源域动作离线视频数据中具有最大源域重要性权重的动作视频数据进行训练处理。

行为模块,用于将辅助动作信息、预测的目标域下一时间步的对应的低维隐空间特征作为输入,输出智能体的执行动作和评论家值估计。

其中,行为模块包括演员网络--评论家网络组成的行为模型。

策略函数预测模块,用于将第二环境动态模拟模块提取的预测的目标域的下一时间步对应的低维隐空间特征的后验分布与辅助动作信息的融合特征作为输入,输出智能体当前时刻执行动作的概率分布。

其中,策略函数预测模块用于学习智能体的行为策略,其由四层全连接层构成。

其中,a

值函数预测模块,用于将第二环境动态模拟模块提取的预测的目标域的下一时间步对应的低维隐空间特征的后验分布作为输入,输出智能体在当前状态的价值的预测值。

其中,值函数预测模块由三层全连接层构成。

其中,v表示预测的值,E

在本公开中,真实的价值可以采用奖励预测模块确定,采用折扣累积函数将各个时刻的奖励值进行累加。

在一种可能的实施例中,学生模型训练模块还包括第二预训练模块:

第二预训练模块,用于根据第二预测误差、蒸馏损失、第二图像重建误差、奖励重建误差、辅助动作生成模块的第五编码器的训练误差和评论家值估计,确定学生模型的总优化目标,基于反向传播训练方式对学生模型进行模型训练,确定完成模型训练的学生模型。

在学生模型完成模型训练后,学生模型可以与在线环境进行交互,收集并存储交互过程中的动作、图像以及奖励数据。

通过上述技术方案,本公开采用具有源域选择的迁移方式,在学生模型训练过程中,动态调整不同源域对目标域学生模型中的第二环境动态模拟模块和行为策略模块迁移的贡献程度,较好处理源域动作离线视频数据中包含多种源域的情况,提升在线学习阶段的学习质量。

以上对本公开的具体实施例进行了描述。需要理解的是,本公开并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本公开的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

相关技术
  • 一种用于抗肿瘤药物递送的聚二硫苏糖醇纳米体系及其制备方法和应用
  • 一种基于二硫苏糖醇和金纳米复合膜的L-半胱氨酸的检测方法及传感器
  • 一种含Mo不锈钢焊带及其制备方法、烧结焊剂及其制备方法和一种单层带极电渣堆焊方法
  • 一种氨基聚醚多元醇及其制备方法、一种聚氨酯硬质泡沫及其制备方法
  • 一种三氧化钨纳米空心球半导体材料及其制备方法、一种气敏传感器及其制备方法和应用
  • 一种二硫苏糖醇的制备方法
  • 一种用于抗肿瘤药物递送的聚二硫苏糖醇纳米体系及其制备方法和应用
技术分类

06120116545910