掌桥专利:专业的专利平台
掌桥专利
首页

一种应用于多任务学习的策略模型训练方法、装置及设备

文献发布时间:2023-06-19 18:46:07


一种应用于多任务学习的策略模型训练方法、装置及设备

技术领域

本发明实施例涉及人工智能领域,尤其涉及一种应用于多任务学习的策略模型训练方法、装置及设备。

背景技术

随着强化学习的技术发展,用户不再仅满足策略模型对于单任务的学习能力,对于策略模型面对多任务学习的应用需求也逐步提高。

现有策略模型面对多任务的训练方法多数为交替训练法。具体表现为:首先对策略模型输入至少两个不同的任务,然后过程中分别针对每个任务进行策略模型相应参数地调整,直至策略模型对该任务的训练结果更接近期望值。

但是,由于每个任务相较于策略模型的梯度是不同的,因此,策略模型可能会受到不同梯度的影响,对任务的训练带有倾向性,策略模型学习过程中会存在策略模型对某一个任务学习不完整的情况,进而影响最终的学习结果。而上述交替训练方法中,仅通过任务的训练结果进行策略模型的优化,没有对任务相对于策略模型的梯度进行处理,为了保证任务训练的完整性以及均匀性,在训练过程中策略模型可能会经历多次试错以及优化的过程。这样会使实际的训练效率较低。

发明内容

鉴于上述问题,本发明提出了一种应用于多任务学习的策略模型训练方法、装置及设备,以解决现有策略模型学习多任务学习过程因多任务训练进程不同而导致的效率低下的问题。

第一方面,本发明提出了一种应用于多任务学习的策略模型训练方法,所述方法包括:

获取目标任务集,所述目标任务集中包括至少两个目标任务;

调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;

根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;

根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;

确定所述第四策略模型为应用于多任务学习的策略模型。

在一些可能的实施方式中,所述目标任务集的表现形式包括:目标任务集合和/或目标任务分布集合。这样,应用于多任务学习的策略模型使用场景包括,待学习任务可以为连续的任务分布或者分散的独立任务。

在一些可能的实施方式中,所述梯度约束集由所述每个目标任务对应的权重以及预设的优势函数得到,所述梯度约束集用于表征所述每个目标任务的加权性能提升下限。这样,通过对策略模型对应每个目标任务的性能进行范围约束,来确定每个目标任务在进行梯度调整时的可调整范围。

在一些可能的实施方式中,所述优势函数用于表征所述第三策略模型进行所述第二参数调整时的性能变化,所述第四策略模型对应的性能与所述第三策略模型对应的性能之间的差异,与所述优势函数成正比。这样,可以基于上述关系确认临近的未来状态分布下的优势函数期望。

在一些可能的实施方式中,所述对所述第三策略模型依次进行第二参数调整,还包括:

获取所述第三策略模型的第一状态分布,所述第一状态分布用于表征所述第三策略模型当前进行的第二参数调整后的模型状态;

根据预设规则,将所述第一状态分布近似计算为所述第三策略模型下次待进行第二参数调整时所对应的模型状态。这样,可以确认临近的未来状态分布下的优势函数期望,并以此进行当前目标任务后续迭代过程或者剩余目标任务的参数调整。

在一些可能的实施方式中,所述模型状态包括:所述第三策略模型对应的参数、环境交互结果以及经验数据。这样,通过多类型数据进行参考,可以保证后续参数调整的结果准确性。

在一些可能的实施方式中,所述每个目标任务对应的权重用于调整对应目标任务的学习速度。这样,可以使多任务学习的进度保持平均或满足用户预设需求。

第二方面,本发明还提出了一种应用于多任务学习的策略模型训练装置,所述装置包括:

获取模块,用于获取目标任务集,所述目标任务集中包括至少两个目标任务;

调用模块,用于调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;

第一参数调整模块,用于根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;

第二参数调整模块,用于根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;

输出模块,用于确定所述第四策略模型为应用于多任务学习的策略模型。

第三方面,本发明还提出了一种电子设备,所诉电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存储可执行指令,所述可执行指令运行时使所述处理器执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。

第四方面,本发明还提出了一种计算机可读存储介质,所述存储介质中存储有可执行指令,所述可执行指令运行时使计算设备执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。

本发明提出了一种应用于多任务学习的策略模型训练方法,本方案中,首先,获取目标任务集,所述目标任务集中包括至少两个目标任务;然后,调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;接着,根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;再根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;最后确定所述第四策略模型为应用于多任务学习的策略模型。可见,在调用策略模型分别对每个目标任务进行优化训练后,再根据预设的梯度约束集对每个目标任务相对于策略模型的梯度进行约束,以减缓每个目标任务之间的梯度差异。这样,策略模型在多任务学习中受到多任务间梯度差异的影响会减少,进而使任务间的训练进度更平均,提高训练效率。

附图说明

图1是本发明提出的应用于多任务学习的策略模型训练方法流程示意图;

图2是本发明提出的策略模型训练装置示意图;

图3是本发明提出的策略模型训练电子设备结构示意图。

具体实施方式

本发明以下实施例中所使用的术语是为了描述可选实施方式的目的,而非旨在作为对本发明的限制。如在本发明的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式。还应当理解,尽管在以下实施例中可能采用术语第一、第二等来描述某一类对象,但所述对象不限于这些术语。这些术语用来将该类对象的具体对象进行区分。例如,以下实施例中可能采用术语第一、第二等来描述的其他类对象同理,此处不再赘述。

随着强化学习的技术发展,用户不再仅满足策略模型对于单任务的学习能力,对于策略模型面对多任务学习的应用需求也逐步提高。

现有策略模型面对多任务的训练方法多数为交替训练法。具体表现为:首先对策略模型输入至少两个不同的任务,然后过程中分别针对每个任务进行策略模型相应参数地调整,直至策略模型对该任务的训练结果更接近期望值。

但是,由于每个任务相较于策略模型的梯度是不同的。可以理解的是,在神经网络中,梯度是一个矢量,用来指明在函数的某一点,沿那个方向函数值上升最快。因此,策略模型可能会受到不同梯度的影响,对任务的训练带有倾向性,策略模型学习过程中会存在策略模型对某一个任务学习不完整的情况,进而影响最终的学习结果。而上述交替训练方法中,仅通过任务的训练结果进行策略模型的优化,没有对任务相对于策略模型的梯度进行处理,为了保证任务训练的完整性以及均匀性,在训练过程中策略模型可能会经历多次试错以及优化的过程。这样会使实际的训练效率较低。

本申请实施例具体可以涉及人工智能中的机器学习,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例对于模型的训练主要是通过机器学习实现的。

当然,由于本申请实施例提供的模型训练方法可以应用于不同的领域,在不同的领域中,还可能涉及人工智能中的具体其他技术。例如,若应用于人脸表情识别、人脸识别等领域,则还可能涉及计算机视觉,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的应用于多任务学习的策略模型训练方法可以由一个电子设备执行,也可以由计算机集群执行。该计算机集群包括至少两个支持本申请实施例的策略模型训练方法的电子设备,任一电子设备可通过策略模型训练方法实现本申请实施例所描述的策略模型训练功能。

本申请实施例设计的任一电子设备可以是诸如手机、平板电脑、可穿戴设备(例如,智能手表、智能手环等)、笔记本电脑、台式计算机和车载设备等电子设备。该电子设备预先安装有策略模型训练应用程序。可以理解的是,本申请实施例对电子设备的具体类型不作任何限制。

下面是对几个示例性实施方式的描述,对本发明实施例的技术方案以及本发明的技术方案产生的技术效果进行说明。

图1是本发明提出的应用于多任务学习的策略模型训练方法流程示意图。如图1所示,本发明提出的应用于多任务学习的策略模型训练方法包括以下步骤:

S100,获取目标任务集,所述目标任务集中包括至少两个目标任务;

S200,调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;

S300,根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;

S400,根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;

S500,确定所述第四策略模型为应用于多任务学习的策略模型。

示例性地,在给定的场景为训练用于多种功能机械臂的策略模型的场景中,即所训练的应用于多任务的策略模型最后应用于多种功能的机械臂操控。

假定用户需求所述机械臂需要完成50个独立任务,例如:打开抽屉、关闭抽屉、打开水龙头、移动物品至指定位置等。这些任务彼此之间相互独立,而且在实际过程中不一定具有连贯性,但是每个独立的任务需要连续的动作控制。

对于此,首先明确待训练策略模型的目标任务集。根据上述对于机械臂的任务需求说明,我们可以依据这50个独立任务构建一个包含上述所有任务的均匀分布,即每个任务被选取的概率相等且为1/50(即完成目标任务集的构建)。

此处以采用最大熵强化学习算法(Soft Actor Critic,SAC)作为强化学习算法。

可以理解的是,此方法不会受限于任务的分布,可适用于数学中常见的概率分布,如高斯分布、均匀分布、伯努利分布等。

可以理解的是,此处对于强化学习的算法选择也不局限于SAC,而是根据构建完成的目标任务集中的任务的离散或连续特性有关。例如,当构建的目标任务集中的目标任务彼此之间具有连续性,那么可以选择的算法包括:DDPG、TD3以及SAC等;当窦建德目标任务集中的目标任务彼此之间是离散的,那么可以选择的算法包括:DQN、PPO以及A2C等。

进一步地,在完成所述目标任务集的构建之后,首选获取目标任务集,即执行S100。

进一步地,在获取所述目标任务集之后,调用待学习的策略模型(即上述第一策略模型)对所述目标任务集中的每个目标任务进行学习,经过学习之后,会得到一个经过初次学习的模型(即上述第二策略模型),以及针对每个目标任务学习的学习结果(即上述第一子训练结果),例如:学习打开抽屉任务对应的学习结果;学习关闭抽屉任务对应的学习结果等。即完成S200的步骤。

具体地,假定上述目标任务集合中的任务分别标记为z1、z2、……z50,那么目标任务集合可以表示为{z1,z2……z50},在每次随机选取训练的任务可以标为z,选取过程表示为z~{ z1,z2……z50}。

可选地,针对S200,在调用当前的第一策略模型,此处用π表示,与当前的任务z进行环境交互后,得出的相应数据会被记录在预设的经验回收集Bz中。得到的第二策略模型用

可以理解的是,此处调用的待学习的策略模型可以为空白模型,也可以为满足用户预设需求的通用待学习模型。

进一步地,在得到每个目标任务对应的学习结果之后,由于每个目标任务对应上述第一策略模型训练起来的难易程度不同,每个目标任务对应的学习结果的好坏(即满足预设期望的程度)也是不同的。这样,为了使每个任务目标对应的训练结果更满足预设期望,需要对所述第二策略模型针对每个目标任务进行参数优化(此处参数优化也包括策略调整),即执行S300所述的过程,进行所述第一参数调整,得到第三策略模型以及至少两个第二子训练结果。

可以理解的是,由于在S300调整的过程中,是依次针对每个目标任务进行的单独参数优化。那么,在S300调整的过程中,有可能存在的情况是针对在先目标任务进行调整后,所述第二策略模型对在后的目标任务较调整前训练效果偏低(即随着每次参数优化,所述第二策略模型存在对其它任务学习进度的负向影响)。

具体地,根据上述内容使用SAC算法的话,具体优化方式如下:

其中,

进一步地,针对每个目标任务进行上述第一参数调整之后,为了使后续的策略模型可以适用于所有的目标任务,保证对应所有目标任务训练的效率以及性能一致,需要执行S400的过程,即对所述第三策略模型进行第二参数调整(包括策略优化以及修正),得到第四策略模型。

可以理解的是,为了保证对应所有目标任务训练的效率以及性能一致,本实施例采用的方式是通过对所述第三策略模型进行相应的约束(即所述第二参数调整的实施方式之一),以减轻目标任务之间的梯度干扰所带来的负向影响。

具体地,对所述第三策略模型进行相应的约束,是由预设的梯度约束集来实现的。

可选地,针对所述预设的梯度约束集,形成方式包括:由所述每个目标任务对应的权重以及预设的优势函数得到,所述梯度约束集用于表征所述每个目标任务的加权性能提升下限。

具体地,每个目标任务对应的权值ω表现形式如下:

其中,

可选地,根据每个目标任务对应的任务权重与优势函数构造所述梯度约束集表现形式如下:

其中,

可选地,所述优势函数用于表征所述第三策略模型进行所述第二参数调整时的性能变化,所述第四策略模型对应的性能与所述第三策略模型对应的性能之间的差异,与所述优势函数成正比。

可选地,所述对所述第三策略模型依次进行第二参数调整,还包括:

获取所述第三策略模型的第一状态分布,所述第一状态分布用于表征所述第三策略模型当前进行的第二参数调整后的模型状态;

根据预设规则,将所述第一状态分布近似计算为所述第三策略模型下次待进行第二参数调整时所对应的模型状态。

可选地,所述模型状态包括:所述第三策略模型对应的参数、环境交互结果以及经验数据。

具体地,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,表现形式如下:

其中,

进一步地,对于S500,将所述第四策略模型作为经过多目标任务训练,应用于多任务学习地策略模型,此处即为可以应用于机械手臂的策略模型。

可选地,整个训练过程需要若干个迭代步,在每个迭代步中包括S200以及S300的过程。这样,可以使模型训练结果趋势趋于预设期望。

可选地,若训练过程的迭代步数小于预设步数,或者所述第四策略模型无法满足预设需求(如存在目标任务的训练结果不满足对应的预设期望或者每个目标任务之间的梯度不满足对应的预设需求)时,将继续返回S200以及S300。

可见,在调用策略模型分别对每个目标任务进行优化训练后,再根据预设的梯度约束集对每个目标任务相对于策略模型的梯度进行约束,以减缓每个目标任务之间的梯度差异。这样,策略模型在多任务学习中受到多任务间梯度差异的影响会减少,进而使任务间的训练进度更平均,提高训练效率。

上述实施例从目标任务集的获取方式、第一策略模型的训练、第一参数调整、第二参数调整等电子设备所执行的动作逻辑和学习算法处理角度,对本发明提出的应用于多任务学习的策略模型训练方法的各实施方式进行了介绍。应理解,对应目标任务集的获取方式、第一参数调整、第二参数调整等的处理步骤,本发明实施例可以以硬件或硬件和计算机软件的结合形式来实现上述功能。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

例如,上述实现步骤实现的功能也可以通过应用于多任务学习的策略模型训练装置来实现。图2是本发明提出的策略模型训练装置示意图。如图2所示,策略模型训练装置可以包括:

调用模块,用于调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;

第一参数调整模块,用于根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;

第二参数调整模块,用于根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;

输出模块,用于确定所述第四策略模型为应用于多任务学习的策略模型。

可以理解的是,以上各个模块/单元的划分仅仅是一种逻辑功能的划分,实际实现时,以上各模块的功能可以集成到硬件实体实现,例如,获取模块、调用模块、第一参数调整模块以及第二参数调整模块可以集成到处理器实现,实现上述各模块功能的程序和指令,可以维护在存储器中。例如,图3是本发明提出的策略模型训练电子设备结构示意图。如图3所示,该电子设备包括可以包括处理器、收发器和存储器。其中,收发器用于策略模型训练方法中第一策略模型以及第二策略模型相关信息获取。存储器可以用于存储对战学习过程中产生的相关对战信息以及相关策略模型信息,也可以存储用于处理器执行的代码等。当处理器运行存储器存储的代码过程中,使得电子设备执行上述方法中策略模型训练方法的部分或全部操作。

具体实现过程详见上述方法示意的实施例所述,此处不再详述。

具体实现中,对应前述电子设备,本发明实施例还提供一种计算机存储介质,其中,设置在电子设备中的计算机存储介质可存储有程序,该程序执行时,可实施包括策略模型的训练方法的各实施例中的部分或全部步骤。该存储介质均可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。

以上模块或单元的一个或多个可以软件、硬件或二者结合来实现。当以上任一模块或单元以软件实现的时候,所述软件以计算机程序指令的方式存在,并被存储在存储器中,处理器可以用于执行所述程序指令并实现以上方法流程。所述处理器可以包括但不限于以下至少一种:中央处理单元(central processing unit,CPU)、微处理器、数字信号处理器(DSP)、微控制器(microcontroller unit,MCU)、或人工智能处理器等各类运行软件的计算设备,每种计算设备可包括一个或多个用于执行软件指令以进行运算或处理的核。该处理器可以内置于SoC(片上系统)或专用集成电路(application specific integratedcircuit,ASIC),也可是一个独立的半导体芯片。该处理器内处理用于执行软件指令以进行运算或处理的核外,还可进一步包括必要的硬件加速器,如现场可编程门阵列(fieldprogrammable gate array,FPGA)、PLD(可编程逻辑器件)、或者实现专用逻辑运算的逻辑电路。

当以上模块或单元以硬件实现的时候,该硬件可以是CPU、微处理器、DSP、MCU、人工智能处理器、ASIC、SoC、FPGA、PLD、专用数字电路、硬件加速器或非集成的分立器件中的任一个或任一组合,其可以运行必要的软件或不依赖于软件以执行以上方法流程。

进一步的,图3中还可以包括总线接口,总线接口可以包括任意数量的互联的总线和桥,具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线接口还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器提供用于在传输介质上与各种其他设备通信的单元。处理器负责管理总线架构和通常的处理,存储器可以存储处理器在执行操作时所使用的数据。

当以上模块或单元使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。

应理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对实施例的实施过程构成任何限定。

本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例部分的说明即可。

尽管已描述了本发明的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

技术分类

06120115685906