导航：首页> 流体压力执行机构；一般液压技术和气动技术>用于执行强化学习的方法、装置、电子设备及存储介质

用于执行强化学习的方法、装置、电子设备及存储介质

文献发布时间：2024-01-17 01:15:20

技术领域

本公开涉及人工智能领域，尤其涉及一种用于执行强化学习的方法、装置、电子设备及存储介质。

背景技术

强化学习是机器学习的三大分支之一。在一个强化学习问题中，有一个决策者，我们通常称之为智能体(agent)，它所交互的区域叫做环境(environment)，它所处的当前环境称为状态(state)，智能体会根据它所观察到的情况自己制定执行动作(action)，即决策，根据智能体的执行动作，给智能体相应的奖励(reward)。智能体的目的就是如何在环境中采取一系列的行为，从而获得最大化的累积回报。强化学习的学习过程我们称之为推演，强化学习的推演过程是动态的、不断交互的过程，所需的数据也是通过与环境不断交互产生的。目前，强化学习仅仅依赖算法推演得到推演结论，导致通过强化学习所得最终结论很可能是有偏差的，即，强化学习效果欠佳。

发明内容

本公开提供一种图像处理方法、装置电子设备及存储介质，以至少解决相关技术中的强化学习效果欠佳的问题。

根据本公开实施例的第一方面，提供了一种执行强化学习的方法，包括：获取针对强化学习项目的配置信息，其中，所述配置信息包括与所述强化学习项目所涉及的至少一个智能体的强化学习有关的信息；获取用户规划的所述至少一个智能体的行动策略；根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划；根据所述行动计划执行所述至少一个智能体的强化学习。

可选地，所述获取用户规划的所述至少一个智能体的行动策略，包括：显示用户规划界面，根据用户通过所述用户规划界面执行的规划操作，获取所述至少一个智能体的行动策略。

可选地，所述用户规划界面包括与所述至少一个智能体的状态信息、所述至少一个智能体的动作信息、以及关于所述至少一个智能体的奖励机制信息中的至少一个相关联的信息项，其中，所述根据用户通过所述用户规划界面执行的规划操作，获取所述至少一个智能体的行动策略，包括：通过根据用户对所述信息项执行的操作，获取所述行动策略。

可选地，所述信息项包括所述至少一个智能体的能够执行的候选动作的列表，其中，通过根据用户对所述信息项执行的操作，获取所述行动策略，包括：通过用户从所述列表中选择至少一个候选动作并对选择的至少一个候选动作进行组合或调整的操作，来获取所述行动策略。

可选地，所述用户规划界面上还包括：用于修改所述配置信息的操作入口，其中，所述方法还包括：响应于接收到用户针对所述操作入口的选择操作，显示配置信息修改界面；根据用户通过所述配置信息修改界面执行的修改操作，修改所述配置信息中的至少一部分，其中，根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，包括：根据修改后的配置信息和所述行动策略，生成所述行动计划。

可选地，所述方法还包括：可视化地显示用户规划的所述行动策略；根据用户对所述行动策略的第一修改操作，修改所述行动策略；其中，所述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，包括：根据所述配置信息和修改后的所述行动策略，生成所述至少一个智能体的行动计划。

可选地，所述行动策略包括所述至少一个智能体在每一轮的强化学习中的每一阶段要执行的任务计划，其中，根据用户对所述行动策略的第一修改操作，修改所述行动策略，包括：根据所述第一修改操作，修改所述任务计划中的至少一个。

可选地，所述方法还包括：可视化地显示生成的行动计划；根据用户对所述行动计划的第二修改操作，修改所述行动计划；其中，所述根据所述行动计划执行所述至少一个智能体的强化学习，包括：根据修改后的所述行动计划，执行所述至少一个智能体的强化学习。

可选地，所述行动计划包括所述至少一个智能体在每一轮的强化学习中的每一阶段中针对特定环境状态所要执行的任务计划以及各个阶段之间的转换条件，其中，根据用户对所述行动计划的第二修改操作，修改所述行动计划，包括：根据所述第二修改操作，修改所述任务计划和所述转换条件中的至少一个。

可选地，显示所述行动计划的界面上包括用于修改所述配置信息的操作入口，其中，所述方法还包括：响应于接收到用户针对所述操作入口的选择操作，显示配置信息修改界面；根据用户通过所述配置信息修改界面执行的第三修改操作，修改所述配置信息中的至少一部分，其中，根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，包括：根据修改后的配置信息和所述行动策略，生成所述行动计划。

可选地，所述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，包括：根据所述配置信息和所述行动策略修改所述至少一个智能体的状态空间、动作空间和奖励函数中的至少一个；根据修改后的所述至少一个智能体的状态空间、动作空间和奖励函数中的至少一个，生成所述行动计划。

可选地，所述获取用户规划的所述至少一个智能体的行动策略包括：获取预先创建的历史行动策略；根据用户对所述历史行动策略的修改操作，获取用户修改后的历史行动策略作为用户规划的行动策略。

可选地，所述获取针对强化学习项目的配置信息，包括：显示用户配置界面，获取用户通过所述用户配置界面输入的配置信息。

可选地，所述方法还包括：可视化地显示根据所述行动计划执行所述至少一个智能体的强化学习的过程。

根据本公开实施例的第二方面，提供了一种执行强化学习的装置，所述装置包括：配置信息获取单元，被配置为获取针对强化学习项目的配置信息，其中，所述配置信息包括与所述强化学习项目所涉及的至少一个智能体的强化学习有关的信息；行动策略获取单元，被配置为获取用户规划的所述至少一个智能体的行动策略；行动计划生成单元，被配置为根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划；强化学习执行单元，被配置为根据所述行动计划执行所述至少一个智能体的强化学习。

可选地，所述获取用户规划的所述至少一个智能体的行动策略，包括：显示用户规划界面；根据用户通过所述用户规划界面执行的规划操作，获取所述至少一个智能体的行动策略。

可选地，所述用户规划界面上还包括：用于修改所述配置信息的操作入口，其中，所述装置还包括：显示单元，被配置为响应于接收到针对所述操作入口的选择操作，显示配置信息修改界面；修改单元，被配置为根据用户通过所述配置信息修改界面执行的修改操作，修改所述配置信息中的至少一部分，其中，所述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，包括：根据修改后的配置信息和所述行动策略，生成所述行动计划。

可选地，所述装置还包括：显示单元，被配置为可视化地显示用户规划的所述行动策略；修改单元，被配置为根据用户对所述行动策略的第一修改操作，修改所述行动策略，其中，所述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，包括：根据所述配置信息和修改后的所述行动策略，生成所述至少一个智能体的行动计划。

可选地，所述装置还包括：显示单元，被配置为可视化地显示生成的行动计划；修改单元，被配置为根据用户对所述行动计划的第二修改操作，修改所述行动计划，其中，所述根据所述行动计划执行所述至少一个智能体的强化学习，包括：根据修改后的所述行动计划，执行所述至少一个智能体的强化学习。

可选地，所述行动计划包括所述至少一个智能体在每一轮的强化学习中的每一阶段中针对特定环境状态所要执行的任务计划以及各个阶段之间的转换条件，其中，所述根据用户对所述行动计划的第二修改操作，修改所述行动计划，包括：根据所述第二修改操作，修改所述任务计划和所述转换条件中的至少一个。

可选地，显示所述行动计划的界面上包括用于修改所述配置信息的操作入口，其中，显示单元还被配置为响应于接收到用户针对所述操作入口的选择操作，显示配置信息修改界面；修改单元还被配置为根据用户通过所述配置信息修改界面执行的第三修改操作，修改所述配置信息中的至少一部分，其中，所述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，包括：根据修改后的配置信息和所述行动策略，生成所述行动计划。

可选地，所述获取用户规划的所述至少一个智能体的行动策略，包括：获取预先创建的历史行动策略；根据用户对所述历史行动策略的修改操作，获取用户修改后的历史行动策略作为用户规划的行动策略。

可选地，所述获取针对强化学习项目的配置信息，包括：显示用户配置界面，获取用户通过所述用户配置界面输入的配置信息。

可选地，所述装置还包括：显示单元，被配置为可视化地显示根据所述行动计划执行所述至少一个智能体的强化学习的过程。

根据本公开实施例的第三方面，提供了一种电子设备，其特征在于，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的方法。

根据本公开实施例的第四方面，提供了一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的方法。

根据本公开实施例的执行强化学习的方法，通过获取用户规划的所述至少一个智能体的行动策略，可以引入用户对强化学习项目的行业经验，而根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，使得将算法和用户的行业经验进行了结合，因此强化学习的结果是行业知识与算法推荐的双重作用的结果，而不是仅仅依赖算法推演得到学习结果，由此提高了强化学习效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的示例实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开示例性实施例的执行强化学习的方法的流程图；

图2是根据本公开示例性实施例的用户配置界面的示例；

图3是示出根据本公开示例性实施例的用户规划界面的示例；

图4是示出用于调整任务计划的示例性用户界面；

图5是根据本公开示例性实施例的配置信息修改界面的示例；

图6是示出用于显示智能体的行动计划的示例性用户界面；

图7是示出用于显示根据行动计划执行智能体的强化学习的过程的示例性用户界面；

图8是根据本公开示例性实施例的执行强化学习的装置的框图；

图9是根据本公开示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1是根据本公开示例性实施例的执行强化学习的方法的流程图。

在本公开示例性实施例，执行强化学习的方法被分为四个阶段，分别是构想阶段、规划阶段、决策阶段和实践阶段。

参照图1，在步骤S110，获取针对强化学习项目的配置信息。步骤S110对应于本公开提供的执行强化学习的方法中的构想阶段。这里，所述配置信息可以包括与所述强化学习项目所涉及的至少一个智能体的强化学习有关的信息，但不限于此。例如，所述配置信息还可以包括强化学习项目的描述信息，例如，强化学习项目的名称、强化学习项目所属的单位，等等。例如，强化学习项目可以是实验A和B两个智能体在相同环境下的胜率，但不限于此。

作为示例，与所述强化学习项目所涉及的至少一个智能体的强化学习有关的信息可以包括强化学习项目的环境(environmen)、至少一个智能体(agent)的描述信息(例如，智能体的名称、数量等)、至少一个智能体的状态(state)信息、至少一个智能体的动作(action)信息、关于至少一个智能体的奖励(reward)机制信息、强化学习需要执行的轮数(也可被称为推演局数)、以及与每一轮涉及的阶段、有关的信息(例如，每个阶段的阶段名称、阶段目的、时长以及阶段转换条件，等等)，等等。

以无人车驾驶为例，车辆行驶的道路情况、天气等可以是环境(environment)。若无人车用的传感器是激光雷达，那state可以是激光雷达扫描的点云。若采用普通相机，那state则可以是视频。action可以是刹车、油门、左转、右转等。reward可以是做出action后的奖励，比如从起点开始往前行驶的距离越远奖励越高，距车道中心线越远奖励越低，如果跑出车道或撞上障碍物奖赏为-100。强化学习就是通过以reward作为监督信号，用学习推演的方式不断的修改从状态到动作的映射策略，以达到优化的目的。

具体地，步骤S110中获取针对强化学习项目的配置信息可以包括：显示用户配置界面，获取用户通过所述用户配置界面输入的配置信息。也就是说，可以可视化地获取所述配置信息。作为示例，可以在所述用户配置界面上显示待填写的表单，通过用户依次填写表单中预先设置的与强化学习有关的配置信息项来获取所述配置信息。

图2示出根据本公开实施例的用户配置界面的示例。如图2所示，可以用户配置界面上显示多个配置信息项，例如，强化学习项目的名称、强化学习项目所属的单位、强化学习时间的基准单位(例如，以天为单位执行强化学习，还是以小时为单位执行强化学习，等等)、强化学习的预计时间(开始日期-结束日期)。此外，如图2所示，还可以在用户界面上定义与强化学习中的每一轮的各个阶段有关的信息，例如，定义各阶段的名称、各阶段的目的以及阶段转换条件(即，达到什么条件才从一个阶段转到下一个阶段)。需要说明的是，图2所示的用户配置界面的示例中仅仅示出了配置信息的部分示例，如上所述，配置信息不限于图2所示的示例。另外，需要说明的是，获取所述配置信息的方式也不限于以上通过在用户配置界面中显示表单并根据用户输入进行填写或选择的方式，本公开对如何获取配置信息的具体方式并无任何限制。

在获取到针对强化学习项目的配置信息之后，在步骤S120，获取用户规划的所述至少一个智能体的行动策略。通过获取用户规划的所述至少一个智能体的行动策略，可以将人对于具体强化学习项目的行业经验和行业知识融入进来，从而利于提高后续强化学习的效果。这里，所述行动策略可以是指导智能体在强化学习中如何行动的总体策略。步骤S120可对应于本公开提出的强化学习方法的规划阶段。

具体地，作为示例，在步骤S120，可以显示用户规划界面，并且根据用户通过所述用户规划界面执行的规划操作，获取所述至少一个智能体的行动策略。也就是说，可以可视化地规划所述至少一个智能体的行动策略。

由于上述行动策略是指导智能体在强化学习中如何行动的总体策略，而强化学习如何进行受智能体的状态空间、动作空间和奖励机制的控制，因此，可以通过对可能影响智能体的状态空间、动作空间和奖励机制的信息进行规划来形成智能体的行动策略，从而以此来用人的行业知识影响后续智能体的强化学习。由于结合了人的行业经验和知识，因此有利于后续强化学习效果的提升。

根据示例性实施例，所述用户规划界面可以包括与所述至少一个智能体的状态信息、所述至少一个智能体的动作信息、以及关于所述至少一个智能体的奖励机制信息中的至少一个相关联的信息项。在这种情况下，上述根据用户通过所述用户规划界面执行的规划操作，获取所述至少一个智能体的行动策略，可以包括：通过用户对所述信息项执行的操作，获取所述行动策略。这里，对所述信息项执行操作可以对信息项执行整合、修改等操作。

图3是示出根据本公开示例性实施例的用户规划界面的示例。作为示例，上述信息项可以包括所述至少一个智能体的能够执行的候选动作的列表。该列表中的各个候选动作可以是与所述至少一个智能体的动作信息相关联的信息项的示例。在这种情况下，上述通过根据用户对所述信息项执行的操作，获取所述行动策略，可以包括：通过用户从所述列表中选择至少一个候选动作并对选择的至少一个候选动作进行组合或调整的操作，来获取所述行动策略。

如图3所示，用户规划界面的的左侧区域中显示了上述列表(在图3中，其被称为“决策列表”，但是该名称仅是示例，例如也可以被称为“候选动作列表”，等等)。该列表中包括的具体的候选动作(在图3中被称为“operation”)是从构想阶段获取的智能体的动作信息继承而来的。此外，在用户规划界面的右侧区域的顶部可以显示构想阶段设定好的强化学习每一局的阶段、每一阶段的时间，右侧下方可以显示空白画布。用户可以结合自己的行业知识和经验，通过把左侧operation拖拽到右侧画布上并对其进行组合或调整的方式，规划智能体的行动策略。例如，在将左侧operation拖动到右侧画布中之后，可以对operation进行组合，例如，如果强化学习项目是实验军事演习游戏中红蓝双方对战的胜率，则例如，可以根据用户的行业经验将operation分组为运粮草、信息对战等任务组，并分别设置每个任务组中的任务。用户可以根据自身对强化学习项目的理解将自己的行业知识融入到对智能体的行动策略的规划中。

此外，用户还可以调整每个operation在哪个阶段执行以及执行的时长。例如，用户可以通过拖拉拽的方式来调整operation的执行阶段以及执行时长。可选地，用户也可以双击单条operation的区域，响应于该双击操作，可以显示与调整该operation对应的用户界面。例如，图4是示出调整任务计划的示例性用户界面。该示例性用户界面例如可以是响应于上述双击操作而显示的弹窗。通过该弹窗，可以针对单个任务进行调整，比如，对单个任务的名称、预计执行时间、执行任务所需运用的资源、预期效果等等进行调整。例如，在强化学习项目是实验游戏中A和B两个智能体在相同环境下的胜率的情况下，根据用户行业经验，例如可以将该单个任务所针对的目标区域调整为腿部或腹部，而且可以将该任务的预期效果修改为对方受伤程度60％，我方消耗程度30％，等等。

需要说明的是，尽管图3和图4主要示出了通过对与智能体的动作信息相关联的信息项进行操作来获取智能体的行动策略，然而，如上所述，也可以对与智能体的状态信息或智能体的奖励机制信息相关联的信息项进行操作来获取智能体的行动策略。例如，也可以在用户规划界面上显示与智能体的状态信息或智能体的奖励机制信息相关联的信息项，并且用户也可以通过对这些信息项进行操作来获取智能体的行动策略。

此外，尽管在上述示例中描述了通过显示用户规划界面并根据用户通过所述用户规划界面执行的规划操作来获取智能体的行动策略，然而，获取智能体的行动策略的方式不限于此，例如，上述获取用户规划的所述至少一个智能体的行动策略，可以包括：获取预先创建的历史行动策略；根据用户对所述历史行动策略的修改操作，获取用户修改后的历史行动策略作为用户规划的行动策略。也就是说，也可以在获取到预先建立的历史行动策略之后，通过对获取的历史行动策略进行修改来获取用户规划的行动策略。例如，如图3所示，响应于点击“导入规划”的用户输入，可以将用户先前创建的历史行动策略导入到右侧画布中，然后，可以通过对导入的行动策略进行修改来获取用户规划的行动策略。

此外，可选地，尽管图1中未示出，但是图1所示的方法还可以包括：可视化地显示用户规划的所述行动策略。例如，如图3所示，可以以甘特图的形式显示用户规划的行动策略。然而，可视化地显示用户规划的行动策略的方式不限于此，例如，也可以以流程图等形式显示。另外，可选地，尽管图1中未示出，但是图1所示的方法还可以包括：根据用户对所述行动策略的第一修改操作，修改所述行动策略。如图3所示，所述行动策略可以包括所述至少一个智能体在每一轮的强化学习中的每一阶段要执行的任务计划。在这种情况下，上述根据用户对所述行动策略的第一修改操作，修改所述行动策略，可以包括：根据所述第一修改操作，修改所述任务计划中的至少一个。例如，在双击任何一个任务计划的情况下，可以显示如图4所示的示例性用户界面，在该示例性用户界面中，可以对任务计划的各种信息进行修改。对行动策略所做的任何修改后续将被反映到将在步骤S130生成的行动计划中。

此外，如图3所示，上述用户规划界面上还可以包括用于修改所述配置信息的操作入口。在这种情况下，尽管图1中未示出，但是图1所示的方法还可以包括：响应于接收到用户针对所述操作入口的选择操作，显示配置信息修改界面；根据用户通过所述配置信息修改界面执行的修改操作，修改所述配置信息中的至少一部分。例如，响应于用户单击图3中阶段四后面的“修改”按钮，可以显示配置信息修改界面。图5是示出根据本公开示例性实施例的配置信息修改界面的示例。

如图5所示，可以修改每个阶段的名称、使命描述、效能度量(用于衡量每个阶段预期效果的达成程度)、主要目标、主要行动以及起始时间，但可修改的项目不限于此。此外，除了修改当前已有阶段的信息之前，还可以新增阶段或者删除已有的阶段。例如，响应于选择图5中的“新增阶段”按钮，可以显示用于新增阶段的用户界面，在显示的用户界面上可以填写新增阶段的信息。此外，响应于用于点击图5中的“删除”按钮，可以删除当前选择的阶段。也就是说，在规划阶段，根据需要，用户仍然可以结合自己的行业经验，对先前在构想阶段获取的配置信息进行修改，例如，对配置信息中的与强化学习的各阶段相关的信息进行修改，但是修改不限于仅对阶段进行修改，而是还可以修改其他配置信息。对配置信息所做的修改后续被反映到将在步骤S130生成的行动计划中。

返回参照图1，在获取到所述行动策略之后，在步骤S130，根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划。步骤S130对应于本公开提出的执行强化学习的方法的决策阶段。

如上所述，可以根据用户对所述行动策略的第一修改操作，修改所述行动策略。在这种情况下，所述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，可以包括：根据所述配置信息和修改后的所述行动策略，生成所述至少一个智能体的行动计划。即，将对行动策略所做的修改反映到生成的行动计划中。

如上所述，可以根据用户通过所述配置信息修改界面执行的修改操作，修改所述配置信息中的至少一部分，在这种情况下，上述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，可以包括：根据修改后的配置信息和所述行动策略，生成所述行动计划。即，将对配置信息所做的修改反映到生成的行动计划中。

具体地，在步骤S130，首先，根据所述配置信息和所述行动策略修改所述至少一个智能体的状态空间、动作空间和奖励函数中的至少一个，其次，根据修改后的所述至少一个智能体的状态空间、动作空间和奖励函数中的至少一个，生成所述行动计划。例如，在构想阶段配置了所述至少一个智能体的所有可能的状态、动作以及奖励机制(即，奖励函数)，但是这些先前的配置中的至少一个随着用户获取的行动策略而可能需要被更改，而且这些更改还需要结合用户先前获取的其他配置信息，例如，环境信息，因此，最终是根据所述配置信息和所述行动策略修改所述至少一个智能体的状态空间、动作空间和奖励函数中的至少一个。由于强化学习将如何进行受智能体的状态空间、动作空间和奖励机制的控制，因此，一旦确定了所述至少一个智能体的状态空间、动作空间和奖励函数，就可以生成所述至少一个智能体的行动计划。

换言之，强化学习里的智能体主要是通过状态空间、动作空间、奖励函数来跟环境做交互进行推演，人的知识和经验(例如，上文中用户规划的行动策略)通过交互入口输入给算法，后台算法根据人的知识和经验，对状态空间、动作空间进行缩减，对奖励函数进行矫正，从而达到算法和人的行业经验相结合的目的。

例如，智能体A与智能体B对战，智能体A有1000个动作、300个状态空间，正常情况1000个动作、300个状态空间都会被推演，需要一一尝试各种可能性才会得到较优结果，如果强化学习的局数设定没有把所有可能性都尝试完，结果有可能会不理想。而如果输入人的知识和经验，根据输入的知识和经验将智能体A的动作空间缩减为100、状态空间缩减为50，强化学习就会用被筛选过后的动作空间、状态空间进行推演，快速得到结果，如果在这个基础上叠加对奖励函数的矫正，就会快速得到较优结果。

可选地，尽管图1中未示出，但是图1所示的方法还可以包括：可视化地显示生成的行动计划；以及根据用户对所述行动计划的第二修改操作，修改所述行动计划。也就是说，用户可以结合自己的行业知识对行动计划进行修改。由于结合了人的行业经验，因此有利于后续强化学习效果的提升。

作为示例，所述行动计划包括所述至少一个智能体在每一轮的强化学习中的每一阶段中针对特定环境状态所要执行的任务计划以及各个阶段之间的转换条件。在这种情况下，上述根据用户对所述行动计划的第二修改操作，修改所述行动计划，可以包括：根据所述第二修改操作，修改所述任务计划和所述转换条件中的至少一个。这里，修改任务计划可以是新增任务、修改当前任务、删除任务等等。

图6是示出用于显示智能体的行动计划的示例性用户界面。如图6所示，生成的行动计划可以以甘特图的形式显示，然而，显示行动计划的形式不限于此，例如，还可以以流程图等形式来显示行动计划。此外，如图6所示，生成的行动计划可以包括智能体在每一轮的强化学习中的每一阶段中针对特定环境状态所要执行的任务计划以及各个阶段之间的转换条件。以阶段一为例，智能体遇到XXX威胁(特定环境状态的示例)，为了消除威胁要进行operation1、operation2、operation3、operation4的任务，同时智能体有XXX主动进攻的意图(特定环境状态的示例)，要进行另外一个operation1、operation2的任务。执行这些任务的目标都是为了要达到阶段一的预期效果，在达成阶段一的预期效果之后流转到阶段二(阶段一的预期效果达成即为进入下一阶段的转换条件)。

如图6所示的示例性用户界面上可以提供用于修改行动计划的各种操作入口。例如，每个任务卡片的右上角都有建议的按钮，点击后可以看到系统给出的其他任务计划的建议，通过建议入口或底部的加号按钮都可以增加operation任务。此外，每一条operation的右侧都有编辑图标，点击编辑图标会弹出operation的修改弹窗(如图4所示)，通过该弹窗可以进行单个任务的修改。另外，用户也可以修改每一阶段期望达到的效果，即，修改阶段之间的转换条件。例如，响应于用户双击“达到的效果”，可以出现修改转换条件的弹窗，通过该弹窗可以进行转换条件的修改。对行动计划所做的任何修改都将返回给后台的算法模型，并最终呈现在后续的强化学习中智能体实际执行的动作上，即，在本公开提出的执行强化学习的方法的实践阶段体现出来。

可选地，根据本公开示例性实施例，显示所述行动计划的用户界面上可以包括用于修改所述配置信息的操作入口。在这种情况下，尽管图1中未示出，但是图1所示的方法还可以包括：响应于接收到用户针对所述操作入口的选择操作，显示配置信息修改界面；根据用户通过所述配置信息修改界面执行的第三修改操作，修改所述配置信息中的至少一部分。

例如，响应于用户单击图6中阶段四后面的“修改”按钮，可以显示配置信息修改界面(如图5所示)。关于配置信息的修改已经在上文中结合图5进行过介绍，这里不再赘述。也就是说，在决策阶段，根据需要，用户也仍然可以结合自己的行业经验，对先前在构想阶段获取的配置信息进行修改，例如，对配置信息中的与强化学习的各阶段相关的信息进行修改，但是修改不限于仅对阶段进行修改，而是还可以修改其他配置信息。对配置信息所做的修改后续被反映到将在步骤S130生成的行动计划中。因此，上述根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，可以包括：根据修改后的配置信息和所述行动策略，生成所述行动计划。

最后，在步骤S140，根据所述行动计划执行所述至少一个智能体的强化学习。步骤S140对应于本公开提出的执行强化学习的方法的实践阶段。如上所述，所述行动计划包括所述至少一个智能体在每一轮的强化学习中的每一阶段中针对特定环境状态所要执行的任务计划以及各个阶段之间的转换条件，按照所述行动计划，所述至少一个智能体在每一轮的强化学习中的每一阶段中当面对特定环境状态时执行对应的任务计划下的各个任务。每个任务的执行又对应着各种指令的执行。以游戏为例，通过如上执行所述至少一个智能体的强化学习，可以推演A、B两个智能体在相同环境下的胜率。

如上所述，在生成行动计划后，可以根据用户对所述行动计划的第二修改操作，修改所述行动计划，在这种情况下，上述根据所述行动计划执行所述至少一个智能体的强化学习，可以包括：根据修改后的所述行动计划，执行所述至少一个智能体的强化学习。即，对行动计划所做的修改将被反映到后续智能体的强化学习中。

可选地，尽管图1中未示出，但是图1所示的方法还可包括：可视化地显示根据所述行动计划执行所述至少一个智能体的强化学习的过程。例如，可以以甘特图的形式可视化出强化学习的每一局的任务极其执行情况。图7是示出用于显示根据行动计划执行智能体的强化学习的过程的示例性用户界面。如图7所示，示例性用户界面的左侧区域可以显示任务计划(在图7中被表示为“operation”)、每个任务计划下的各个任务(在图7中被表示为“task”)、各个任务下的指令(在图7中被表示为“order”)及上述各项对应的执行时长，右侧画布上可以以甘特图的形式更直观地显示根据生成的行动计划执行强化学习时每个任务计划下的任务、每个任务执行了多少指令、以及每个指令执行的时长等等。在本公开中，实践阶段只是可视化地呈现推演过程，而不可再调整修改。

以上，已经参照图1至图7描述了根据本公开示例性实施例的执行强化学习的方法，根据上述方法，通过获取用户规划的所述至少一个智能体的行动策略，可以引入用户对强化学习项目的行业经验，而根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划，使得将算法和用户的行业经验进行了结合，因此强化学习的结果是行业知识与算法推荐的双重作用的结果，而不是仅仅依赖算法推演得到学习结果，由此提高了强化学习效果。

此外，现在强化学习产品的推演过程一般都是黑盒的，用户只能看到最后的推演结论及最后的训练结果的可视化，而无法看到推演的过程，也无法人为去干预这个过程，这容易导致用户对强化学习的最终结果产生不信赖感。然而，根据本公开示例性实施例的执行强化学习的方法不仅可以可视化规划阶段、决策阶段和实践阶段的过程，并且在规划阶段和决策阶段用户可以人工干预这个过程(即，结合人的行业知识和经验进行干预)，由此，使得用户不仅可以看到强化学习的推演过程，而且可以人为对其过程进行干预，这样更容易使用户对强化学习的最终结果产生信赖感。

图8是根据本公开示例性实施例的执行强化学习的装置的框图。

参照图8，装置800可包括配置信息获取单元810、行动策略获取单元820、行动计划生成单元830和强化学习执行单元840。具体而言，配置信息获取单元810可被配置为获取针对强化学习项目的配置信息，其中，所述配置信息包括与所述强化学习项目所涉及的至少一个智能体的强化学习有关的信息。行动策略获取单元820可被配置为获取用户规划的所述至少一个智能体的行动策略。行动计划生成单元830可被配置为根据所述配置信息和所述行动策略，生成所述至少一个智能体的行动计划。强化学习执行单元840可被配置为根据所述行动计划执行所述至少一个智能体的强化学习。

由于图1所示的视频处理方法可由图8所示的装置800来执行，并且配置信息获取单元810、行动策略获取单元820、行动计划生成单元830和强化学习执行单元840分别执行与图1中的步骤S110至S140对应的操作，因此，关于图8中的各单元所执行的操作中涉及的任何相关细节均可参见关于图1至图7的相应描述，这里都不再赘述。

此外，如在图1至图7的描述中提及的，尽管图1中未示出，但是图1所示的方法还可包括其他附加步骤，相应地，尽管图8中未示出，但是图8所示的装置800还可包括用于执行上述其他附加步骤的单元。例如，装置800还可包括显示单元(未示出)和修改单元(未示出)。显示单元可被配置为可视化地显示用户规划的行动策略，修改单元可被配置为根据用户对所述行动策略的第一修改操作，修改所述行动策略。此外，显示单元可被配置为可视化地显示生成的行动计划，修改单元可被配置为根据用户对所述行动计划的第二修改操作，修改所述行动计划。此外，显示单元还可以被配置为响应于接收到用户针对用于修改所述配置信息的操作入口的选择操作，显示配置信息修改界面，修改单元可被配置为根据用户通过所述配置信息修改界面执行的修改操作，修改所述配置信息中的至少一部分。另外，显示单元还可以被配置为可视化地显示根据所述行动计划执行所述至少一个智能体的强化学习的过程。

此外，需要说明的是，尽管以上在介绍装置800时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，上述各单元执行的处理也可以在装置800不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，装置800还可包括其他单元，例如，存储单元等。

图9是根据本公开示例性实施例的电子设备的框图。

参照图9，电子设备900可包括至少一个存储器901和至少一个处理器902，所述至少一个存储器存储计算机可执行指令，计算机可执行指令在被至少一个处理器执行时，促使至少一个处理器902执行根据本公开实施例的执行强化学习的方法。

作为示例，电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当所述指令由至少一个处理器执行时，促使所述至少一个处理器执行根据本公开示例性实施例的执行强化学习的方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的指令或计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：郜婕;王昱森;
专利申请人：第四范式（北京）技术有限公司;

上一篇：热泵空调系统控制方法及其系统
下一篇：一种稳压加压机构及超高压伺服控制推力油源系统