导航：首页> 有机化学〔2〕>基于双Actor-Critic神经网络的资源分配方法

基于双Actor-Critic神经网络的资源分配方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及资源分配优化技术领域，尤其涉及一种基于双Actor-Critic神经网络的资源分配方法。

背景技术

目前，以空间节点作为资源提供方、以服务区域内的用户终端作为资源使用方的空间节点系统具有灵活机动的信息传输和转发能力，近年来在各领域发挥重要作用。空间节点系统的动态性高，场景灵活多变，其映射所得的数字孪生体系统的资源分配模拟过程需要对实时数据输入做出智能化的调整，以满足对快速变化的物理世界中的应用场景实现真实孪生再现的目的。

随着对空间节点数据容量要求的提高，单个空间节点为单一服务区域提供资源的方式已经不能满足应用需求，能够满足多个服务区域资源分配的空间节点系统及其数字孪生体模拟技术开始逐渐发展和不断优化。另外，随着空间节点系统的规模越来越大，可用资源受到限制。由于服务区域间的业务请求分布存在地域上的不对称性和时域上不确定性，如果不能合理地通过数字孪生体模拟为服务区域选择最优的资源分配方式，将会导致一些高需求量的服务区域不能完全满足业务需求，而其他低需求量的服务区域仅使用空间节点所提供的部分容量，不合理的资源分配方式不仅无法提供令人满意的服务，而且还浪费了宝贵的可用资源。因此，有必要通过数字孪生体模拟，合理、有效地分配空间节点上的资源，动态适应非均匀业务请求的特性，所以，如何高效地利用空间节点的资源，是该领域相关研究中的重点。目前最亟待解决的问题是：如何在保证服务质量条件下，更加高效地利用有限的资源。由于空间节点系统具备高度灵活性的特点，可以实现服务区域之间的资源重用，根据业务请求灵活分配服务区域的资源。在当前已实现的技术中，空间节点通常将可利用的资源均匀分配给各个服务区域，并针对不同时间段的资源使用情况做出适应性优化，如考虑多个容量和资源使用特征的多目标优化，考虑加权系数的单目标优化等。虽然上述优化方法在一定程度上可以较好地提升资源分配性能，但是存在收敛速度较慢、算法性能依赖于初始值的合理选取的问题，同时，计算复杂度高的问题尤为突出。因此，上述优化方法均不能满足空间节点系统的强动态、高实时的无线资源分配需求。

近年来，人工智能领域采用深度神经网络进行训练和行为智能化的深度强化学习(Deep Reinforcement Learning)为一系列复杂控制与决策类问题提供了新的解决思路和优化方法，也是数字孪生体模拟物理世界行为的有效工具。在以空间节点数字孪生体系统所模拟的物理世界实体为代表的动态资源管理中，上一时刻的资源分配结果会对之后时刻的资源分配产生影响，因此是一个典型的连续决策问题，当前已有较多采用深度强化学习解决此类问题。深度强化学习作为一种线上学习算法，主要应用包括基于深度强化学习的高效资源分配框架，即将资源分配问题转化为智能体与环境交互的收益最大问题；另外还可以将多种类型的资源综合考虑和权衡，实现折中的性能和整体效能的提升。然而对于多个权衡目标，当前已有解决方案虽然可以采用不同时隙分配不同动作的方式实现动作输出，但并未真正意义上实现单个时隙为所有服务区域提供资源，具有较差的实时性，不适用于空间节点的数字孪生体系统。同时，随着数字孪生体系统所模拟的空间节点服务区域数量的增加，资源分配算法的维度进一步增加，庞大的状态空间和动作空间使得计算规模进一步增大，算法的收敛性和复杂度面临着巨大的挑战。对于这个问题，常规的深度强化学习已经无法胜任。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于双Actor-Critic神经网络的资源分配方法，用以解决现有资源分配方法实时性差、算法收敛性差等问题。

本发明公开了一种基于双Actor-Critic神经网络的资源分配方法，包括：

将空间节点系统映射成空间节点数字孪生体系统；所述空间节点数字孪生体系统包括：中央控制器，所有空间节点、服务区域及每一服务区域内的所有用户终端；

空间节点数字孪生体系统中的中央控制器内置多个实施单元，每个实施单元与多个空间上相邻的服务区域建立映射关系；将中央控制器中所有实施单元对服务区域的资源分配过程进行建模，得到强化学习模型；

基于双Actor-Critic神经网络算法对强化学习模型进行训练，得到训练通过的强化学习模型；

当中央控制器接收到用户终端的业务请求时，运行训练通过的强化学习模型，实现对相应空间节点系统的资源分配。

在上述方案的基础上，本发明还做出了如下改进：

进一步，在所述强化学习模型中，

将当前时刻时各服务区域的请求业务量集合和上一时刻时各服务区域中的资源分配情况集合进行组合，得到当前时刻的状态；

将当前时刻时各服务区域中的资源分配情况集合作为当前时刻的动作；

以最小化所有服务区域的提供资源量和请求业务量的差值的均值、最大化所有服务区域的提供资源量和请求业务量的比值的均值、最小化所有实施单元的在用资源块数目之和为优化目标，确定收益奖励。

进一步，t时刻的状态S(t)＝{Q(t)，D(t-1)}；其中，Q(t)表示t时刻时各服务区域的请求业务量集合；D(t-1)表示t-1时刻时各服务区域中的资源分配情况集合；

其中，D

进一步，在所述强化学习模型中，t时刻的收益奖励R(t)表示为：

R(t)＝M(t)-P(t)(1)

其中，M(t)、P(t)分别表示t时刻的奖赏、惩罚；

其中，K

其中，γ表示惩罚因子，N

进一步，

其中，

进一步，所述基于双Actor-Critic神经网络算法对强化学习模型进行训练，得到训练通过的强化学习模型，执行：

初始化强化学习模型中的状态、动作和收益奖励；初始化双Actor-Critic神经网络；初始化历史数据队列为空；初始化回合总数IterNum和每回合更新总步数StepNum；

在每一次回合，执行StepNum步轨迹更新，并将每步轨迹更新所得的状态、动作及收益奖励组成状态转移轨迹样本存入历史数据队列；并基于历史数据队列，更新后续策略π

重复执行多个回合的轨迹更新，直至双Actor-Critic神经网络的状态收敛，或者，达到回合总数IterNum，结束训练过程，最后得到训练通过的强化学习模型。

进一步，每步轨迹更新过程执行：后续策略π

所选取的动作满足：同一个实施单元映射到的所有服务区域之间不能同时使用相同的资源块；不同实施单元映射的距离相近的服务区域之间不同时使用同一个资源块。

进一步，若当前轨迹更新步数等于Step_t1，Step_t1表示后续策略π

将当前历史数据队列输入后续策略π

其中，Step_t1小于StepNum。

进一步，若当前轨迹更新步数等于Step_t2，Step_t2表示后续策略π

将当前历史数据队列中的状态分别输入到前序策略π

其中，Step_t2介于Step_t1和StepNum之间。

进一步，若当前轨迹更新步数等于StepNum，每回合更新总步数StepNum等于前序策略π

重复后续策略π

与现有技术相比，本发明至少可实现如下有益效果之一：

本发明提供的基于双Actor-Critic神经网络的资源分配方法，通过设置实施单元，将每一实施单元与空间上相邻的多个服务区域相映射，通过实施单元实现所映射的服务区域内的资源分配，有效提高了资源利用率。同时，基于所提供资源和服务区域的用户终端所需资源之间的差值和比值，建立了差值和比值模型，将空间节点数字孪生体系统资源分配问题建模成多目标优化问题，并给出空间节点数字孪生体资源分配的优化方法。最后，通过智能体与环境之间的交互建立强化学习框架和数据接口，然后进行强化学习框架中的状态、动作和奖励设计，并给出动作输出模式重构、奖赏变换和收益奖励计算等具体实现方式设计，保证了算法具有计算复杂度低、效率和实时性高等优点，很好地解决了现有资源分配方法难以满足空间节点系统的强动态、高实时性的无线资源分配需求的问题。

此外，本发明设计了基于双Actor-Critic神经网络建立实现框架，给出前序策略和后续策略综合的决策支撑方法，同时给出神经网络中损失函数的设计方法，通过限制策略更新幅度来降低参数设置的敏感性，并引入Actor-Critic模式，保证了算法的较高的训练效率，兼容大规模的空间节点数字孪生体系统的复杂高维度状态和动作的应用场景。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例提供的基于双Actor-Critic神经网络的资源分配方法的流程图；

图2为本发明实施例提供的实施单元与服务区域的映射关系示意图；

图3为本发明实施例提供的基于双Actor-Critic神经网络的算法框架；

图4为用户终端在一天24小时内的请求业务量的仿真模拟示例；

图5为本发明所提算法与现有固定资源分配算法的对比示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于双Actor-Critic神经网络的资源分配方法，流程图如图1所示，该方法的步骤介绍如下。

步骤S1：将空间节点系统映射成空间节点数字孪生体系统；所述空间节点数字孪生体系统包括：中央控制器，所有空间节点、服务区域及每一服务区域内的所有用户终端。

空间节点系统包括中央控制器、空间节点、服务区域及每一服务区域内的所有用户终端。

在空间节点系统中，服务区域内的用户终端作为资源使用方，空间节点作为资源提供方，用户终端通过业务请求的方式请求使用空间节点中的资源块，中央控制器根据用户终端的业务请求和空间节点的资源分配情况，将空间节点中可用的资源块分配至各个服务区域。

在将空间节点系统映射成空间节点数字孪生体系统的过程中，将空间节点系统中的中央控制器映射成空间节点数字孪生体系统中的中央控制器，将空间节点系统中的资源块映射成空间节点数字孪生体系统中的资源块，将空间节点系统中的服务区域映射成空间节点数字孪生体系统中的服务区域，将空间节点系统中每一服务区域内的用户终端映射成空间节点数字孪生体系统中每一服务区域内的用户终端；从而形成空间节点数字孪生体系统。

步骤S2：空间节点数字孪生体系统中的中央控制器内置多个实施单元，每个实施单元与多个空间上相邻的服务区域建立映射关系；将中央控制器中所有实施单元对服务区域的资源分配过程进行建模，得到强化学习模型。

在空间节点数字孪生体系统中，假设服务区域的总数为N

对空间节点系统中的所有服务区域进行分组，每组中的多个服务区域空间上相邻。

为了使得资源高效利用，在本实施例中，中央控制器内置多个实施单元，将每个实施单元与多个空间上相邻的服务区域即每个实施单元分别与一组服务区域建立映射关系，形成映射矩阵。如图2所示，24个服务区域中，每个实施单元与空间上相邻的4个服务区域与建立映射关系。设中央控制器中实施单元的总数为N

在本实施例中，每个实施单元以分块使用的方式为其所映射的若干服务区域提供所有可用的资源块，以避免因相邻服务区域使用相同资源产生的干扰。例如，空间节点中共有100单位的资源块，对某个实施单元，将这100单位的资源块平均分为4份，为该实施单元对应的4个服务区域分别提供25单位的资源块。不同实施单元使用相同的这100单位的资源，通过后续建模过程中的约束条件，避免不同实施单元映射、但空间上相邻的服务区域之间的干扰。

在每个服务区域中，用户终端的业务请求随时间不断变化，因此，本实施例将用户终端的业务请求过程建模为在离散时间点t

假设N

在本实施例中，将中央控制器中所有实施单元对服务区域的资源分配过程建模为一个多目标优化问题，将实施单元分配资源的规则作为多目标优化问题的一个约束条件。具体地，从以下几个方面，对多目标优化问题进行分析：

1)针对服务区域之间的请求业务量分布不均的问题，根据不同地理位置和不同时间段的业务容量需求，动态地分配空间节点上的资源块，尽可能使每一服务区域的提供资源量接近请求业务量。

2)不同实施单元连接的服务区域在同一时间使用相同的资源块时，会产生干扰，通过资源分配控制，要使得干扰尽可能的小，从而有效提高资源利用率，优化系统容量。

3)由于干扰的影响，数字孪生体系统为各服务区域之间提供的容量相互制约，此消彼长。资源在分配过程中，要权衡单个服务区域的容量与整体系统的容量，即从整个数字孪生体系统模拟的角度(全部服务区域)和个体(单个服务区域)的角度结合，综合评估用户满意度。

4)由于实施单元具有资源使用的独特属性，即，同一个实施单元映射到的所有服务区域之间不能使用相同的资源块，这是优化问题求解过程中的一个限制条件。

因此，本实施例中的多目标优化问题描述如下：

优化目标1：“提供资源量”和“请求业务量”之间的差值尽可能接近，即最小化所有服务区域“提供资源量”和“请求业务量”之差的均值。

优化目标2：“提供资源量”和“请求业务量”之间的比值尽可能接近，即最大化“提供资源量”和“请求业务量”之比的均值，越接近于1，即说明平均每个服务区域中对请求的满足程度越高。

优化目标3：在满足容量的前提下，各实施单元所用的资源块数量越少越好。即最小化所有实施单元的在用资源块数目之和。

优化目标1和2相当于正向优化(提供容量越多越好)，优化目标3相当于反向优化(所用资源越少越好)，二者通过多目标优化形成折中最优解。

分析可知，本实施例中的多目标优化问题适合采用强化学习的方式进行求解。即，智能体在学习的开始阶段，没有任何先验知识，在自主与环境的交互中，通过不断试错来优化策略，获得环境的即时反馈，挖掘学习奖赏回报与行为之间的关系，进而提升智能体的决策能力。在本实施例中，智能体一开始并未掌握实施单元管理资源的规则，将最优化资源分配作为优化目标，通过在自主探索阶段进行试错学习，逐渐自主学习到实施单元管理资源的规则。下面，对本实施例所构建的强化学习模型进行如下介绍。

强化学习模型由智能体和环境组成，通过智能体的动作与环境给出的状态和收益奖励反馈来实现交互。在强化学习模型中，将服务区域的当前时刻的请求业务量和前一时刻的资源分配情况组成状态信息State，智能体Agent根据提取到的环境中的状态信息State统筹规划所有服务区域的资源具体分配方案，并与执行资源分配决策的中央控制器进行不间断的自主互动，执行智能体Agent给出的资源管理决策，随之当前的环境状态信息变成下一个状态，同时产生收益奖励反馈给智能体。

在本实施例提供的强化学习模型中，将当前时刻时各服务区域的请求业务量集合和上一时刻时各服务区域中的资源分配情况集合进行组合，得到当前时刻的状态；将当前时刻时各服务区域中的资源分配情况集合作为当前时刻的动作；以最小化所有服务区域的提供资源量和请求业务量的差值的均值、最大化所有服务区域的提供资源量和请求业务量的比值的均值、最小化所有实施单元的在用资源块数目之和为优化目标，确定收益奖励。具体地，状态State、动作Action和收益奖励Reward的具体设计方法如下。

(1)状态

在t时刻，智能体观测到的空间节点数字孪生体系统中的所有服务区域的状态S(t)包括两部分：t时刻时各服务区域的请求业务量，t-1时刻时各服务区域中的资源分配情况。具体设计如下：

1)t时刻时各服务区域的请求业务量集合：

是一个1×N

t-1时刻时各服务区域中的资源分配情况集合：

是一个N

因此，状态S(t)＝{Q(t)，D(t-1)}。通过前后相邻的两个时刻的状态建立的连接关系，可以利用一定时间的迭代过程使得状态趋于平稳，在满足最终优化目标的同时，实现算法的快速收敛。

(2)动作

在本实施例中，将t时刻时各服务区域中的资源分配情况集合D(t)作为第t时刻的动作。具体地，

具体实施过程中，根据状态空间的类型，首先将动作建立为动作对应概率的分布函数，然后通过预测收益奖励和环境的即时反馈，来调节动作概率的分布函数，增大收益奖励值大的资源分配决策的出现概率，减少收益奖励值小的资源分配决策的出现概率，并根据动作概率分布函数，从动作空间中随机选择动作。

同时，根据优化目标的约束条件限制，选取的动作应满足：同一个实施单元映射到的所有服务区域之间不能同时使用相同的资源块；不同实施单元映射的距离相近的服务区域之间不同时使用同一个资源块。这样，就在避免干扰的前提下，实现了资源利用率的最大化。

(3)收益奖励

收益奖励是环境对所采取的动作的反馈，是空间节点数字孪生体系统模拟物理世界过程中所追求的关键性能指标对决策质量的评价。在本实施例中，为了进一步提高算法的训练效率和训练效果，综合空间节点数字孪生体系统的约束条件，综合考虑多个优化目标，对多优化目标采用加权的方式，得到了最终的收益奖励函数。具体过程描述如下。

首先，描述差值和比值模型：

空间节点数字孪生体系统在t时刻对所有服务区域提供的总资源量

对于每一服务区域，“提供资源量”和“请求业务量”之比给出了为服务区域中分配的资源对该服务区域请求的业务的满足程度，则：对于服务区域i，

同时，对于每一服务区域，“提供资源量”和“请求业务量”之差给出了为服务区域分配的资源与该服务区域所需的资源之间的差距，则：对于服务区域i，H

为了将差值和比值建立到同一个模型中，统一设计奖励，需要确保二者在同一个量级水平，而比值总是处于1附近的数值，因此需要将差值进行归一化，即得到归一化差值

在所提供的资源低于请求业务量的情况下，整体来看，系统不能满足需求，这种情况下在优化问题中的权重应调低，即服务区域i在t时刻的资源不足权重因子α

在所提供的资源高于请求业务量的情况下，整体来看，系统能够满足需求，这种情况下在优化问题中的权重应调高，即服务区域i在t时刻的资源盈余权重因子β

在本实施例中，收益奖励函数需要包含两个方面：对于提高优化目标的奖赏，和对于降低优化目标的惩罚。

对于提高优化目标，基于资源不足权重因子和资源盈余权重因子，考虑各服务区域的情况进行综合设计。设计t时刻的奖赏M(t)表示为：

在公式(6)中，对加和号内部的项进行立方运算，对资源与需求之间的关系进行放大，以加速收敛。对于上式第二项，是基于资源不足权重因子的计算，其最优情况是资源能够满足需求的情况，此时α

因此，应该引入对于资源分配不合理进行惩罚的函数，以均衡这一项。设计t时刻的惩罚P(t)为：

其中，Y表示惩罚因子，可根据数字孪生体系统仿真的实际情况调整γ的取值。

综上，本实施例中的t时刻的收益奖励R(t)包括上述的奖赏M(t)和惩罚P(t)两部分，即：

R(t)＝M(t)-P(t)(8)

分析可知，在公式(8)中，以最小化所有服务区域的提供资源量和请求业务量的差值的均值、最大化所有服务区域的提供资源量和请求业务量的比值的均值为正向优化目标，确定M(t)；以最小化所有实施单元的在用资源块数目之和为负向优化目标，确定P(t)。上述收益奖励的理论最大值为1，当其为1时，此时的资源分配既能够满足所有服务区域的用户需求，又能够保证合理调度资源而不造成浪费，是最优决策。

步骤S3：基于双Actor-Critic神经网络算法对强化学习模型进行训练，得到训练通过的强化学习模型。

首先，双Actor-Critic神经网络的算法框架如图3所示，做如下描述：在算法框架中，智能体包含后续策略π

Actor神经网络设计：在后续策略π

Critic神经网络设计：为了降低收益奖励对Actor神经网络更新的绝对作用，用深度神经网络构建Critic神经网络，用来拟合环境与收益奖励之间的关系，利用Critic神经网络的评估能力辅助Actor神经网络的优化，其方法为：增大奖励值大的资源分配决策的出现概率，减少奖励值小的资源分配决策的出现概率。

在本实施例中，将以上Actor-Critic模式应用于空间节点数字孪生体系统的资源分配问题中，有效提高了神经网络的更新效率。但是，仅采用以上方法仍存在一些缺点：基于策略梯度易陷入局部最优解，难以收敛到最佳策略，并且训练效率较低。因此，本实施例在以上框架基础上，引入了限制策略更新幅度的机制，实现能够保证训练稳定且提高训练速度的方式，具体设计如下。

为了提高策略神经网络的更新效率，在上述的双Actor-Critic神经网络的策略中，分别体现后续策略π

在本实施例中，基于前序策略π

如果ξ(θ)＞1，则后续策略π

在前序策略和后续策略更新的过程中，需要限制Actor神经网络的参数的更新幅度在一定范围内，以避免产生过大的参数更新而导致效果越来越差。因此，设定范围如下：E[min(ξ(θ)·Adv_actor，trunc[ξ(θ)]·Adv_actor)]，其中，E代表概率期望值，Adv_actor是Actor神经网络的优势函数，它代表在某个状态下，执行某个动作后使得状态迁移到另一个状态后，所多出来的价值。

trunc[ξ(θ)]表示分段函数，保证前序策略和后续策略的神经网络参数更新幅度不能相差过大。具体形式为：

以上通过min函数的作用，实现对参数更新幅度的限制，具体解释如下：如果函数Adv_actor＞0，则表明当前决策与之前决策相比具有优势，此时希望ξ(θ)越大越好，但是限制更新幅度的上限为1+σ。如果函数Adv_actor＜0，则表明之前决策与当前决策相比具有优势，此时希望ξ(θ)越小越好，但是限制更新幅度的下限为1-σ。

通过以上方法限制神经网络更新幅度的上下限，可以有效地提高神经网络的训练效率，并且有效防止策略网络陷入局部最优值。

另外，在本实施例中，为了有效减少训练数据量，提高神经网络的训练效率，设置了历史数据队列，用于存储以往产生的样本经验。在更新神经网络时，通过对过往时刻策略神经网络产生的数据进行采样，这样保证更新神经网络的时候，训练样本经验可以包含多个不同策略产生的样本。如果样本经验的策略较好，就加以重复利用；如果样本经验的策略较差，就舍弃。这样就可以加速神经网络的训练。综上，本算法通过引进历史数据队列，并通过对前序和后续策略的优化来降低对参数设置的敏感性，每一次更新的策略能够和原策略的差距保持在一定的范围内，确保了神经网络的训练效率。

在本实施例中，神经网络的损失函数用于描述神经网络计算出来的预测值和真实值相比的偏离程度。智能体通过与环境的交互在采样数据之间交替，通过反复的学习来更新Actor神经网络和Critic神经网络，以拟合数字孪生体所模拟的物理世界中的复杂环境特性。该过程通过最小化Critic神经网络的损失函数来训练其神经网络的参数，从而指导Actor神经网络中决策的好坏。

Critic神经网络的损失函数如下所示：

同样，通过最大化Actor神经网络损失函数来训练其权重参数，使得Actor神经网络获得最佳的策略。Actor神经网络的损失函数如下所示：

在对策略神经网络进行一定次数的更新后，智能体训练出一个稳定的模型，根据服务区域用户整体的容量需求，动态、快速、高效地将资源分配给服务区域中的用户。

基于上述算法及关键技术的介绍，本实施例给出了如下基于双Actor-Critic神经网络算法对强化学习模型进行训练的过程：

步骤S31：初始化强化学习模型中的状态、动作和收益奖励；初始化双Actor-Critic神经网络；初始化历史数据队列为空；初始化回合总数IterNum和每回合更新总步数StepNum。

具体地，初始化空间节点数字孪生体系统资源分配的基本元素{S(t)，A(t)，R(t)}；其中，S(t)表示状态，A(t)表示动作，R(t)表示收益奖励。

在初始化双Actor-Critic神经网络的过程中，初始化后续策略π

步骤S32：在每一次回合，执行StepNum步轨迹更新，并将每步轨迹更新所得的状态转移轨迹样本存入历史数据队列；并基于历史数据队列，更新后续策略π

具体地，每步轨迹更新过程执行：后续策略π

若当前轨迹更新步数等于Step_t1，Step_t1表示后续策略π

若当前轨迹更新步数等于Step_t2，Step_t2表示后续策略π

若当前轨迹更新步数等于StepNum，每回合更新总步数StepNum等于前序策略π

在上述更新过程中，Step_t1小于StepNum，Step_t2介于Step_t1和StepNum之间。

步骤S33：重复执行多个回合的轨迹更新，直至双Actor-Critic神经网络的状态收敛，或者，达到回合总数IterNum，结束训练过程，最后得到训练通过的强化学习模型。

步骤S4：当中央控制器接收到用户终端的业务请求时，运行训练通过的强化学习模型，实现对相应空间节点系统的资源分配。

具体地，当中央控制器接收到用户终端的业务请求时，生成当前时刻的状态；将当前时刻的状态输入训练通过的强化学习模型中后续策略π

需要强调的是，由于空间节点数字孪生体系统和相应的空间节点系统存在映射关系，因此，响应用户终端的请求的动作，可以直接作用到空间节点数字孪生体系统所映射的空间节点系统，以实现空间节点系统的资源分配。

综上所述，本实施例提供的基于双Actor-Critic神经网络的资源分配方法，针对空间节点可用的资源有限性，通过数字孪生体模拟空间节点系统中受服务区域内用户业务请求、地理位置、时间与传输环境状态等诸多因素影响，造成时空业务请求量存在差异性和时变性，以及资源重用引起的复杂干扰问题，在保证用户服务质量前提下，给出了动态、实时、合理、高效地智能分配空间节点有限的资源的方法。在该方法中，通过设置实施单元，将每一实施单元与空间上相邻的多个服务区域相映射，通过实施单元实现所映射的服务区域内的资源分配，有效提高了资源利用率。同时，基于所提供资源和服务区域的用户终端所需资源之间的差值和比值，建立了差值和比值模型，将空间节点数字孪生体系统资源分配问题建模成多目标优化问题，并给出空间节点数字孪生体资源分配的优化方法。最后，通过智能体与环境之间的交互建立强化学习框架和数据接口，然后进行强化学习框架中的状态、动作和奖励设计，并给出动作输出模式重构、奖赏变换和收益奖励计算等具体实现方式设计，保证了算法具有计算复杂度低、效率和实时性高等优点。

此外，为解决现有算法难以适应髙维、复杂状态和动作空间所带来的大规模计算要求，以及训练得到的最优策略作为确定性策略无法解决随机策略问题的弊端，本实施例设计了基于双Actor-Critic神经网络建立实现框架，给出前序策略和后续策略综合的决策支撑方法，同时给出神经网络中损失函数的设计方法，通过限制策略更新幅度来降低参数设置的敏感性，并引入Actor-Critic模式，保证了算法的较高的训练效率，兼容大规模的空间节点数字孪生体系统的复杂高维度状态和动作的应用场景；与典型的基于深度Q网络的资源分配算法相比，本实施例所提算法克服了深度Q网络受限于只擅长单维度动作输出的特性、无法实现单个时隙为所有服务区域提供资源分配服务、实时性较差的弊端，可以支持多维度动作同时输出，实现单个时隙为所有服务区域提供资源分配服务，满足系统高动态和实时性的资源分配需求。

本发明中的另一实施例，给出了一种基于双Actor-Critic神经网络的资源分配方法的示例。在该示例中，每个服务区域的用户终端的请求业务量是通过随机生成仿真而得到，仿真过程考虑了请求用户终端的位置和使用时间变化、以及空间节点的可用性。一般来说，用户终端的活跃程度的变化随一天24小时而周期性变化。每天的9:00～23:00，用户终端活跃度较高，其它时间段用户活跃度相对较低。用户终端在一天24小时内的请求业务量的仿真模拟示例如图4所示。

为了准确评估所提出的算法对空间节点数字孪生体系统中服务区域内的用户终端所提供的整体能力，待算法稳定运行后，在不同时间点上，对所有服务区域进行资源分配后的收益奖励函数进行仿真计算。基于以上的对算法性能评估的关键性指标，对所提出的资源分配算法进行仿真，并将仿真结果与传统算法进行对比，以准确评估所提算法的先进性和有效性。在基于深度Q网络的资源分配算法中，智能体作为学习的主体将会根据奖励选择动作，再获得环境的反馈，并在这整个过程中学习选择动作的策略来不断的提高自己获得奖励的能力。图5为本发明所提算法与现有基于深度Q网络的资源分配算法的对比示意图。由图5可知，本实施例所提算法在一天当中服务区域请求资源量不同的大部分阶段均能够得到比基于深度Q网络算法较优的结果。

本领域技术人员可以理解，实现上述实施例方法及系统的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：安世亚太科技股份有限公司;

上一篇：一种基于java自定义注解可动态配置的日志脱敏方法
下一篇：通过多元醇甲酸酯生产过氧甲酸