掌桥专利:专业的专利平台
掌桥专利
首页

基于深度强化学习的无线网络模拟器

文献发布时间:2023-06-19 19:32:07


基于深度强化学习的无线网络模拟器

技术领域

本公开一般涉及无线通信领域。特别地,本公开涉及用于模拟无线网络的设备和相关方法以及计算机程序。

背景技术

现代无线网络在无线电接入网络(RAN)中具有大量部署的基站,例如LTE中的eNB和5G NR中的gNB,以将移动用户无线连接到网络中,在核心网络(CN)中具有分布式网络功能(NF)以支持全国范围的移动性业务处理,以及在传输网络(TN)中具有网络交换机以连接RAN和CN。这些网络组件非常复杂,难以精确地进行数学建模。例如,基站由多个协议栈(例如,PHY、MAC、RLC、RRC)组成,其代可以范围从LTE中的BTS、eNB到NR中的gNB。结果,难以使移动用户和BS之间的无线传输公式化。由于这些组件彼此互连,例如RAN中的无线传输、TN中的业务传输和CN中的分组处理,因此整个网络变得极其复杂,并且以准确的方式进行数学公式化是非常具有挑战性的。

现有的网络管理解决方案通常是在网络模拟器内导出的,该网络模拟器通常是基于蜂窝网络的(简化)数学公式构建的。例如,可以在RAN模拟器中导出用户调度算法,以改进BS的吞吐量,该RAN模拟器模拟移动用户的业务到达和信道动态。例如,NS-3是广泛使用的网络模拟器,其中事件被插入、执行、监视和脱离,以模拟不同网络的传输。然而,它抽象了物理层中传输分组的非常详细的处理。结果,这样的模拟器不能够准确地仿真真实的大规模蜂窝网络。这些基于模型的方法遭受网络模拟器和真实网络之间的显著差异影响。换句话说,这些导出的解决方案可能在性能和有效性的降级方面受到损害。结果,他们未能在朝向5G并且更高的日益复杂的网络中高效地优化网络性能。

发明内容

独立权利要求阐述了本公开的各种示例实施例所寻求的保护范围。本说明书中描述的不落入独立权利要求范围的示例实施例和特征(如果有的话)应被解释为对于理解本公开的各种示例实施例有用的示例。

模拟器设备的示例实施例包括至少一个处理器和至少一个包括计算机程序代码的存储器。所述至少一个存储器和计算机程序代码被配置为利用所述至少一个处理器使模拟器设备:配置深度强化学习DRL代理。每个DRL代理被配置为仿真无线网络的组件的操作。每个DRL代理被配置为表示无线网络信息和组件信息的状态。DRL代理被配置为接收和执行训练数据,使得扩充状态和估计奖励。模拟器设备被配置为互连DRL代理以仿真无线网络中组件之间的真实连接,并基于作为输入的状态执行DRL代理以在线模拟无线网络。例如,模拟器设备可以利用高保真度仿真端到端网络。可以获得具有DRL技术的分布式无模型模拟框架。可以获得用于具有状态扩充和奖励估计的代理的鲁棒训练算法。

在示例实施例中,替代地或除了上述示例实施例之外,每个DRL代理被配置为仿真真实无线网络中的个体组件,其中该组件包括该个体组件,并且该无线网络包括在特定地理区域中实现的真实无线网络。网络和用户代理可以仿真真实网络组件和用户的行为。

在另一示例实施例中,替代地或除了上述示例实施例之外,状态包括表示组件的技术内部信息的内部状态,并且每个DRL代理被配置为接收内部状态作为输入。个体组件的技术特征可以被考虑用于模拟。

在示例实施例中,替代地或除了上述示例实施例之外,状态包括表示无线网络用户状态和其它DRL代理的状态的外部状态,并且每个DRL代理被配置为接收外部状态作为输入。例如,在模拟中可以考虑与其它网络组件和用户设备的交互。

在示例实施例中,替代地或除了上述示例实施例之外,每个DRL代理进一步被配置为基于所述状态输出下一个内部状态,该下一个内部状态表示基于所述状态的DRL代理的网络配置。可以模拟网络组件的交互和动态。

在示例实施例中,替代地或除了上述示例实施例之外,用户代理进一步被配置为仿真无线网络的用户设备的操作,并且用户代理被配置为生成无线网络的数据业务和无线网络内的用户性能。例如,网络中的设备可以模拟用户动作。

在示例实施例中,替代地或除了上述示例实施例之外,DRL代理被配置为接收无线网络内的数据业务和用户的性能。也可以模拟网络中的用户交互。

在示例实施例中,替代地或除了上述示例实施例之外,用户设备包括移动设备。

在示例实施例中,替代地或除了上述示例实施例之外,针对扩充,该设备进一步被配置为使用自动编码器来扩充状态。可以实现鲁棒的训练算法。

在示例实施例中,替代地或除了上述示例实施例之外,自动编码器包括变分自动编码器VAE。

在示例实施例中,替代地或除了上述示例实施例之外,针对奖励估计,设备进一步被配置为使用分布回归。可以为训练配置获得鲁棒的训练算法。

在示例实施例中,替代地或除了上述示例实施例之外,该设备被配置为用于奖励估计的高斯过程回归GPR。

在示例实施例中,替代地或除了上述示例实施例之外,该设备被配置为扩充状态,使得为DRL代理获得大量状态;以及

该设备被配置为通过基于状态的相似性的分布回归来奖励对大量状态的估计。模拟器设备可以实现用于模拟的鲁棒的训练配置。

在示例实施例中,替代地或除了上述示例实施例之外,无线网络包括移动网络。

在示例实施例中,替代地或除了上述示例实施例之外,DRL代理被配置为仿真无线网络的基站、交换机或数据处理器单元。

模拟器设备的示例实施例包括用于施行以下各项的部件:

配置深度强化学习DRL代理,其中每个DRL代理被配置为仿真无线网络的组件的操作,并且每个DRL代理被配置为表示无线网络的信息和组件的信息的状态;

由DRL代理接收和执行训练数据,使得扩充状态和估计奖励;

互连DRL代理以仿真无线网络中组件之间的真实连接;和

基于作为输入的状态执行DRL代理,以在线模拟无线网络。

一种方法的示例实施例包括:

配置深度强化学习DRL代理,其中每个DRL代理被配置为仿真无线网络的组件的操作,并且每个DRL代理被配置为表示无线网络的信息和组件的信息的状态;

由DRL代理接收和执行训练数据,其中扩充状态并且估计奖励;

互连DRL代理以仿真无线网络中组件之间的真实连接;和

基于作为输入的状态执行DRL代理,以在线模拟无线网络。

在示例实施例中,替代地或除了上述示例实施例之外,在状态扩充之前,进一步施行DRL代理的离线训练。

在示例实施例中,替代地或除了上述示例实施例之外,每个DRL代理被配置为仿真真实无线网络中的个体组件,其中该组件包括该个体组件,并且该无线网络包括在特定地理区域中实现的真实无线网络。

在示例实施例中,替代地或除了上述示例实施例之外,该方法被配置用于无模型模拟。

计算机程序产品的示例实施例包括程序代码,该程序代码被配置为当在计算机上执行该计算机程序产品时,施行根据任何上面的示例实施例的方法。

附图说明

被包括以提供对示例实施例的进一步理解并构成本说明书的一部分的附图图示了示例实施例,并与描述一起帮助解释示例实施例的原理。在附图中:

图1图示了本文中描述的主题的示例实施例,其图示了被配置为模拟无线网络的设备;

图2图示了本文中描述的主题的示例实施例,其图示了模拟器系统;

图3图示了本文中描述的主题的示例实施例,其图示了用于模拟无线网络的方法的流程图表示;

图4图示了根据示例实施例的网络代理的框图;

图5图示了根据示例实施例的用户代理的框图;

图6图示了根据示例实施例的训练算法的框图;

图7图示了根据示例实施例的状态扩充的框图;和

图8图示了根据示例实施例的奖励估计的框图。

在附图中,类似的附图标记用于指定类似的部分。

具体实施方式

现在将详细参考示例实施例,其示例在附图中图示。下面结合附图提供的详细描述意图作为对本示例的描述,而不意图表示本公开可以被构造或利用的仅有形式。该描述阐述了该示例的功能以及构造和操作该示例的步骤顺序。然而,相同或等效的功能和序列可以通过不同的示例实施例来实现。

图1是根据示例实施例的被配置为模拟无线网络的设备100的框图。设备100可以被称为模拟器设备100。

模拟器设备100可以包括一个或多个处理器101和一个或多个包括计算机程序代码103的存储器102。模拟器设备100还可以包括至少一个通信接口104以及其它元件,诸如输入/输出模块(图1中未示出)。

根据示例实施例,所述至少一个存储器102和计算机程序代码103被配置为利用所述至少一个处理器101使模拟器设备100配置DRL代理来模拟网络组件的行为。DRL代理将网络状态和用户业务取作输入。它生成下一个网络状态和用户性能。导出为DRL代理配置的设备100的训练算法,以处理网络组件中的时间相关性质。

此外,模拟器设备100被配置为训练算法,使得它使能在利用真实网络组件和用户收集的有限数量的转变下进行鲁棒的推断。它是通过使用自动编码器架构利用状态扩充来导出的。它还通过使用局部回归的奖励估计算法来配置,例如利用高斯过程。

设备100相应地被配置为基于深度强化学习的网络和用户模拟器。代替常规的基于模型的模拟器设计,设备100被配置为导出无模型方法,从而以端到端的方式模拟蜂窝网络。设备100可以实现关于增量部署的网络基础设施的高可扩展性,使能对分布式DRL代理的有效训练,并处理极端的网络动态。

模拟设备100具有分布式无模型框架,该框架包括多个DRL代理来仿真不同网络组件的行为。该框架允许在DRL代理上热插和拔,并可以根据网络拓扑的改变有效地扩展。与常规的基于模型的方法相比,它通过利用高维度深度神经网络构架来实现高保真度行为模拟。

尽管模拟器设备100可以被描绘为仅包括一个处理器101,但是网络节点设备100可以包括更多的处理器。在示例实施例中,存储器102能够存储指令,诸如操作系统和/或各种应用。

此外,处理器101可能能够执行存储的指令。在示例实施例中,处理器101可以被体现为多核处理器、单核处理器或者一个或多个多核处理器和一个或多个单核处理器的组合。例如,处理器101可以被体现为各种处理设备中的一个或多个,诸如协处理器、微处理器、控制器、数字信号处理器(DSP)、具有或不具有伴随的DSP的处理电路,或者包括集成电路的各种其它处理设备,诸如例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、微控制器单元(MCU)、硬件加速器、专用计算机芯片或诸如此类。在示例实施例中,处理器101可以被配置为执行硬编码的功能性。在示例实施例中,处理器101被体现为软件指令的执行器,其中当指令被执行时,指令可以具体地配置处理器101来施行本文中描述的算法和/或操作。

存储器102可以体现为一个或多个易失性存储器设备、一个或多个非易失性存储器设备、和/或一个或多个易失性存储器设备和非易失性存储器设备的组合。例如,存储器102可以体现为半导体存储器(诸如掩模ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪存ROM、RAM(随机存取存储器)等)。

设备100可以体现在例如计算机中。替代地或附加地,计算机可以是具有各种分布式单元的云计算机系统。

当设备100被配置为实现一些功能性时,设备100的(某个或某些)组件——诸如至少一个处理器101和/或存储器102——可以被配置为实现该功能性。此外,当至少一个处理器101被配置为实现某个功能性时,该功能性可以使用例如包括在存储器102中的程序代码103来实现。例如,如果模拟器设备100被配置为施行操作,则至少一个存储器102和计算机程序代码103可以被配置为利用至少一个处理器101使网络节点设备100施行该操作。

本文中使用的一些术语可能遵循以其当前形式的4G或5G技术的命名方案。然而,该术语不应当被认为是限制性的,并且该术语可以随着时间而改变。因此,以下关于任何示例实施例的讨论也可以应用于其它技术。深度强化学习DRL可能涉及组合了强化学习(RL)和深度学习的机器学习的子领域。RL考虑了计算代理通过试错法学习做出决策的问题。深度RL将深度学习并入到解决方案中,从而允许代理从非结构化输入数据做出决策,而无需手动工程设计状态空间。深度RL算法能够接受非常大的输入,例如视频游戏中渲染到屏幕的每个像素,并决定施行什么动作来优化目标,例如最大化游戏评分。DRL已经被用于多种多样的应用,包括但不限于模拟、设计等。高斯过程回归GPR可能涉及适用于机器学习领域中的非参数贝叶斯回归方法。GPR具有若干益处,很好地处理小数据集,并且具有提供对预测的不确定性测量的能力。

图2图示了本文中描述的主题的示例实施例,其图示了模拟器设备100的网络模拟器。

如图2中描绘的,网络模拟器由互连的多个DRL代理(200_1,200_2,200_3,200_4)组成。这些代理200利用DRL技术设计,以仿真真实无线网络组件(203_1,203_2,203_3,203_4)的行为。模拟器系统为用户代理201提供训练202_1,并且为DRL代理200提供训练202_2。每个代理200将内部状态和外部状态二者取作输入。每个代理200基于输入和配置生成诸如用户性能和下一个内部状态之类的动作。用户代理(201_1,202_2,201_3)在网络模拟中仿真用户性能。代理200是互连的,这意味着当采取下一个动作时,代理200将观察其它代理的状态。代理200之间的连接反映了真实的网络组件相互依赖性,例如eNB之间的X2接口,以及例如eNB和交换机之间的光纤。

图3图示了本文中描述的主题的示例实施例,其图示了方法的流程图表示。网络模拟器的一般训练和模拟操作在图3的示例实施例中图示。

在操作300处,每个代理200被设计成仿真个体网络组件203的行为。相应地定义了状态空间和动作空间。

在操作301处,操作离线训练阶段。通过使用离线数据集或与真实网络组件203的在线交互,独立地训练DRL代理200。用户代理201也可以在该阶段被训练。

在操作302处,当处理极端多样的网络动态时,为了增强DRL代理200的鲁棒性,状态被扩充。这可以例如利用自动编码器技术来施行,以遍历状态和代理200、201的多个可能性。

在操作303处,DRL代理200在在线模拟阶段期间被按需包括。它们的连接是基于真实网络中它们的模拟网络组件203的真实连接来确定的。

在操作304处的在线模拟阶段中,基于输入,例如网络业务,执行代理200。DRL代理200将内部和外部状态二者取作输入。代理200、201生成下一个内部状态和用户性能相关信息。

该方法可以由例如模拟器设备100来施行。

图4图示了根据示例实施例的网络代理200的示例。网络代理也可以被称为DRL代理200。

DRL代理200被配置为仿真如图2中所示出的网络组件203的行为。代理200被配置为对输入(例如用户业务)作出反应,并如真实网络组件203所做的那样转变到下一个状态。网络组件203的行为是时间相关的。因此,此时做出的决策不仅影响下一个输出,而且还影响另外的状态。因此,行为仿真的问题可以被公式化为马尔可夫决策过程(MDP)。考虑到每个网络组件203(例如BS和交换机)中的复杂机制,代理200被配置为利用DRL技术来解决高维度问题,其中状态和动作空间可以是数百或数千维度。常规地,代理被设计成最大化环境的累积奖励。在示例实施例中,DRL代理200被配置为仿真和/或模仿环境(例如,网络组件203或用户)。为此,DRL代理200被配置为就像环境一样作出反应,不仅瞬时地,而且还统计地。代理200包括如下的a)状态空间、b)动作空间、c)奖励功能和d)功能性。

a)状态空间被配置为向DRL代理200提供输入,其表示关于网络的综合信息。状态空间包括两部分,内部状态400和外部状态401。内部状态400是仅可以在该特定网络组件203内部使用和看到的状态。例如,内部状态400可以包括eNB的运行时间度量、RLC缓冲器和重传状态。外部状态401包括用户状态和来自其它代理200的状态。用户状态标示来自用户的外部输入,例如业务到达和信道条件、移动性等。这些用户状态在不同的模拟时隙处改变。此外,每个代理200定义对其它代理200可见的状态,例如,X2连接的eNB之间的干扰信息,以及RAN和TN之间的用户数据传输。

b)动作空间被配置为允许DRL代理200转变到下一个内部状态400。例如,该DRL代理200的动作空间是下一个内部状态。

c)奖励函数被配置为指导神经网络的训练。DRL代理200的目标可以是最大化累积奖励。目标是仿真网络组件203的行为。因此,奖励是生成的下一个内部状态和从实验踪迹获得的真实内部状态之间的负差。

d)功能性:DRL代理200需要适应与其它代理200的不同连接,例如当代理连接到网络中的多个代理(BS或交换机)时。常规的神经网络架构(卷积、全连接)具有固定的输入和输出大小,其不能用于该场景中。因此,示例实施例被配置为递归神经网络(RNN),这是DRL代理200的架构。RNN允许灵活的输入和输出大小。

图5图示了根据示例实施例的用户代理201的示例。

如图5中所示出的,用户代理201被配置为仿真用户的业务生成和性能。用户代理201被配置为观察来自代理200的状态,生成用户业务,并如真实用户所做的那样获得性能。由于来自代理200的状态可能是非常高维度的,因此通过如代理200以前所做的那样利用DRL技术来解决该问题。用户代理201被配置用于如下的状态空间、动作空间、奖励功能和功能性。

a)状态空间被配置为来自所有应用的代理200的可观察状态403和内部状态400。例如,它可以观察来自RAN中的代理200的状态403(RLC缓冲,重传状态),来自TN的代理200的状态403(数据传输)。内部状态400是仅在内部使用的状态,诸如用于传输的剩余数据大小和用户应用的业务模式。这些状态400、403帮助估计该用户代理201的性能,诸如吞吐量、延迟和抖动。

b)动作空间被配置为用户代理201的性能,例如吞吐量、延迟和可靠性。

c)奖励函数被配置为仿真用户的行为。因此,奖励是生成的下一个内部状态和性能与从实验踪迹获得的真实内部状态和性能之间的负差。

d)功能性:当用户由涉及多个代理200的端到端网络服务时,用户代理201需要灵活的输入和输出大小。相似于网络代理200,用户代理201被配置为RNN架构。

图6图示了根据示例实施例的训练算法和操作的框图。

代理200、201在它们可以被用于模拟之前可能需要被训练。常规地,这些代理是利用离线收集的数据集训练的,该数据集在由数据集公式化的域和真实网络之间存在显著差异。在线学习方法允许代理利用真实的网络组件被直接训练。然而,当在正常条件下操作网络组件时,代理中的状态空间可能不被完全遍历。结果,当一些例外或破坏性事件发生时,输入到代理中的状态可能在此之前看不到。因此,所生成的动作可能是相对随机的,并且在这样的条件下的行为不能被很好地仿真。为了解决该问题,示例实施例被配置为使用自动编码器来从现有的转变扩充状态空间,并使用高斯过程回归(GPR)来相应地确定这些扩充的状态的奖励,如图6中所示出的。图6图示了训练过程600,馈送给代理200、201的VAE基本状态扩充602。GP局部奖励估计602跟随代理200、201,并馈送给训练过程600。

针对现有转变而训练的DRL代理200对于其它看不到的状态可能不鲁棒,因为DRL代理200是利用看到的转变而训练的。图6的示例实施例被配置为扩充所看到的转变,例如扩展转变数据集。然后,挑战是当状态随机生成时,没有奖励,因为准确的奖励可能仅从真实的网络/系统获得。因此,图6的示例实施例被配置为使用自动编码器架构从所看到的转变生成相似的状态。为了获得奖励,图6的示例实施例使用GPR来估计或预测奖励。当DRL代理200模仿真实网络组件203时,该示例实施例可以改进其鲁棒性。

图7图示了根据示例实施例的状态扩充601的框图。

通过利用自动编码器架构来扩充从真实网络组件203收集的有限状态来配置状态扩充601。自动编码器是一种无监督学习,它通常由编码器701和解码器702组成,其中二者都基于神经网络架构。编码器701用于将高模糊输入数据700编码成简明向量(标示为潜在向量703)。解码器702被设计成将潜在向量703解码回到原始输入数据704。因为不需要标签,换句话说,无监督学习,所以训练编码器701和解码器702的损失函数705是输入数据700和恢复数据704之间的差。如图7中所示出的,状态扩充601被配置为变分自动编码器(VAE),以对转变中收集的状态700、704进行编码701和解码702,这在损失函数705中引入了正则化,并改进了潜在空间703中的正则化(相似的潜在向量被解码成相似的输入数据)。根据示例实施例,状态扩充601被配置为利用从网络组件203收集的所有状态空间来公式化数据集,并将它们馈送到VAE网络中用于离线训练。可变向量(μ,σ)将在训练阶段之后生成,其中从由可变向量定义的分布对潜在703进行采样。在训练完成之后(例如,如果是可生成的),状态扩充601稍微改变来自数据集的编码的潜在向量,并将偏离的潜在向量馈送到VAE中的解码器702中。解码器702输出将表明与先前收集的输入状态700相似的分布。解码器702对偏离的潜在向量进行解码。当向量从编码的潜在向量稍微改变时,解码器702将生成与原始编码向量的输出相比相似的输出。这帮助生成相似于所看到的状态的新状态,这可以被配置为状态扩充。然后,状态扩充601使用它们作为新状态704,并且所述状态被扩充到缓冲器中用于进一步训练。以这种方式,状态扩充601可以扩充用于训练网络代理200或用户代理201的状态空间。

图8图示了根据示例实施例的奖励估计602的框图。

利用状态扩充601,模拟设备100可以获得大量的状态,例如比从网络组件203或用户收集的真实状态更多的状态。但是这些状态在不同动作下对应的奖励是未确定的。通常,仅在该确切的状态下将该动作带入网络组件203中时,才可以获得真实的奖励。根据示例实施例,目的之一是实现DRL代理200的鲁棒仿真,例如确保代理200在不同状态下将不生成不寻常或意外的动作。因此,人们可能粗略地估计奖励,而没有确切的值。构建估计所有状态和动作下的所有奖励的奖励估计器需要大量的真实转变,并且未能进行准确的局部估计。如图7的示例实施例中所示出的,奖励估计602被配置为使用分布回归模型800来构建仅具有局部数据点的回归模型,例如相似的状态和动作对。例如,高斯过程回归(GPR)使用核函数来近似奖励值的分布。奖励估计602被配置给GPR以将状态和动作一起取作输入,并将奖励值取作输出。由于GPR中使用的局部数据点数量有限,因此GPR的回归训练在局部上是快速且准确的。以这种方式,扩充状态的奖励值被粗略估计。在示例实施例中,奖励估计602通过使用现有转变801来训练分布回归模型,例如状态-动作作为输入,并且奖励作为基础真值标签。这些转变是从真实网络组件203或用户收集的;然而,这些转变是有限的。一旦分布回归模型被很好地训练(离线处理),奖励估计602就被配置为将扩充状态802馈送到模型800,这将为它们生成奖励估计。最后,奖励估计602获得足够的转变,或者从真实网络收集,或者从状态扩充601生成。模拟设备100可以使用它们来训练DRL代理200,以在它们进行推断时实现更鲁棒的性能。

接下来描述用于端到端网络切片的网络模拟器的示例实施例。在该示例中,将网络模拟器设备100应用于端到端网络切片场景。考虑到整个网络由X个BS、Y个交换机和Z个核心网络功能组成。同时,给出了这些网络组件之间的互连。存在该端到端网络上运行的N个网络切片。

为此,创建并训练多个DRL代理200来模仿网络组件201和网络切片。对于BS仿真,内部状态空间配置如下:[CQI、RLC缓冲器、HARQ状态、AMC、MAC用户到PRB映射、调度器、活动队列管理状态、信道衰落],并且外部状态为[切片的业务、用户位置、移动性]。

值得注意的是,这些状态可以根据模拟的需要进行扩展。意图获得关于网络组件203的综合信息。

对于切片仿真,内部状态空间被配置为:[TCP/IP传输缓冲器、分组重传、应用状态、切片模板度量]。然后,根据切片服务级别协议的度量来定义动作空间,诸如[切片吞吐量、每用户吞吐量、延迟、可靠性等]。

一旦状态空间和动作空间被很好地定义,则模拟器设备100可以利用它们对应的网络组件201和网络切片来训练这些DRL代理200。

设备100可以包括用于施行本文中描述的(一个或多个)方法的任何方面的部件。根据示例实施例,该部件包括至少一个处理器和包括程序代码的存储器、至少一个处理器和被配置为当由所述至少一个处理器执行时使施行该方法的任何方面的程序代码。

本文中描述的功能性可以至少部分地由诸如软件组件之类的一个或多个计算机程序产品103组件来施行。根据示例实施例,设备100包括处理器101,所述处理器101由程序代码配置,程序代码当被执行时,执行所描述的操作和功能性的示例实施例。替代地或附加地,本文中描述的功能性可以至少部分地由一个或多个硬件逻辑组件来施行。例如并且在没有限制的情况下,可以使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)和图形处理单元(GPU)。

在不失去所寻求的效果的情况下,可以扩展或更改本文中给出的任何范围或设备值。而且,任何示例实施例可以与另一示例实施例相组合,除非明确不允许。

尽管已经以特定于结构特征和/或动作的语言描述了主题,但是应当理解,所附权利要求中限定的主题不必限于上面所描述的特定特征或动作。而是,上面所描述的特定特征或动作是作为实现权利要求的示例公开的,并且其它等同特征和动作意图在权利要求的范围内。

将理解,上面所描述的益处和优点可以涉及一个示例实施例,或者可以涉及若干示例实施例。示例实施例不限于解决任何或所有所陈述问题的示例实施例,或者具有任何或所有所陈述益处和优点的示例实施例。将进一步理解,对“一个”项目的引用可以指代那些项目中的一个或多个。

本文中描述的方法的操作可以以任何合适的次序实行,或者在适当的情况下同时实行。附加地,在不脱离本文中所描述的主题的精神和范围的情况下,可以从任何方法删除个体框。上面所描述的任何示例实施例的方面可以与所描述的任何其它示例实施例的方面相组合,以形成另外的示例实施例,而不失去所寻求的效果。

术语“包括”在本文中用于意指包括所标识的方法、框或元素,但是这样的框或元素不包括排他的列表,并且方法或装置可以包含附加的框或元素。

将理解,上面的描述仅作为示例给出,并且本领域技术人员可以进行各种修改。上面的说明书、示例和数据提供了示例性实施例的结构和使用的完整描述。尽管上面已经以一定程度的特殊性描述了各种示例实施例,或者参考一个或多个个体的示例实施例,但是本领域技术人员可以在不脱离本说明书的精神或范围的情况下对所公开的示例实施例进行多种更改。

相关技术
  • 基于深度强化学习的实时分布式无线网络调度方法和系统
  • 基于深度强化学习的实时集中式无线网络调度方法和设备
技术分类

06120115940424