掌桥专利:专业的专利平台
掌桥专利
首页

一种基于行为预测的多信道无线通信系统接入方法

文献发布时间:2024-04-18 19:58:21


一种基于行为预测的多信道无线通信系统接入方法

技术领域

本申请涉及无线通信技术领域,特别是涉及一种基于行为预测的多信道无线通信系统接入方法。

背景技术

当前,传统的无线通信物理层通常采用单个信道进行数据传输,当该信道受到干扰或者接入的用户数量过多时,会造成无线传输信道的中断或者大量的碰撞冲突,从而造成无线网络性能的下降。因此,随着正交频分复用等无线网络技术的不断发展,将无线网络中的频谱资源划分为多个相互独立的子信道同时进行多个用户的接入,可以极大的提高无线网络的传输容量。在5G移动通信系统中,频谱资源划分为多个独立的时频资源块,同一网络中的用户可以同时选择不同的信道完成数据传输而不产生相互干扰。在传统的单信道无线通信系统中,相邻节点间的传输冲突和侦听退避等因素导致无线网络的传输效率降低。而多信道传输技术可以有效解决上述问题。

在多信道网络接入协议中,需要设计相应的信道分配算法,为不同的通信节点分配相对应的信道,消除数据分组传输的冲突,使得尽可能多的节点可以同时进行数据传输。为了实现多信道分配,传统的解决方案包括基于忙音的多信道接入协议、基于专用控制信道的多信道接入协议和基于专用控制时隙的多信道接入协议等。

然而,上述传统的多信道接入方法,存在无线网络传输效率低的技术问题。

发明内容

基于此,有必要针对上述技术问题,提供一种基于行为预测的多信道无线通信系统接入方法和一种基于行为预测的多信道无线通信系统接入装置。

为了实现上述目的,本发明实施例采用以下技术方案:

一方面,提供一种基于行为预测的多信道无线通信系统接入方法,包括:

参数初始化;参数包括无线网络的信道数,接入节点观测状态的历史长度,主神经网络的训练参数,经验池的容量,训练样本最小批大小,初始观测状态,传输成功率统计长度及收敛判断门限;

获取接入节点的行为经验样本,将行为经验样本储存至经验池,直至经验池达到最大容量;行为经验样本包括接入节点的当前观测状态、当前执行动作、即时奖励和第二观测状态,当前观测状态为在历史长度内接入节点对各信道的观测结果;

从经验池中随机抽取行为经验样本,对主神经网络进行训练,并根据训练结果更新主神经网络的训练参数,直至时间步达到时间门限值;

根据更新后的主神经网络获得更新后的动作选择策略,根据更新后的动作选择策略接入信道。

另一方面,还提供一种基于行为预测的多信道无线通信系统接入装置,包括:

初始化模块,用于参数初始化;参数包括无线网络的信道数,接入节点观测状态的历史长度,主神经网络的训练参数,经验池的容量,训练样本最小批大小,初始观测状态,传输成功率统计长度及收敛判断门限;

样本获取模块,用于获取接入节点的行为经验样本,将行为经验样本储存至经验池,直至经验池达到最大容量;行为经验样本包括接入节点的当前观测状态、当前执行动作、即时奖励和第二观测状态,当前观测状态为在历史长度内接入节点对各信道的观测结果;

第一训练模块,用于从经验池中随机抽取行为经验样本,对主神经网络进行训练,并根据训练结果更新主神经网络的训练参数,直至时间步达到时间门限值;

接入模块,用于根据更新后的主神经网络获得更新后的动作选择策略,根据更新后的动作选择策略接入信道。

本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

上述基于行为预测的多信道无线通信系统接入方法和装置,网络中的接入节点根据自身对无线网络中各信道的观测结果,完成对网络中其他节点数据传输行为的预测,从而在下一个时隙中选择最优的子信道进行数据传输,获取并记录接入节点的行为经验样本,这些行为经验样本反映了接入节点与网络环境的交互行为,包括感知状态、做出决策和动作影响等信息。然后,通过强化学习的方法,用这些行为经验样本训练主神经网络进行行为预测,根据训练后的主神经网络,指导接入节点进行信道的选择和接入操作。这种基于行为预测而无需额外控制信道或时隙的多信道接入方法,可以最大程度地避免不同用户之间的数据包碰撞,从而显著提升了多信道无线网络的传输效率。

此外,通过检测无线网络环境的稳定性,当环境不稳定时启动主神经网络重新训练,实现了面向动态环境的自适应学习。这种方式可以根据环境变化主动调整网络策略,当环境稳定后停止训练避免过拟合,从而保证了网络环境的稳定性。相比固定不变的策略,这种自适应学习机制提高了无线网络面对动态复杂环境的可靠性和鲁棒性,为保障多信道异构无线网络的高效稳定传输提供了支持。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一个实施例中基于行为预测的多信道无线通信系统接入方法的流程第一示意图;

图2为一个实施例中基于行为预测的多信道无线通信系统接入方法的流程第二示意图;

图3为一个实施例中初始样本填池步骤的流程示意图;

图4为一个实施例中主神经网络训练步骤的流程示意图;

图5为一个实施例中检测步骤的流程示意图;

图6为一个实施例中神经网络的结构示意图;

图7为一个实施例中基于行为预测的多信道无线通信系统接入装置的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。

需要说明的是,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。

在研究实现本申请的过程中,发明人发现移动蜂窝网络中次级用户接入存在如下问题:频谱利用率低,由于次级用户无法有效利用主用户不用时出现的空闲频谱,导致频谱利用率不高;频谱竞争严重,由于次级用户之间以及主用户和次级用户之间存在频谱竞争,造成频谱拥塞;接入冲突多,次级用户在同一频段存在接入冲突;综上,从而导致系统整体频谱利用率不高,严重制约了无线传输效率的提升。

对此,本发明提供了一种基于行为预测的多信道无线通信系统接入方法,网络中的接入节点根据自身对无线网络中各信道的观测结果,完成对网络中其他节点数据传输行为的预测,从而在下一个时隙中选择最优的子信道进行数据传输,获取并记录接入节点的行为经验样本,这些行为经验样本反映了接入节点与网络环境的交互行为,包括感知状态、做出决策和动作影响等信息。然后,通过强化学习的方法,用这些行为经验样本训练主神经网络进行行为预测,根据训练后的主神经网络,指导接入节点进行信道的选择和接入操作。这种基于行为预测而无需额外控制信道或时隙的多信道接入方法,可以最大程度地避免不同用户之间的数据包碰撞,从而显著提升了多信道无线网络的传输效率。

此外,通过检测无线网络环境的稳定性,当环境不稳定时启动主神经网络重新训练,实现了面向动态环境的自适应学习。这种方式可以根据环境变化主动调整网络策略,当环境稳定后停止训练避免过拟合,从而保证了网络策略的稳定性。相比固定不变的策略,这种自适应学习机制提高了无线网络面对动态复杂环境的可靠性和鲁棒性,为保障多信道异构无线网络的高效稳定传输提供了支持。

下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。

在一个实施例中,如图1所示,本申请实施例提供了一种基于行为预测的多信道无线通信系统接入方法,包括如下处理步骤S12-S18:

S12,参数初始化;参数包括无线网络的信道数,接入节点观测状态的历史长度,主神经网络的训练参数,经验池的容量,训练样本最小批大小,初始观测状态,传输成功率统计长度及收敛判断门限。

可以理解,本领域技术人员根据无线网络的具体情况,对实施行为预测的多信道接入方法进行参数初始化。无线网络的信道数表示参与接入的信道总数量。接入节点观测状态的历史长度表示在估计当前观测状态时,考虑的最近观测结果的总个数。主神经网络的训练参数表示主神经网络在训练过程中需要更新优化的参数。经验池是用于存储接入节点在与环境交互中生成的行为经验样本的缓冲区,经验池的容量表示能够容纳的行为经验样本的最大数量。训练样本最小批大小表示在训练主神经网络时,每次输入到网络进行参数更新的行为经验样本数量的最小值。初始观测状态表示在算法开始运行时,接入节点的第一个当前观测状态。传输成功率统计长度表示用于计算成功率的传输次数的统计长度,减少传输成功率统计长度可以使得该算法对于网络环境的变化感知更加灵敏。当环境不稳定时,收敛判断门限用于判断主神经网络的训练是否收敛。

S14,获取接入节点的行为经验样本,将行为经验样本储存至经验池,直至经验池达到最大容量;行为经验样本包括接入节点的当前观测状态、当前执行动作、即时奖励和第二观测状态,当前观测状态为在历史长度内接入节点对各信道的观测结果。

可以理解,接入节点与环境交互,具体的,当前观测状态为在历史长度内接入节点对各信道的观测结果,接入节点可以基于主神经网络根据当前观测状态获得当前执行动作,当前执行动作表示接入节点当前接入的信道序号,根据当前执行动作接入信道,接入信道后可以获取即时奖励,并更新当前观测到第二观测状态,第二观测状态为下一历史长度内接入节点对各信道的观测结果。将上述接入节点与环境的交互信息组成行为经验样本并储存至经验池,接入节点每与环境交互一次,储存一次行为经验样本,如此重复执行多个行为经验样本的储存过程,直至经验池达到最大容量,经验池的容量在参数初始化时已经设定。

S16,从经验池中随机抽取行为经验样本,对主神经网络进行训练,并根据训练结果更新主神经网络的训练参数,直至时间步达到时间门限值。

可以理解,行为预测神经网络的训练过程主要是根据接入节点在无线网络的动作以及环境的反馈,通过对神经网络参数的多次迭代训练,从而得到最优的接入动作选择策略。选择策略本质上是完成了从状态空间到动作空间之间的映射,因此选择策略函数可以表示为

接入节点采用深度强化学习方法对神经网络进行训练,可以包括以下几个过程:从经验池中随机抽取一些行为经验样本,可以每次抽取训练样本最小批大小,也可以每次抽取的量小于训练样本最小批大小,抽取多次后再进行训练,还可以每次抽取的量大于训练样本最小批大小,一次训练或者分批次进行训练。可以采用梯度下降算法更新损失函数中主神经网络的训练参数,每更新一次主神经网络的训练参数,接入节点在与环境交互时基于更新后的主神经网络获得一次当前执行动作,再根据当前执行动作接入信道,然后获取一个新的行为经验样本,由于经验池之前已达到最大容量,将删除掉一个旧的行为经验样本,可以采用先入先出的储存原则对行为经验样本进行储存和更新,也可以采用随机替换旧样本进行储存和更新。

再从更新的经验池中随机抽取一些行为经验样本对主神经网络进行训练,如此重复执行多个训练轮次的训练过程,直至时间步达到时间门限值。如果时间步还没有超过时间门限值,说明还需要继续训练神经网络,以提升性能。如果时间步已经超过了时间门限值,说明神经网络已经经过足够长时间的训练,可以认为主神经网络收敛到一个相对稳定的状态,可以结束训练。

S18,根据更新后的主神经网络获得更新后的动作选择策略,根据更新后的动作选择策略接入信道。

可以理解,对主神经网络进行多次迭代训练之后,从而得到更优的动作选择策略,动作选择策略用于从状态空间到动作空间之间的映射,根据动作选择策略可以计算当前执行动作,接入节点可以基于更新后的主神经网络获得当前执行动作,再根据当前执行动作接入信道。

上述基于行为预测的多信道无线通信系统接入方法,网络中的接入节点根据自身对无线网络中各信道的观测结果,完成对网络中其他节点数据传输行为的预测,从而在下一个时隙中选择最优的子信道进行数据传输,获取并记录接入节点的行为经验样本,这些行为经验样本反映了接入节点与网络环境的交互行为,包括感知状态、做出决策和动作影响等信息。然后,通过强化学习的方法,用这些行为经验样本训练主神经网络进行行为预测,根据训练后的主神经网络,指导接入节点进行信道的选择和接入操作。这种基于行为预测而无需额外控制信道或时隙的多信道接入方法,可以最大程度地避免不同用户之间的数据包碰撞,从而显著提升了多信道无线网络的传输效率。

在一个实施例中,如图2所示,上述基于行为预测的多信道无线通信系统接入方法,时间步达到时间门限值之后还包括步骤:

S17,检测无线网络的环境稳定性,获得检测结果。

可以理解,在无线网络环境中,由于用户的移动或信道质量的变化等因素,网络条件会发生动态变化,因此在本发明中,考虑检测无线网络的环境稳定性,当检测结果指示无线网络的环境稳定时,不需要启动对主神经网络的训练,当检测结果指示无线网络的环境不稳定时,则启动对主神经网络的训练。可以通过监测关键参数的变化范围来检测无线网络的环境稳定性,也可以通过比较多个时间窗口的统计特性来检测无线网络的环境稳定性,还可以通过在线性能检测无线网络的环境稳定性。

S17A,当检测结果指示无线网络的环境不稳定时,从经验池中随机抽取行为经验样本,对主神经网络进行训练并根据训练结果更新主神经网络的训练参数,直至检测结果指示无线网络的环境稳定。

可以理解,当检测结果判断无线网络环境不稳定时,启动对主神经网络的训练:从经验池中随机抽取一些行为经验样本,可以每次抽取训练样本最小批大小,也可以每次抽取的量小于训练样本最小批大小,抽取多次后再进行训练,还可以每次抽取的量大于训练样本最小批大小,一次训练或者分批次进行训练。可以采用梯度下降算法更新损失函数中主神经网络的训练参数,每更新一次主神经网络的训练参数,接入节点在与环境交互时基于更新后的主神经网络获得一次当前执行动作,再根据当前执行动作接入信道,然后获取一个新的行为经验样本,由于经验池之前已达到最大容量,将删除掉一个旧的行为经验样本,可以采用先入先出的储存原则对行为经验样本进行储存和更新,也可以采用随机替换旧样本进行储存和更新。再从更新的经验池中随机抽取一些行为经验样本对主神经网络进行训练,如此重复执行多个训练轮次的训练过程,直至检测结果指示无线网络的环境稳定,可以认为主神经网络收敛到一个相对稳定的状态,可以结束训练。

上述基于行为预测的多信道无线通信系统接入方法,通过检测无线网络环境的稳定性,当环境不稳定时启动主神经网络重新训练,实现了面向动态环境的自适应学习。这种方式可以根据环境变化主动调整网络策略,当环境稳定后停止训练避免过拟合,从而保证了网络策略的稳定性。相比固定不变的策略,这种自适应学习机制提高了无线网络面对动态复杂环境的可靠性和鲁棒性,为保障多信道异构无线网络的高效稳定传输提供了支持。

在一个实施例中,如图3所示,初始样本填池的步骤,也即获取接入节点行为的行为经验样本,将行为经验样本储存至经验池,直至经验池达到最大容量的步骤,包括子步骤S141-S147:

S141,在当前获取轮次中,将接入节点的当前观测状态输入至主神经网络,输出动作价值函数值。

可以理解,主神经网络的第一轮输入为初始观测状态,初始观测状态在参数初始化时已经完成设定,当前观测状态可以记为s

s

其中,M表示接入节点观测状态的历史长度,o

o

o

神经网络输出动作价值函数值,可以表示为Q

S142,根据动作价值函数值获得更新前的动作选择策略。

可以理解,动作选择策略可以记为a

其中,T

S143,根据更新前的动作选择策略获得当前执行动作,并根据当前执行动作接入信道。

可以理解,获得动作选择策略a

S144,根据接入信道后数据发送结果获得即时奖励;数据发送结果为接入节点发送数据成功或接入节点发送数据失败。

可以理解,接入节点选择一个信道进行数据发送,在发送完数据后,会根据发送的结果判断这次接入是否成功。如果接入节点成功通过该信道发送了数据,则会得到一个正的即时奖励;反之,如果接入节点无法通过该信道发送数据,比如发送失败,则会得到一个负的即时奖励。发送结果只有两种情况,要么成功,要么失败。成功时的奖励设为1,失败时的奖励设为-1。例如,根据接入节点发送数据是否成功得到节点的即时奖励r

S145,根据当前执行动作和数据发送结果更新当前观测状态,获得第二观测状态。

接入节点根据自身观测将当前观测状态s

S146,根据当前观测状态、当前执行动作、即时奖励和第二观测状态组成行为经验样本,将行为经验样本储存至经验池中。

可以理解,将上述步骤中获得的当前观测状态、当前执行动作、即时奖励和第二观测状态组成行为经验样本,可以记为:(s

S147,将第二观测状态作为下一观测状态输入至主神经网络,输出下一动作价值函数值,进入下一获取轮次的样本获取。当经验池达到最大容量时,保存经验池中的行为经验样本。

可以理解,新一轮的样本获取,将上一轮的第二观测状态作为下一观测状态输入至主神经网络,输出下一动作价值函数值,如此重复执行多个行为经验样本的储存过程,当经验池达到最大容量时,保存经验池中的行为经验样本。

初始样本填池的步骤,可以让强化学习系统获得丰富、连续及能反映环境动态的训练数据,充分利用这些样本进行策略迭代学习,可以不断提升策略。

在一个实施例中,如图4所示,主神经网络训练的步骤,也即从经验池中随机抽取行为经验样本,对主神经网络进行训练,并根据训练结果更新主神经网络的训练参数,直至时间步达到时间门限值的步骤,包括如下子步骤S161-S164:

S161,在当前训练轮次中,从经验池中随机抽取行为经验样本;抽取的行为经验样本数量满足训练样本最小批大小。

可以理解,在当前进行的训练轮次中,从已经采集并保存到经验池中的行为经验样本中进行抽取。需要抽取一定数量的样本用于训练,这个样本数量要满足训练的最小批大小需求,最小批大小是神经网络训练中一个固定的超参数。如果抽取样本数小于这个数量,则训练效果不佳;如果抽取样本数大于这个数量,经验池在不断更新,老样本被新样本替换,批次大小不宜过大,否则不同批次样本相关性过高,难以反映样本多样性。此外,训练批次大小过大也会带来计算资源占用过高的问题。

S162,采用梯度下降算法更新损失函数中主神经网络的训练参数。

可以理解,本发明在神经网络训练阶段使用两个网络,一个是主神经网络,一个是目标神经网络。主神经网络使用训练参数θ来表示的一个深度神经网络,从而实现对动作价值函数的表征,其表示为Q

其中,

主神经网络的训练参数在每一步训练中都在更新,以使Q值逼近目标Q值,目标Q值是根据目标神经网络计算得到的。如果目标神经网络的训练参数也在频繁更新,那么目标Q值就会频繁变动。如果目标Q值频繁变动,那么主神经网络的训练就很难收敛,因为它的学习目标在不停波动。为了避免这种情况,目标网络的参数定期从主神经网络复制获得,在两次复制之间保持固定。这样目标Q值就能够保持相对稳定,给主神经网络提供一个稳定的学习目标。主神经网络可以朝着这个固定目标更新训练参数,逐步逼近目标Q值,实现稳定学习。隔一段时间后,再从主网络复制参数到目标网络,目标Q值才会有所更新。通过这种定期复制,目标网络的参数改变频率比主网络要低很多,从而起到了稳定训练过程的作用。

S163,根据更新后的主神经网络更新经验池;经验池遵循先入先出的储存原则。

可以理解,更新主神经网络的训练参数后,接入节点在与环境交互时基于更新后的主神经网络获得当前执行动作,再根据当前执行动作接入信道。采用先入先出的储存原则对行为经验样本进行储存和更新,这样可以使池中的样本保持新鲜,符合主网络当前状态。如果经验池中的样本过于陈旧,会影响后续的训练,所以需要更新主网络之后及时更新经验池,保证样本和网络状态同步更新。

S164,从更新后的经验池中随机抽取下一行为经验样本,进入下一训练轮次的训练;抽取的行为经验样本数量满足训练样本最小批大小;当时间步达到时间门限值时,保存训练后的主神经网络。

可以理解,进行下一轮训练时,需要重新随机抽取经验样本,此时,从更新的经验池中随机抽取一些行为经验样本对主神经网络进行训练,如此重复执行多个训练轮次的训练过程,直至时间步达到时间门限值。

上述主神经网络训练的步骤,通过从经验池随机批量抽取样本训练主神经网络,并根据新的主神经网络不断更新经验池,采用梯度下降算法逐步优化网络,循环此过程直至达到训练轮次上限,可使得神经网络的参数持续接近最优。

在一个实施例中,如图5所示,检测的步骤,也即检测无线网络的环境稳定性,获得检测结果的步骤,包括如下子步骤S171-S172:

S171,根据传输成功率统计长度计算接入节点的平均奖励及奖励差值。

可以理解,传输成功率统计长度在参数初始化时已经设定,计算接入节点的平均奖励及奖励差值,例如,传输成功率统计长度个时间步内的平均奖励,记为T

其中,L

计算最近传输成功率统计长度个时间步内奖励差值,记为Δ

Δ

S172,根据奖励差值及收敛判断门限获得检测结果;奖励差值小于收敛判断门限,检测结果指示无线网络的环境稳定,奖励差值大于收敛判断门限,检测结果指示无线网络的环境不稳定。

可以理解,设定一个收敛判断门限,用于判断奖励差值是否发生了显著变化,将奖励差值与该收敛判断门限进行比较,如果奖励差值小于收敛判断门限,说明特定时间步内奖励水平很接近,表示网络环境中的奖励保持稳定,没有发生明显变化。这时判断为环境稳定,反之同理理解。

例如,判断奖励差值Δ

在一些实施方式中,为了更直观且全面地说明上述基于行为预测的多信道无线通信系统接入方法,下面是对该基于行为预测的多信道无线通信系统接入方法的应用示例。需要说明的是,本说明书中给出的实施案例仅为示意性的,并非为本发明具体实施案例的唯一限定,本领域技术人员可以在本发明提供的实施案例的示意下,可采用上述基于行为预测的多信道无线通信系统接入方法,实现提升多信道无线网络的传输效率。

步骤1:参数初始化。

参数初始化是开展行为预测多信道接入算法的基础,接入节点首先根据无线网络的特点,设置具体的算法参数。一般地,本发明的实施案例中可以采取如下的初始参数:无线网络中的信道数N=32,接入节点观测状态的历史长度M=20,神经网络选了的学习率α=0.001、折扣因子γ=0.9、目标神经网络的更新频率I=200、经验池的容量大小为3000、神经网络训练的样本采用最小批量大小为128、传输成功率统计长度L

步骤2:基于行为预测的动作选择。

接入节点首先依据自动选择策略完成对当前时刻接入信道的选择,同时完成对当前接收数据是否成功进行观测,最后完成对下一个状态的更新。

步骤2.1:首先,接入节点行为预测的神经网络以当前的观测状态s

根据上述两个向量的值,计算当前时刻t时向量

步骤2.2:根据步骤2.1中得到a

步骤2.3:接收节点根据信道选择结果以及数据发送是否成功,更新自身的观测结果o

例如,接入节点选择子信道16进行接入且数据发送成功,则可以更新该节点时隙t的观测为o

步骤2.4:接入节点生成新的经验样本,主要包括当前的状态、动作、奖励和下一个观测状态,其表达式为(s

步骤2.5:接入节点判断经验池中的样本数量是否达到最大容量。如果达到最大容量,接入节点进入步骤3,否则接入节点进入步骤2。

步骤3:接入策略性能评估。

接入策略性能评估的主要目的是判断神经网络的训练过程是否结束,以及当无线网络环境发生变化时可以重新启动训练过程,主要过程如下:

步骤3.1:计算500个时间步内的平均奖励T

步骤3.2:计算最近500个时间步内平均奖励的差Δ

步骤3.3:判断当前时间步t与固定门限值T

步骤3.4:判断Δ

步骤4:行为预测神经网络训练。

本发明中的接入节点采用深度强化学习算法对行为预测神经网络进行训练,主要包括以下几个过程:

步骤4.1:接入节点在经验池中按照随机采样的方式,依据批量训练的最小批量值采样出对应数量的经验样本。在本实施案例中,接入节点从经验池中一次性随机采样128个样本,作为神经网络训练的输入。

步骤4.2:采用随机梯度下降算法更新损失函数中的主神经网络模型参数θ。本实施方案中采用的神经网络结构中包含6个隐藏层,每一个隐藏层包含128个神经元,采用ReLU函数为激活函数,如图6所示。该神经网络的输入层是接入节点的当前状态,是一个32×20的矩阵;输出层是一个长度为32的向量,表示所有子信道的动作价值函数。本实施方案中所采用的神经网络可以根据实际的应用需求进行更改。本实施方案中学习率α=0.001、折扣因子γ=0.9,则主网络的参数θ在每一个时间步t进行更新的表达式为:

其中

其中,

步骤4.3:每隔200个时间步,执行目标神经网络的参数θ-更新,即θ-=θ;

步骤4.4:接入节点算法进入步骤2。

应该理解的是,虽然图1-5流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图7所示,提供了一种基于行为预测的多信道无线通信系统接入装置200,包括:初始化模块21、样本获取模块22、第一训练模块23和接入模块24,其中:

初始化模块21,用于参数初始化;参数包括无线网络的信道数,接入节点观测状态的历史长度,主神经网络的训练参数,经验池的容量,训练样本最小批大小,初始观测状态,传输成功率统计长度及收敛判断门限。样本获取模块22,用于获取接入节点的行为经验样本,将行为经验样本储存至经验池,直至经验池达到最大容量;行为经验样本包括接入节点的当前观测状态、当前执行动作、即时奖励和第二观测状态,当前观测状态为在历史长度内接入节点对各信道的观测结果。第一训练模块23,用于从经验池中随机抽取行为经验样本,对主神经网络进行训练,并根据训练结果更新主神经网络的训练参数,直至时间步达到时间门限值。接入模块24,用于根据更新后的主神经网络获得更新后的动作选择策略,根据更新后的动作选择策略接入信道。

上述基于行为预测的多信道无线通信系统接入装置200,网络中的接入节点根据自身对无线网络中各信道的观测结果,完成对网络中其他节点数据传输行为的预测,从而在下一个时隙中选择最优的子信道进行数据传输,获取并记录接入节点的行为经验样本,这些行为经验样本反映了接入节点与网络环境的交互行为,包括感知状态、做出决策和动作影响等信息。然后,通过强化学习的方法,用这些行为经验样本训练主神经网络进行行为预测,根据训练后的主神经网络,指导接入节点进行信道的选择和接入操作。这种基于行为预测而无需额外控制信道或时隙的多信道接入方法,可以最大程度地避免不同用户之间的数据包碰撞,从而显著提升了多信道无线网络的传输效率。

在一个实施例中,基于行为预测的多信道无线通信系统接入装置200,还包括检测模块和第二训练模块:

检测模块,用于检测无线网络的环境稳定性,获得检测结果。第二训练模块,用于当检测结果指示无线网络的环境不稳定时,从经验池中随机抽取行为经验样本,对主神经网络进行训练并根据训练结果更新主神经网络的训练参数,直至检测结果指示无线网络的环境稳定。

上述基于行为预测的多信道无线通信系统接入装置200,,通过检测无线网络环境的稳定性,当环境不稳定时启动主神经网络重新训练,实现了面向动态环境的自适应学习。这种方式可以根据环境变化主动调整网络策略,当环境稳定后停止训练避免过拟合,从而保证了网络策略的稳定性。相比固定不变的策略,这种自适应学习机制提高了无线网络面对动态复杂环境的可靠性和鲁棒性,为保障多信道异构无线网络的高效稳定传输提供了支持。

在一个实施例中,样本获取模块包括:评估子模块,用于在当前获取轮次中,将接入节点的当前观测状态输入至主神经网络,输出动作价值函数值。策略子模块,用于根据动作价值函数值获得更新前的动作选择策略。执行子模块,用于根据更新前的动作选择策略获得当前执行动作,并根据当前执行动作接入信道。奖励子模块,用于根据接入信道后数据发送结果获得即时奖励;数据发送结果为接入节点发送数据成功或接入节点发送数据失败。状态更新子模块,用于根据当前执行动作和数据发送结果更新当前观测状态,获得第二观测状态。组合子模块,用于根据当前观测状态、当前执行动作、即时奖励和第二观测状态组成行为经验样本,将行为经验样本储存至经验池中。评估子模块,用于将第二观测状态作为下一观测状态输入至主神经网络,输出下一动作价值函数值,进入下一获取轮次的样本获取。判断子模块,用于当经验池达到最大容量时,保存经验池中的行为经验样本。

在一个实施例中,训练模块包括:抽取子模块,用于在当前训练轮次中,从经验池中随机抽取行为经验样本;抽取的行为经验样本数量满足训练样本最小批大小。第一更新子模块,用于采用梯度下降算法更新损失函数中主神经网络的训练参数。第二更新子模块,用于根据更新后的主神经网络更新经验池;经验池遵循先入先出的储存原则。抽取子模块,用于从更新后的经验池中随机抽取下一行为经验样本,进入下一训练轮次的训练;抽取的行为经验样本数量满足训练样本最小批大小。比较子模块,用于当时间步达到时间门限值时,保存训练后的主神经网络。

在一个实施例中,检测模块包括:计算子模块,用于根据传输成功率统计长度计算接入节点的平均奖励及奖励差值。检测子模块,根据奖励差值及收敛判断门限获得检测结果;奖励差值小于收敛判断门限,检测结果指示无线网络的环境稳定,奖励差值大于收敛判断门限,检测结果指示无线网络的环境不稳定。

关于基于行为预测的多信道无线通信系统接入装置200的具体限定可以参见上文中对于基于行为预测的多信道无线通信系统接入方法的限定,在此不再赘述。上述基于行为预测的多信道无线通信系统接入装置200中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 用于控制单频网络中的无线电信道接入的方法、通信系统和单频网络无线电接入控制器
  • 用于控制单频网络中的无线电信道接入的方法、通信系统和单频网络无线电接入控制器
技术分类

06120116483425