掌桥专利:专业的专利平台
掌桥专利
首页

一种定向自组织网络的邻居发现方法

文献发布时间:2023-06-19 11:17:41


一种定向自组织网络的邻居发现方法

技术领域

本发明涉及一种定向自组织网络的邻居发现方法,用于定向自组织网络中节点自适应发现邻居节点的过程,属于定向自组织网络技术领域。

背景技术

在定向自组织网络中,由于定向天线的能量集中在一个方向,对其他方向的干扰较少,使用定向天线,能够提高空间复用率,但同时增加了邻居发现的难度。配备定向天线的两个邻居节点发现彼此,需要满足两个条件:一是定向天线波束要互相对准,二是其中一个节点处于发送模式,另一个节点处于接收模式。由于定向天线的波束宽度较窄,想要满足这两个条件较为困难。

现有的关于定向自组织网络的邻居发现方法包括完全随机的邻居发现方法和基于扫描的邻居发现方法等。

其中,完全随机的邻居发现方法是在邻居发现过程中,节点随机选择收发模式以及波束方向。

基于扫描的邻居发现方法分为随机扫描方法以及确定扫描方法。在随机扫描方法中,节点随机选择收发模式,根据确定的波束扫描顺序进行邻居发现。确定扫描方法是在执行邻居发现过程之前就确定了节点的发送/接收模式以及波束扫描顺序。

上述方法主要存在以下问题:

邻居发现延迟较高,且未考虑之前邻居发现结果对当前时刻邻居发现的影响。若节点之前在某个波束内观察到碰撞,则意味着该波束内有多个邻居节点,当前时刻应该增加选择该波束的概率;当节点在某个波束内成功发现邻居节点或时隙空闲,则应该增加探索其他波束方向的概率,加快邻居发现过程。

发明内容

本发明的目的是为了克服现有技术的不足,创造性地提出一种新的定向自组织网络的邻居发现方法。节点根据之前邻居发现的结果,使用Q-Learning学习算法自适应的发现邻居,从而加快邻居发现过程、减少邻居发现延迟。

本发明的创新点在于:由于定向自组织网络是分布式网络,网络中节点相互独立,因此,网络中节点各自使用Q-Learning学习算法实现自适应邻居发现,目标是找到最优策略,实现较低的邻居发现延迟。使用值函数对策略进行评估,找到最优策略等同于找到最优值函数,由于定向自组织网络环境复杂,很难建模,因此使用Q-Learning学习算法迭代估计值函数,最终收敛至最优值函数,从而得到最优策略,不需要回报和状态转移概率等关于环境的先验知识。

本发明目的是通过下述技术方案实现的。

一种定向自组织网络的邻居发现方法,包括以下步骤:

步骤1:定义相关集合。

定义网络中每一个节点的状态集合S:

S={T,R} (1)

其中,所述的节点状态为节点的工作模式,由于网络中节点使用半双工方式通信,因此,在某一时刻,节点只能处于发送模式或者接收模式中的一种,T表示发送模式,R表示接收模式。

定义网络中每一个节点的动作集合A:

A={1,2,3,…,k} (2)

其中,所述动作为节点在时隙t需要执行的动作,为节点配置的波束切换定向天线的波束方向。波束切换定向天线包括k个预定义的波束方向,因此节点在时隙t能够选择的动作数为k。

步骤2:每个节点初始化各自的值函数表,初始值为0。由于节点有两个状态和k个动作,因此,值函数表的大小为2×k。

步骤3:每个节点选择各自的初始状态。各节点选择发送模式或接收模式的概率相同,均为p。

步骤4:每个节点基于UCB(Upper Conference Bound,上置信算法)策略,从动作集合中选择在当前时隙需要执行的动作,其中,动作集合为步骤1所述的定向天线预定义的k个波束方向。

具体地,所述UCB策略为Q-Learning学习算法的行为策略,指导节点在时隙t的动作选择。由于值函数估计存在误差,并且定向自组织网络为非平稳环境,因此,在进行动作选择时,需要探索新的“状态-动作”对。贪婪选择值函数最大的动作,会造成邻居发现结果不收敛,因此,使用UCB策略对非贪婪动作成为最优动作的可能性进行度量,选择最有可能成为最优动作的行为。

UCB策略指导动作选择公式如下:

其中,s

如果之前对某动作的选择很少,则该动作的不确定性很大,很有可能为最优动作,因此,需要探索该动作,准确估计该动作的值函数。

步骤5:每个节点执行步骤4选择的动作,将定向天线波束切换到选择的方向。

步骤6:判断每个节点与环境交互时是否发生碰撞,若节点接收到2个以上的数据包,则认为发生了碰撞,意味该波束内有多个邻居节点,应该给与奖励m

步骤7:每一个节点随机选择下一个时隙状态s

步骤8:根据步骤6得到的回报r(s

其中,Q(s

步骤9:判断节点是否发现所有邻居。如果定向自组织网络中所有节点都成功发现各自的全部邻居,则执行步骤10;否则,执行步骤11。

步骤10:记录邻居发现所需的时隙数,邻居发现过程结束。

步骤11:判断是否超出预定义的最大时隙数t

有益效果

本发明,对比现有技术,具有以下优点:

1.本发明方法,使用UCB策略选择动作,使节点进行适当的探索,不会陷入次优策略或者出现邻居发现过程不收敛的情况。

2.本发明方法,节点获得的回报与节点是否观察到碰撞有关,即考虑当前时隙邻居发现结果对之后时隙邻居发现的影响,加快邻居发现过程,减少邻居发现延迟。

3.本发明方法,利用迭代估计值函数,无需知道定向自组织网络的环境模型,简化了邻居发现问题。

4.本发明方法,网络中节点独立使用Q学习算法实现自适应邻居发现,节点间互不干扰,独立决策,简化了邻居发现问题。

附图说明

图1是本发明实施例的流程图。

图2是本实施例使用的邻居发现方法与完全随机的邻居发现方法在网络节点数不同时邻居发现时间的对比。

具体实施方式

为了更好的说明本发明的目的和优点,下面结合附图和实施例对发明内容做进一步说明。

实施例

为了验证本发明方法的可行性,选择仿真环境为1km×1km的正方形区域,随机生成网络节点,计算100种不同定向自组织网络的平均邻居发现时间。网络中节点配备的定向天线有6个波束,传输范围为500m。

如图1所示,一种定向自组织网络邻居发现方法,包括以下步骤:

步骤1:定义网络中节点的状态集合为:

S={T,R} (1)

其中,所述的节点状态为节点的工作模式,由于网络中节点使用半双工方式通信,因此,在某一时刻,节点只能处于发送模式或者接收模式中的一种,T=0表示发送模式,R=1表示接收模式。

定义网络中节点的动作集合为:

A={1,2,3,…,k} (2)

其中,所述动作为节点在时隙t需要执行的动作,为节点配置的波束切换定向天线的波束方向。波束切换定向天线包括k=6个预定义的波束方向,因此节点在时隙t能够选择的动作数为k=6。

步骤2:每个节点初始化各自的值函数表,初始值为0。由于节点有两个状态和k=6个动作,因此值函数表的大小为2×6。

步骤3:每个节点选择各自的初始状态。选择发送模式或接收模式的概率相同,均为p=0.5。

步骤4:每个节点基于UCB策略从动作集合中选择在当前时隙需要执行的动作。动作集合为步骤1所述的定向天线预定义的k=6个波束方向。

具体地,UCB策略为Q学习算法的行为策略,指导节点在时隙t的动作选择。由于值函数估计存在误差,并且定向自组织网络为非平稳环境,因此在动作选择时,需要探索新的状态-动作对,贪婪选择值函数最大的动作,会造成邻居发现结果不收敛,因此使用UCB策略对非贪婪动作成为最优动作的可能性进行度量,选择最有可能成为最优动作的行为。

UCB策略指导动作选择的公式如下:

其中c=2,控制节点探索非贪婪动作的程度。若之前对某动作的选择很少,则该动作的不确定性很大,很有可能为最优动作,因此需要探索该动作,准确估计该动作的值函数。

步骤5:每个节点执行步骤4选择的动作,将定向天线波束切换到选择的方向。

步骤6:判断节点是否发生碰撞,若节点接收到2个以上的数据包,则认为发生了碰撞,意味该波束内有多个邻居节点,应该给与奖励m

步骤7:每一个节点随机选择下一个时隙状态s

步骤8:根据步骤6得到的回报r(s

其中α=1,γ=0.1。

步骤9:判断节点是否发现所有邻居,若定向自组织网络中所有节点都成功发现各自的全部邻居,转到步骤10;否则转到步骤11。

步骤10:记录邻居发现所需的时隙数,邻居发现过程结束。

步骤11:判断是否超出预定义的最大时隙数t

通过将本实施例公开的一种定向自组织网络邻居发现方法与完全随机的邻居发现方法进行对比,说明本实施例的优点。

如图2所示,本实施例公开的定向自组织网络邻居发现方法与完全随机的邻居发现方法在网络节点数为10、30、50时各自仿真100种不同网络,得到平均邻居发现时间,由图2可知,本实施例公开的定向自组织网络邻居发现方法的邻居发现延迟明显低于完全随机的邻居发现方法,即使网络中节点数不同,结论依然成立。

以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种定向自组织网络的邻居发现方法
  • 用于定向天线自组织网络的智能邻居发现方法及装置
技术分类

06120112876739