掌桥专利:专业的专利平台
掌桥专利
首页

一种知识驱动的抗干扰频谱接入方法与系统

文献发布时间:2023-06-19 19:30:30


一种知识驱动的抗干扰频谱接入方法与系统

技术领域

本发明涉及频谱接入技术领域,特别是涉及一种知识驱动的抗干扰频谱接入方法与系统。

背景技术

随着5G移动通信时代的到来,新一轮科技革命和产业变革深入发展,为生活带来了极大的便利。但是新兴产业,如云计算、VR/AR、自动驾驶等领域,使频谱资源短缺和频谱利用率低下的问题日益凸显。尽管高频段,如毫米波频段、太赫兹频段,被开发应用于5G、6G,但是传统的静态频谱分配方法依然无法满足快速增长的通信需求。

为了解决上述问题,提供了一种基于人工智能的方法来开发高效的频谱共享方案,但这一措施会导致无线通信网络中的频谱具有开放性,用户设备传输的信号极易被恶意干扰,造成无线通信的有效性与可靠性下降。因此,在复杂的干扰环境下保证用户设备信号传输性能和提高频谱利用率,具有重要理论意义和实用价值。

动态频谱接入技术是实现无线通信系统频谱资源高效利用的关键技术,其具备检测频谱空洞和选择空闲频谱进行传输的能力,是一种高效的频谱共享方案。干扰环境下的电磁频谱复杂多变,给用户设备的动态频谱接入带来了困难,而强化学习可以与环境不断交互学习,因此,基于强化学习的智能动态频谱接入技术可以解决动态干扰环境下的实时频谱决策问题。然而,在复杂的干扰电磁环境中,传统强化学习存在收敛速度慢、收敛周期长的问题,很难帮助用户设备在初始阶段快速获得有效的接入策略。

发明内容

本发明的目的是提供一种知识驱动的抗干扰频谱接入方法与系统,能够在复杂干扰环境下保证用户设备信号传输性能以及提高频谱利用率。

为实现上述目的,本发明提供了如下方案:

第一方面,本发明提供了一种知识驱动的抗干扰频谱接入方法,包括:

构建干扰环境下频谱接入模型,并基于所述干扰环境下频谱接入模型确定用户设备的信道选择与传输时长决策问题;所述干扰环境下频谱接入模型是根据无线通信系统构建的;所述无线通信系统包括一个用户设备和一个干扰机;所述用户设备至少包括发射机和接收机;

将所述信道选择与传输时长决策问题建模为马尔可夫决策过程;

确定先验状态,并根据所述先验状态确定结合先验知识的抗干扰频谱接入算法;

利用所述结合先验知识的抗干扰频谱接入算法求解所述马尔可夫决策过程,得到用户设备动态接入频谱的传输信道与传输时长。

谱的传输信道与传输时长,具体包括:

第二方面,本发明提供了一种知识驱动的抗干扰频谱接入系统,包括:

优化问题确定模块,用于构建干扰环境下频谱接入模型,并基于所述干扰环境下频谱接入模型确定用户设备的信道选择与传输时长决策问题;所述干扰环境下频谱接入模型是根据无线通信系统构建的;所述无线通信系统包括一个用户设备和一个干扰机;所述用户设备至少包括发射机和接收机;

马尔可夫决策过程构建模块,用于将所述信道选择与传输时长决策问题建模为马尔可夫决策过程;

算法确定模块,用于确定先验状态,并根据所述先验状态确定结合先验知识的抗干扰频谱接入算法;

传输信道与传输时长确定模块,用于利用所述结合先验知识的抗干扰频谱接入算法求解所述马尔可夫决策过程,得到用户设备动态接入频谱的传输信道与传输时长。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

针对干扰环境下动态频谱接入决策问题,本发明利用先验知识提升强化学习算法收敛速度的优点,提供了一种知识驱动的抗干扰频谱接入方法与系统。仿真结果表明,本发明不仅能够提升算法收敛速度、缩短学习时间,而且增加通信吞吐量、提高频谱利用率。主要工作包括:

第一,考虑频繁切换信道对通信吞吐量的影响,本发明同时优化了信道选择和传输时长,将信道选择与传输时长联合决策问题建模为马尔可夫决策过程。

第二,针对干扰环境下的动态频谱接入决策问题,提出了一种结合先验知识的动态频谱接入抗干扰算法,将干扰的变化趋势作为先验知识,定义了四种先验状态并确定其优先级,对Q表进行初始化。同时,结合先验状态,设计了复合奖励函数,指导强化学习的探索过程。

在仿真部分,本发明所提算法与无先验传统强化学习、常规先验知识方法在平均吞吐量、虚警概率和漏检概率等性能指标进行了对比。此外,本发明还分析了不同数量的先验状态对性能指标的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的抗干扰频谱接入方法的流程示意图;

图2为本发明实施例提供的干扰环境下频谱接入模型结构图;

图3为本发明实施例提供的时隙结构图;

图4为本发明实施例提供的干扰机在5个信道不同的干扰效果图;

图5为本发明实施例提供的强化学习原理框图;

图6为本发明实施例提供的基于先验知识的强化学习原理框图;

图7为本发明实施例提供的四种不同频谱接入算法在性能指标的比较图;图7中(a)为不同动态频谱接入算法的平均吞吐量曲线图;图7中(b)不同动态频谱接入算法的虚警概率曲线图;图7中(c)不同动态频谱接入算法的漏检概率曲线图;

图8为本发明实施例提供的不同数量的先验状态对性能指标的影响对比图;图8中(a)不同数量的先验状态对平均吞吐量的影响对比图;图8中(b)不同数量的先验状态对虚警概率的影响对比图;图8中(c)不同数量的先验状态对漏检概率的影响对比图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示,本发明实施例提供了一种知识驱动的抗干扰频谱接入方法,包括如下步骤。

步骤100:构建干扰环境下频谱接入模型,并基于所述干扰环境下频谱接入模型确定用户设备的信道选择与传输时长决策问题;所述干扰环境下频谱接入模型是根据无线通信系统构建的。

本发明实施例研究了干扰环境下用户设备的动态频谱接入问题。在动态频谱接入过程中,用户设备会受到外部环境中的恶意干扰,通过学习复杂电磁环境的历史信息和实时状态来避免恶意干扰。

本发明实施例所述的干扰环境下频谱接入模型如图2所示,构建的无线通信系统有一个用户设备(含有发射机和接收机)和一个干扰机。所述无线通信系统中有N个带宽为BHz的可用互不重叠信道,所述发射机的发射功率为P所述干扰机的干扰功率为J且随时间周期变化。

当所述用户设备选择任意1个信道进行数据传输,所述发射机通过通信链路传输数据至所述接收机,所述接收机根据接收数据和执行智能决策算法确定控制链路回传决策信息并传输至所述发射机;所述干扰机用于同时干扰所述无线通信系统中的N个信道,并通过施放干扰信号以达到阻断所述用户设备正常通信的目的。

其中,通信链路、干扰链路均采用瑞利衰落信道。信道增益与传输距离相关,其关系可以表示为:

φ=d

其中,d表示传输距离,δ表示路径衰落因子,φ表示用户设备的信道增益μ或是干扰增益β。本发明实施例假设用户设备在通信过程中的发射功率P可变,用户设备在通信过程中会受到外部环境的干扰而导致传输的通信数据损耗,以及信道衰落的影响,因此用户设备在信道i的信噪比SINR可表示为:

其中,i表示信道(i∈N),μ表示发射机到接收机的信道增益,P表示发射机的发射功率,N

具体定义如下:

同时,为了便于计算和智能决策,本发明实施例将传输时长离散的划分为若干个等长的时隙单元T

本发明实施例设计的动态频谱接入过程包含若干时隙t(t∈T),则用户设备每次动态频谱接入获得通信吞吐量表示为:

图4显示了干扰机在5个信道不同的干扰效果,热力图从深色到浅色变化,表明用户设备受到干扰机的干扰效果越明显。在实际的通信过程中,用户设备需要找到信道干扰空洞,以合适的时间长度传输数据。然而,传输时长长度并不能过长,当传输时长较长时,可能会与干扰发生碰撞导致数据损耗,降低用户设备的通信质量;相反,传输时长过短会造成用户设备频繁的切换信道,带来巨大的能量开销。

因此,本发明实施例构建的频谱接入模型的目标是在未知的干扰环境中快速寻找最优的传输策略,即选择最优的传输信道和传输时长,降低用户设备被干扰的概率,同时最大化通信吞吐量。

步骤200:将所述信道选择与传输时长决策问题建模为马尔可夫决策过程(MarkovDecisionprocess,MDP)。

Q-learnin是强化学习算法中基于价值(value-based)的算法,其优势是将时序差分算法同优化控制理论相结合,通过时间差分法进行离线学习。强化学习的框架中包含三个典型的元素,分别为:(1)智能体的状态S

智能体在执行强化学习算法过程中,每一步都会根据当前Q值选择一个动作,若用户设备总是选择最大Q值所对应的动作,则会导致算法陷入局部最优。为了避免这种情况的发生,本发明实施例采用贪婪策略算法的更新方式,它可以在探索和利用之间做出权衡,使智能体通过不断学习获得全局最优的策略。智能体以1-ε的概率选择当前Q值最大的动作a,以ε的概率随机选择动作A,其具体形式为:

在描述MDP时,用状态S、动作A和回报R三个元素来表示,具体在本文中代表的含义如下所示:

(1)状态空间S

本发明实施例将用户设备在k时隙的状态定义为

(2)动作空间A

在k时隙,将用户设备在S

A

其中,n

(3)奖励函数R

用户设备在S

式中引入了信息传输速率C=Blog2(1+SINR)作为奖励的评估,a

其中,一次接入过程包含若干时隙t(t∈T),因此,公式

步骤300:确定先验状态,并根据所述先验状态确定结合先验知识的抗干扰频谱接入算法。

本发明实施例定义的状态空间S体现了两个时隙的多信道干扰效果,根据干扰时间序列的特性,从状态空间中可以发现干扰时间序列的变化趋势,并结合干扰阈值,可以发现信道接入存在四种情况,将这四种接入情况定义为先验状态S

先验状态S

其中,先验状态

先验状态

先验状态

先验状态

根据上述分析,先验状态

步骤400:利用所述结合先验知识的抗干扰频谱接入算法求解所述马尔可夫决策过程,得到用户设备动态接入频谱的传输信道与传输时长。

当用户设备完成一次动态频谱接入过程,会检验此次接入过程符合哪种先验状态S

其中,ω为收益强化系数,

因此,当用户设备完成一次动态频谱接入过程,结合先验状态S

用户设备在学习过程中通过与环境不断交互探索干扰的变化规律,从而获得最优的传输策略。本发明实施例的优化目标即优化用户设备的传输策略π,使得当前策略下Q

其中,α表示学习速率,γ表示未来奖励值的衰减因子。

步骤400具体操作如下:

通过频谱感知获取信道初始状态s

设置初始时隙k=0;循环:for k=0to k

用户设备在s

用户设备在s

根据公式(14)更新Q值。

更新状态s

k=k+1,循环结束。

结合先验知识的动态频谱接入算法可以概括为:系统根据状态空间和干扰阈值,定义四种先验状态,对用户设备的Q表进行初始化;根据强化学习最大化奖励值的原则循环迭代,优化信道选择与传输时长。算法核心步骤如表1所示。

表1结合先验知识的动态频谱接入抗干扰算法表

本发明实施例在MATLAB平台环境下,对干扰环境下的动态频谱接入算法进行仿真测试,采用四种不同频谱接入方案在评价指标(虚警概率、漏检概率、平均吞吐量)进行比较。方案一为传统单一动作强化学习算法,利用贪婪算法决策信道选择动作,传输时长选择随机动作;方案二为传统双动作强化学习算法,利用贪婪算法决策信道选择和传输时长动作;方案三为常规先验知识的强化学习算法,利用先验知识对Q表初始化,加快算法收敛速度;方案四为本文提出的结合先验知识的强化学习算法,利用先验知识定义四种先验状态,对Q表初始化,并利用先验状态设计复合奖励函数,加快算法收敛速度;假设通信系统中的干扰机的干扰功率J范围为2.5W~10W,干扰周期T=40时隙。考虑功率浪费问题,本文假设当J<J

表2通信系统仿真参数和强化学习参数表

表3不同先验状态的奖励参数表

图7所示为四种不同频谱接入算法在性能指标的比较情况。图7(a)所示为四种不同频谱接入方案的平均吞吐量对比,从图中可以看到无先验传统强化学习算法、常规先验知识算法以及本文提出的结合先验知识强化学习算法分别在第35000、25000和20000个时隙左右开始收敛,与对比算法比较,所提算法能够分别提升大约42%、16%的收敛速度,具有明显的优势。同时,本发明实施例所提算法在接入过程的初始阶段获得较好的平均吞吐量,并在收敛阶段,明显优于无先验传统强化学习算法,略优于常规先验知识算法。

图7(b)所示为四种不同频谱接入方案的虚警概率对比情况,从图中可以看到,对比算法大概从第35000个时隙开始收敛,而本文所提算法从第15000个时隙左右开始收敛,收敛速度提升了57%。在达到收敛后,对比算法的虚警概率分别稳定在0.2、0.1和0.045,而本文所提算法可以稳定在0.025左右,分别降低了17.5%、7.5%和2%,有效提升了频谱利用率。图7(c)所示为四种不同频谱接入方案的漏检概率对比情况,从图中可以看到,本发明实施例所提算法能够在接入过程的初始阶段,具有较低的漏检概率,并且在收敛速度上具有明显优势。在收敛阶段,本发明实施例所提算法获得的漏检概率优于对比算法,降低了用户设备受到干扰的概率,提高了平均吞吐量。

其次,本发明实施例还研究了先验状态的数量对性能指标的影响。在保持干扰环境下的动态频谱接入模型和算法参数不变的情况下,图8(a)研究了不同数量的先验状态对平均吞吐量的影响,从图中可以看到,随着用户设备具有的先验状态数量增加,平均吞吐量逐渐增加并且收敛速度明显加快。这表明先验状态的数量越多,越有利于提升算法收敛性能。另一方面,从图中的收敛阶段可以看到,先验状态

图8(b)、(c)研究了不同数量的先验状态对虚警概率、漏检概率的影响,从图中可以看到,在用户设备具有先验状态

实施例二

为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种知识驱动的抗干扰频谱接入系统。该系统包括:

优化问题确定模块,用于构建干扰环境下频谱接入模型,并基于所述干扰环境下频谱接入模型确定用户设备的信道选择与传输时长决策问题;所述干扰环境下频谱接入模型是根据无线通信系统构建的;所述无线通信系统包括一个用户设备和一个干扰机;所述用户设备至少包括发射机和接收机。

马尔可夫决策过程构建模块,用于将所述信道选择与传输时长决策问题建模为马尔可夫决策过程。

算法确定模块,用于确定先验状态,并根据所述先验状态确定结合先验知识的抗干扰频谱接入算法。

传输信道与传输时长确定模块,用于利用所述结合先验知识的抗干扰频谱接入算法求解所述马尔可夫决策过程,得到用户设备动态接入频谱的传输信道与传输时长。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法
  • 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法
技术分类

06120115930935