掌桥专利:专业的专利平台
掌桥专利
首页

基于多准则多代价函数的雷达智能抗干扰决策方法

文献发布时间:2024-04-18 19:58:26


基于多准则多代价函数的雷达智能抗干扰决策方法

技术领域

本发明涉及基于多准则多代价函数的雷达智能抗干扰决策方法,属于雷达抗干扰技术领域。

背景技术

在雷达与电子干扰的博弈中,干扰方会不断改变干扰策略,产生更加复杂和不可预测的干扰类型。这给雷达的抗干扰能力带来了严重的威胁和挑战。

在雷达抗干扰的过程中,准确的抗干扰决策是有效对抗的重要前提。当雷达面临简单干扰时,基于模板匹配的抗干扰决策方法是有效的。当雷达的知识库抗干扰措施数量较少时,采用多属性决策方法或模糊层次分析法也可以解决抗干扰决策问题。然而,随着干扰技术的快速发展,雷达抗干扰措施的类型也越来越多。传统的决策方法不能满足认知雷达智能抗干扰的需要。强化学习(reinforcement learning,RL)主要用于解决序列决策问题,RL的思想与智能雷达抗干扰决策问题不谋而合。因此,有学者尝试将RL应用于雷达抗干扰决策领域,但目前并没有获得好的决策效果。

发明内容

针对现有雷达抗干扰决策方法不能满足认知雷达抗干扰需求,并且不能自适应的快速选择干扰措施的问题,本发明提供一种基于多准则多代价函数的雷达智能抗干扰决策方法。

本发明的一种基于多准则多代价函数的雷达智能抗干扰决策方法,包括,

对每种干扰模式,设定对应的评价指标;

根据评价指标计算不同抗干扰措施对抗不同干扰模式下不同干扰类型的抗干扰提升因子,再基于抗干扰提升因子获得干扰与抗干扰的相关矩阵;

基于干扰与抗干扰的相关矩阵设计代价函数:

代价函数一,以最大化所有抗干扰措施的抗干扰提升因子累加和的平均值为决策目标;

代价函数二,以最小化选择抗干扰措施的数量为目标;

根据雷达抗干扰决策目标,设计基于双层DDPG的决策算法,将外层DDPG算法模型作为第一决策层选择抗干扰措施的作用域,将内层MADDPG算法模型作为第二决策层根据作用域选择抗干扰措施;以干扰类型、抗干扰措施、转移概率和奖赏函数建立马尔可夫决策过程的四元组,进行迭代运算,获得雷达抗干扰措施组合方式的最优解;其中转移概率为采取当前抗干扰措施时,当前干扰类型转移到下一个干扰类型的概率;奖赏函数为对应的代价函数。

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,将第i种抗干扰措施对抗第j种干扰类型的抗干扰提升因子定义为e

式中i=1,2,…,N,j=1,2,...,M,N为抗干扰措施的总个数,M为干扰类型的总数;

P

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,干扰与抗干扰的相关矩阵表示为GE:

E

E

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,代价函数一表示为Reward

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,代价函数二表示为Reward

式中γ

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,将雷达的抗干扰决策过程定义为马尔可夫决策过程的四元组{S,A,P,R},其中S为t时刻雷达输入的干扰类型s

将t时刻雷达输出的抗干扰措施组合方式定义为策略π(a

抗干扰措施组合方式的最优解定义为最优策略π

式中Ε[R

式中k为迭代次数,γ∈(0,1]为折扣因子;

令中间变量μ=π(a

式中

通过最小化动作价值函数Q

式中ρ为策略π下的折扣的状态分布,β为随机行为策略,

y

外层DDPG算法模型的actor网络的更新公式如下:

式中

actor网络通过采样的噪声添加到actor策略中构建探索策略μ′(s

式中

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,采用接收机接收电磁环境的干扰信号,确定干扰信号的干扰模式及干扰类型;

将根据干扰类型确定的最优抗干扰措施通过发射机发送至电磁环境。

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,将干扰信号按干扰模式分为压制式干扰、假目标欺骗式干扰、拖引式欺骗干扰和组合干扰;

其中压制式干扰包括的干扰类型为:阻塞式干扰、瞄准式干扰和扫频式干扰;

假目标欺骗式干扰包括的干扰类型为:距离假目标欺骗式干扰、间歇采样转发欺骗式干扰和密集假目标欺骗式干扰;

拖引式欺骗干扰包括的干扰类型为:距离拖引干扰、速度拖引干扰和距离-速度同步拖引干扰;

组合干扰包括的干扰类型为:压制干扰+假目标欺骗干扰、压制干扰+拖引式欺骗干扰和假目标欺骗干扰+拖引式欺骗干扰。

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,抗干扰措施的作用域包括时域、频域和空域。

根据本发明的基于多准则多代价函数的雷达智能抗干扰决策方法,时域抗干扰措施包括线性滤波器设计和LFM波形参数设计;

频域抗干扰措施包括频率捷变和频率分集;

空域抗干扰措施包括空时自适应滤波、自适应波束形成和旁瓣对消。

本发明的有益效果:本发明方法可以将干扰和抗干扰资源以及相关矩阵的相关信息形成资源丰富的知识库,当雷达面对智能化和多样化的干扰场景时,能够对抗干扰措施进行快速且有效地优化选择,确保雷达达到最佳的抗干扰效果;本发明方法收敛时间短,抗干扰决策精度高,具有良好的鲁棒性能和泛化性能。

附图说明

图1是本发明所述基于多准则多代价函数的雷达智能抗干扰决策方法的流程框图;

图2是基于双层DDPG的决策算法模型图;

图3是具体实施例一中代价函数一为奖赏函数时的损失函数曲线;

图4是具体实施例一中代价函数二为奖赏函数时的损失函数曲线;

图5是具体实施例二中代价函数一为奖赏函数时的奖赏函数曲线;

图6是具体实施例二中代价函数二为奖赏函数时的奖赏函数曲线;

图7是具体实施例三中对三种抗干扰决策方法抗干扰性能的比较曲线。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。

具体实施方式一、结合图1和图2所示,本发明提供了一种基于多准则多代价函数的雷达智能抗干扰决策方法,包括,

对每种干扰模式,设定对应的评价指标;

根据评价指标计算不同抗干扰措施对抗不同干扰模式下不同干扰类型的抗干扰提升因子,再基于抗干扰提升因子获得干扰与抗干扰的相关矩阵;

基于干扰与抗干扰的相关矩阵设计代价函数:

代价函数一,以最大化所有抗干扰措施的抗干扰提升因子累加和的平均值为决策目标;

代价函数二,以最小化选择抗干扰措施的数量为目标;

根据雷达抗干扰决策目标,设计基于双层DDPG的决策算法,将外层DDPG算法模型作为第一决策层选择抗干扰措施的作用域,将内层MADDPG算法模型作为第二决策层根据作用域选择抗干扰措施;以干扰类型、抗干扰措施、转移概率和奖赏函数建立马尔可夫决策过程的四元组,进行迭代运算,获得雷达抗干扰措施组合方式的最优解;其中转移概率为采取当前抗干扰措施时,当前干扰类型转移到下一个干扰类型的概率;奖赏函数为对应的代价函数。

进一步,为了比较不同抗干扰措施的优劣程度,提出了抗干扰提升因子。根据不同的评价准则设计不同的评价指标。以采取抗干扰措施前的指标状态为基准,在某一干扰的持续作用下,以采取抗干扰措施后的指标状态为比较对象,来表征不同抗干扰措施对干扰的抑制程度。将第i种抗干扰措施对抗第j种干扰类型的抗干扰提升因子定义为e

式中i=1,2,…,N,j=1,2,…,M,N为抗干扰措施的总个数,M为干扰类型的总数;

P

再进一步,抗干扰措施和干扰类型之间的关系可以由抗干扰提升因子的矩阵表征,即干扰与抗干扰的相关矩阵表示为GE:

E

E

由于干扰类型的多样性,本实施方式针对四种不同的干扰类型,设计四种不同的评价准则来评估抗干扰措施的干扰抑制性能,从而为抗干扰提升因子的计算提供准则和指标支持。因此,针对四种不同类型的干扰类型分别选择了不同的抗干扰评价准则和指标,如表1所示。

表1四种不同干扰模式的评价指标

当雷达受到压制式干扰时,大量噪声信号进入接收机,降低了接收机输出的信噪比,降低了探测概率。采取抗干扰措施后的信噪比越大,说明采取的抗干扰措施效果越好。因此,选择压制式干扰的抗干扰评价准则为接收机输出的信干比越大越好,评价指标为信干比。

假目标欺骗式干扰通过产生一定数量的假目标,从而影响雷达的正常探测性能,使雷达失去真实目标。当假目标数量达到一定数量时,会对雷达产生抑制作用。雷达在采取了抗干扰措施后,发现的真实目标越多,说明效果越好。因此,选择假目标欺骗式干扰的抗干扰评价准则为发现目标数量为真实目标数量,评价指标为发现的真实目标数量。

拖引式欺骗干扰主要用于干扰雷达的自动跟踪器,使雷达跟踪器在远离真实目标的错误位置,达到以假乱真的效果。因此,其对雷达的影响主要体现在跟踪精度的误差上。如果采取了抗干扰措施后,雷达跟踪精度误差越小,就意味着抗干扰措施的效果越好。因此,选择拖引式欺骗干扰的抗干扰评价准则为跟踪精度在规定误差阈值内,评价指标为跟踪精度误差。

组合干扰可产生“1+1>2”,增加了抗干扰的难度。多个干扰信号的组合会增加接收到的欺骗性干扰信号的模糊度,同时降低雷达对真实目标回波的探测概率。这使得真实目标回波与欺骗干扰回波难以区分,进一步干扰目标雷达的正常工作。因此,组合干扰抗干扰评价准则为符合所有单一评价准则,评价指标是各单一干扰评价指标的数学累加。

下面,设计基于多代价函数的决策模块,包括雷达抗干扰决策的代价函数和基于双层DDPG的决策算法。

首先,设计雷达抗干扰决策的代价函数。根据雷达作战过程中的实际任务需求,根据雷达抗干扰决策目标的不同,设计两个代价函。对于只考虑抗干扰措施的干扰抑制效果的情况设计了代价函数一。为了获得最佳的抗干扰效果,雷达的决策目标是最大化所有抗干扰措施的干扰抑制效果累加和的平均值。

本实施方式中,代价函数一表示为Reward

其中,n∈{1,2,...,N},N表示抗干扰决策算法选择的抗干扰措施的个数。

为了节省雷达抗干扰资源,需使用最简便的方法获取最优的干扰抑制效果。所以,决策目标为最大化所有抗干扰措施的抑制效果累加和,最小化所选择的抗干扰措施的数量。因此,这是一个多目标优化问题,根据实际需求,采用加权的方式,设计目标函数,分别对其设置权重参数,权衡两个目标的重要程度。代价函数二表示为Reward

式中γ

接下来,设计基于双层DDPG的决策算法。RL是一种通过与环境交互获得奖赏,进而利用动态规划技术获得相应策略的机器学习方法。在RL模型中,主要包含智能体和环境两个部分。由于环境没有明确告知智能体学习规则,迫使智能体通过不断试错的方式熟悉外界环境并建立起相应的联系。在学习时间允许以及奖赏适当的情况下,智能体能够在完全陌生的环境中不断学习,凭借交互学习获得的策略最大化累积奖赏。正是由于强化学习算法对外界环境信息需求少,且交互的方式决定了雷达采取的抗干扰措施贴近真实环境,使得将强化学习理论用于雷达抗干扰策略学习具有一定的可行性。

再进一步,本发明使用RL理论将雷达抗干扰决策问题建模为马尔可夫决策过程(Markov decision process,MDP)。将雷达视为智能体,将电磁环境视为环境。将雷达的抗干扰决策过程定义为马尔可夫决策过程的四元组{S,A,P,R},其中S为t时刻雷达输入的干扰类型s

DDPG算法具有自主学习、决策的能力,可以减轻雷达反干扰操作对人员的依赖,大大提高雷达抗干扰的自主性、快速反应能力,可提升雷达的智能抗干扰水平。DDPG算法是actor-critic框架下的在线深度强化学习算法。它包括一个actor网络和一个critic网络,每一个都遵循自己的更新规律,以最大化累积预期回报。

为了应对多种多样的干扰类型,需要在数据资源丰富的知识库中解决抗干扰措施的高效优化问题。因此,提出了一种基于双层DDPG的雷达智能抗干扰决策算法模型。它包括一个外层的DDPG模型和一个内层的多智能体深度确定性策略梯度(multi-agent deepdeterministic policy gradient,MADDPG)模型,如图2所示。

为了降低动作空间的维数,本实施方式将雷达动作空间划分为包含作用域和抗干扰措施的两个子空间。抗干扰过程分为两个决策层。第一决策层是外层DDPG算法模型,使用DDPG算法选择作用域。第二决策层是内部的MADDPG算法模型,使用MADDPG算法根据作用域选择抗干扰措施。通过外部DDPG算法与内部MADDPG算法的相互作用,找到全局最优解。两层之间的交互可以描述为:外层DDPG算法决定转变换域,并指导内层MADDPG算法的动作。由内部MADDPG算法确定的抗干扰措施直接决定雷达的抗干扰效果,影响下一个决策动作的选择。

在t时刻,决策算法根据策略π(a

将t时刻雷达输出的抗干扰措施组合方式定义为策略π(a

抗干扰措施组合方式的最优解定义为最优策略π

式中Ε[R

式中k为迭代次数,γ∈(0,1]为折扣因子;

为了求解最优策略π

式中

Q

通过最小化动作价值函数Q

式中ρ为策略π下的折扣的状态分布,β为随机行为策略,

y

外层DDPG算法模型的actor网络的更新公式如下:

式中

actor网络通过采样的噪声添加到actor策略中构建探索策略μ′(s

式中

外层DDPG算法的观测状态为干扰类型;选择的动作为抗干扰措施;奖励函数为代价函数,用来优化算法模型。内层MADDPG算法将每个作用域类别作为一个子智能体,将作用域中包含的抗干扰措施作为子智能体的动作。观测状态为作用域和干扰类型。奖赏函数是抗干扰提升因子。在完全合作状态下,每个子智能体的目标是使共同收益最大化。本发明采用动作价值函数和损失函数来优化和更新critic网络,采用目标值y

本实施方式中,结合图1所示,采用接收机接收电磁环境的干扰信号,得到目标和干扰信号,确定干扰信号的干扰模式及干扰类型;然后,基于知识库对观测到的干扰信号进行分析,并由决策系统生成抗干扰策略。最后,将根据干扰类型确定的最优抗干扰措施通过发射机发送至电磁环境,与电磁环境进行交互。

本实施方式中,由电磁环境、接收机、雷达决策系统和发射机形成雷达智能抗干扰决策模型;其中雷达决策系统包括知识库模块、基于多准则的评价模块和基于多代价函数的决策模块;知识库模块包括抗干扰措施模块、干扰类型模块和干扰与抗干扰的相关矩阵模块,主要作用是为决策模块提供先验信息;基于多准则的评价模块主要针对不同的干扰类型,设计抗干扰评价准则,计算抗干扰提升因子来评估抗干扰措施的干扰抑制性能,并为决策算法提供反馈信息;基于多代价函数的决策模块用于计算雷达抗干扰措施组合方式的最优解,它主要针对雷达的决策目标,设计两种不同的决策代价函数,用来验证决策算法的性能;它基于双层深度确定性策略梯度(deep deterministic policy gradient,DDPG)的决策算法来计算生成雷达抗干扰策略,依据代价函数对抗干扰措施进行优化,在线学习抗干扰策略并更新知识库。

作为示例,根据干扰效果的不同,将干扰信号按干扰模式分为压制式干扰、假目标欺骗式干扰、拖引式欺骗干扰和组合干扰;

其中压制式干扰包括的干扰类型为:阻塞式干扰、瞄准式干扰和扫频式干扰;

假目标欺骗式干扰包括的干扰类型为:距离假目标欺骗式干扰、间歇采样转发欺骗式干扰和密集假目标欺骗式干扰;

拖引式欺骗干扰包括的干扰类型为:距离拖引干扰、速度拖引干扰和距离-速度同步拖引干扰;

组合干扰包括的干扰类型为:压制干扰+假目标欺骗干扰、压制干扰+拖引式欺骗干扰和假目标欺骗干扰+拖引式欺骗干扰。

再进一步,抗干扰措施按照作用域的不同进行了划分,包括时域、频域和空域。

其中时域抗干扰措施包括线性滤波器设计和LFM波形参数设计;

频域抗干扰措施包括频率捷变和频率分集;

空域抗干扰措施包括空时自适应滤波、自适应波束形成和旁瓣对消。

下面采用具体实施例验证本发明的有益效果:

具体实施例一:

为了验证基于双层DDPG决策算法的鲁棒性,将其与基于双层(deep Q-network,DQN)算法和随机决策算法的抗干扰决策方法进行比较。在RL的训练过程中,利用损失函数更新神经网络的学习参数。如果损失函数值逐渐趋向于0,则说明算法模型的鲁棒性较好。因此,针对2个代价函数分析了神经网络的损失函数。设置代价函数一为奖赏函数时神经网络损失值随训练次数的变化曲线如图3所示,设置代价函数二为奖赏函数时神经网络损失值随训练次数的变化曲线如图4所示。外层DDPG算法的actor网络和内层MADDPG算法的actor网络的损失值均为负值,并逐渐趋向于0。这是由于actor网络使用采样策略梯度进行更新。其他神经网络的更新使用交叉熵损失,因此损失值为正,并且趋于越来越小。

在两种代价函数作为奖赏函数的情况下,通过观察训练次数为1-30次时损失值的变化可知,经过22次训练,基于双层DDPG的决策算法的神经网络损失值都收敛于0,说明神经网络在不同的代价函数情况下的训练性能较优越。然而,基于双层DQN的决策算法的神经网络损失值会收敛,但在代价函数二的情况下神经网络不能收敛置0,说明此算法不能很好的适应这种情况,模型是不稳定的。因此,本发明所提算法具有较好的鲁棒性。

具体实施例二:

为了验证基于双层DDPG决策算法的收敛性,将其与基于双层(deep Q-network,DQN)算法和随机决策算法的抗干扰决策方法进行比较。对1024个决策周期的平均奖励进行了分析,设置代价函数一为奖赏函数时的训练结果如图5所示,设置代价函数二为奖赏函数时的训练结果如图6所示。在两种不同的奖赏函数的情况下,双层DDPG算法的奖励值在150次训练次数内收敛。然而,双侧DQN算法需要在800次训练次数之后逐渐收敛。这证明了DDP算法收敛时间短,平均收敛时间可缩短80%左右。

具体实施例三:

为了验证基于双层DDPG的决策算法的抗干扰性能,将其与基于双层(deep Q-network,DQN)的决策算法和随机决策算法的抗干扰决策方法进行比较。对代价函数二作为奖赏函数时的抗干扰性能进行了分析。针对噪声压制干扰,设置噪声信号为0dB,输入信噪比为15dB,测试了在输入信干噪比(Signal to Interference plus Noise Ratio,SINR)为[-60,5]dB取值区间时,抗干扰决策算法决策出的抗干扰措施的输出信干噪比SINR,如图7所示。在三种算法的对比下,当输入SINR为[-60,45]dB时,基于双层DDPG的决策算法决策出的抗干扰措施,能将噪声压制干扰抑制掉47dB左右;基于双层DQN的决策算法决策出的抗干扰措施,能将噪声压制干扰抑制掉29dB左右;随机决策算法决策出的抗干扰措施,能将噪声压制干扰抑制掉23dB左右。

综上所述,基于双层DDPG的雷达智能抗干扰决策方法具有良好的鲁棒性和收敛性,并且具有较优越的干扰抑制性能。

虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。

相关技术
  • 基于回溯Q学习的雷达抗干扰智能决策方法
  • 基于DQN算法的雷达抗干扰智能决策方法
技术分类

06120116487745