基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰

以提升雷达性能为目的，从相控阵雷达（Phase Array,PA）到多输入多输出（Multiple Input Multiple Output,MIMO）雷达，雷达系统的自由度不断提升，检测、跟踪和抗干扰能力不断增强。为了进一步增加雷达系统的可控自由度，美国空间研究实验室的Antonik 等人在2006 年提出了FDA 雷达体制，增加雷达获取信息的能力［1-3］。FDA 雷达通过阵元间的频率增量，使得其产生了特有的距离-角度-时间相关的方向图，广泛应用于波束形成领域［4-5］。此外，由于FDA雷达可控自由度的提升，其可以有效提高其对目标检测［6］、跟踪［7］、成像［8］和参数估计［9］的能力，对干扰［10］和杂波［11］的抑制能力以及自身射频隐身的能力［12］。

雷达系统面临着复杂多变的电磁环境，动态变化的干扰会对雷达性能的发挥产生抑制作用。对于主瓣内的转发式欺骗干扰，FDA 雷达通过引入各个阵元的频率增量，目标回波信号与欺骗干扰信号的发射空间域不同［13-14］，因此，转发欺骗干扰可以被有效识别和抑制。对于主瓣内的随队假目标干扰，FDA 雷达利用其波束的距离相关特性，通过产生动态零陷的波束［15］，可以实现对假目标干扰的抑制。对于主瓣频谱阻塞干扰，FDA 雷达可以通过调整各个阵元的发射功率，从而控制发射信号频谱实现对干扰的抑制［16-17］，其相较于MIMO 雷达基于波形设计的频谱干扰抑制主要有两个优点［18-19］：一是不需要复杂的优化方法；二是不需要任意波形发生器，仅仅通过发射功率分配便可以实现干扰的抑制。受文献［16］和［17］启发，文献［20］提出了基于强化学习的FDA-MIMO 雷达发射功率分配方法，在假设频谱阻塞干扰阻塞频谱一段时间内不变的情况下，其基于DDPG 算法成功实现了对干扰频段的避让。但是，根据文献［20］仿真结果，其建立的认知FDA-MIMO 雷达在与环境交互后只剩单个发射阵元在单一频段发射信号，其余各个频段全部静默。这一结果将导致FDA 雷达退化为PA 雷达从而丢失FDA 的特性，更重要的造成了软硬件资源的浪费，不能充分发挥雷达整体性能。

雷达抗干扰问题伴随着雷达发展的始终，干扰机技术的不断发展以及智能化的应用要求雷达也应当具有相当的智能以适应复杂多变的电磁环境。雷达能够在与空间电磁环境交互的过程中，学习干扰机的策略和干扰信号的参数，而后利用学习到的知识，动态地调整自身的信号参数，实现对自身性能的提升。本文假设的干扰环境为雷达主瓣内的扫频干扰，FDA-MIMO雷达在强化学习的框架下，基于DQN算法，动态地调整FDA各个阵元的发射功率，实现了发射信号在避开干扰频段的同时，充分利用未受干扰的频段。

1 信号模型

FDA-MIMO 雷达发射-接收模型如图1 所示，其包含M 个发射阵元和Nr 个接收阵元，阵元间距均为d。第m个阵元发射的信号是ϕm，可以表示为

式中：wm 为发射权重，其决定发射阵列各个阵元的功率分配；φ(t)为基带脉冲波形，其带宽为B；第m个阵元的载波频率fm = f0 +(m - 1)Δ f，f0和Δ f ≥B分别表示参考阵元载波频率和频率增量。各个阵元发射信号满足频域正交性：

假设空间中有一个目标位于(r0,θ0)，接收阵列接收到目标回波信号后，采用文献［16］提出的匹配滤波框架。经过匹配滤波后，目标回波信号矩阵可以表示为

式中：αt 代表路径损失和目标反射系数，不失一般性，在后文中令αt = 1；aR(θ0)，WT 和aT(r0,θ0)分别表示接收阵列导向矢量、发射权重矢量和发射阵列导向矢量；⊙是Hadamard 运算。将回波信号Yt向量化表示为受WT调控的yt(wT)：

式中，⊗表示克罗内克积。观察式（7）可以得出，雷达接收的目标回波信号受到FDA-MIMO 雷达发射功率分配的影响。FDA-MIMO 雷达通过发射功率分配，可以有效调控发射信号的频谱。

假设扫频干扰与FDA 发射信号分布在同一频带内。不失一般性，扫频干扰i(t)可以近似为随时间序列变化的窄带瞄准干扰，扫描范围是FDA 雷达的发射信号频谱。干扰分布近似为广义平稳零均值复随机过程，其通过各接收阵元对第m 个发射阵元发射信号的匹配滤波信道后可以表示为

式中，*表示共轭。单个接收阵元接收到的干扰信号经过M 个匹配滤波信道后，干扰信号可以表示为

式中，im表示干扰信号通过第m个匹配滤波信道后的信号。接收阵列接收到的K 个干扰信号和噪声信号可以表示为

式中，n ∈ℂMN × 1 ～(0,σnIMNr)是噪声向量。由于发射信号是频域正交的。因此，干扰信号通过匹配滤波信道后也是相互正交的。干扰信号的相关系数矩阵可以表示为P = diag(p)，其中，diag 表示对角矩阵。

由此，可以得出干扰和噪声信号的协方差矩阵可以表示为

根据式（7）和式（10），FDA-MIMO 雷达在干扰环境下接收到的信号可以表示为

在接收阵列处，采用最小方差无失真响应（Minimum Variance Distortionless Response,MVDR）的自适应波束形成方法。目标回波信号与干扰信号和噪声信号强度之比（Signal-to-Interference-plus-Noise Ratio,SINR）可以表示为

式（15）表明了通过调整WT，也就是FDA-MIMO雷达通过优化发射功率的分配，可以在干扰环境下提高雷达的SINR，从而提高雷达的检测性能。

2 基于DQN的FDA雷达发射功率分配

FDA-MIMO雷达在接收信号中识别出干扰后，自适应地分配各个发射阵元的发射功率以避开干扰信号频段，提高SINR。在FDA-MIMO 雷达与电磁环境动态交互智能对抗的过程中，本文在强化学习的框架下采用DQN 算法对发射功率分配矢量wT 进行优化。FDA-MIMO 雷达自身被建模为一个智能体，根据空间电磁环境中干扰的功率分配状态p反馈调整自身的所采取的动作wT，而后获得奖励r。根据获得的奖励和当前侦测的干扰状态再次调整发射功率wT，最终实现与空间环境交互的智能抗干扰。

在强化学习中，状态、动作、奖励和环境是十分重要的因素。智能体在环境的一个状态下做出一个动作的决策，这个动作又被智能体作用回环境中，环境会发生相应的改变，智能体获得相应的奖励和更新的状态。这种交互过程不断迭代进行，智能体的目标是最大化交互过程中的累计期望奖励。在本文中，状态是t 时刻FDA-MIMO 雷达所感知的干扰功率分配pt =[ p0t,…,pmt,…,p(M - 1)t]，其中pmt 表示t 时刻第m 频段的干扰功率分配。动作是t 时刻FDA-MIMO 雷达的发射功率分配WTt =[w0t,…,wmt,…,w(M - 1)t]T，其中WTt 表示t时刻第m 频段的发射功率分配。奖励考虑为关于SINR 和阵元有效使用率的函数，为了使得通过强化学习获得的动作策略的同时能够最大化利用所有未受干扰的阵元，本文基于罚函数的思想提出了一种奖励函数。通过奖励函数，就可以将优化的思想引入到深度学习网络中去，在t 时刻奖励rt 可以表示为

其中，κ 是惩罚系数，bool 为逻辑运算符,其运算结果表示为

在本文中FDA-MIMO 雷达面临的环境主要考虑为干扰机释放在主瓣内的扫频干扰，其干扰频段在雷达发射信号频段内按照一定的规律扫描，具体的扫描规律将根据仿真参数在下一节设置。确定各个要素后，基于DQN 的FDA-MIMO 雷达智能化发射功率优化框图如图2所示。

FDA-MIMO 雷达与环境的交互数据首先会存放在经验回放池中，经验回放池中的每一个数据包括t 时刻FDA-MIMO 雷达所感知的干扰功率分配pt，t 时刻FDA-MIMO 雷达的发射功率分配wTt，在t 时刻奖励r，以及t + 1 时刻FDA-MIMO 雷达所感知的干扰功率分配pt + 1，即一个四元组数据（状态、动作、奖励和下一状态）。训练Q 网络时从回放池中随机采样若干数据进行训练，在使得训练网络的数据满足独立假设的同时，提高了样本的利用率，这一点对于稀缺的电磁对抗数据也十分有益。网络完成训练后，可以获得当前干扰状态下的最优功率分配。在DQN 算法中，为了解决神经网络训练不稳定性的问题，使用目标网络Qw-(p,wT)和训练网络Qw(p,wT)的思想，训练网络在训练过程中，损失函数构造为均方误差的形式，表示为

目标网络使用训练网络的一套旧参数。训练网络在训练的每一步都会更新，而目标网络的参数间隔一定时间步长会与训练网络同步一次w- ←w，这样使得目标网络相对于训练网络更加稳定。综上所述，基于DQN 的FDA-MIMO 雷达发射功率分配算法如表1所示。

目标网络完成训练后，FDA-MIMO雷达实现了通过发射功率分配对抗频谱干扰，最大化SINR 的目的。

3 仿真分析

首先设置FDA-MIMO雷达的仿真参数，发射阵列和接收阵列的阵元数为M = Nr = 6，阵元间距为半波长，载波频率f0 = 1 GHz，频率增量Δ f= 1 MHz，基带矩形脉冲波形

,0 ≤t ≤Ts，BS = 1/Ts=1 MHz。因此，各个发射阵元发射的信号是频域正交的，雷达总辐射能量一定，各个发射阵元状态为辐射能量或静默，因此发射阵列的状态总数为2M = 64。空间目标位于(30°,15 km)，干扰机位置位于(30°,20 km)，信噪比（Signal-to-Noise Ratio,SNR）和干噪比（Interference-to-Noise Ratio,INR）相等，都为SNR = INR = 20 dB。

而后，干扰机根据侦测得到的雷达信号频谱使用范围释放扫频干扰。设扫频干扰带宽为2 MHz，扫频范围为1 000 ～1 006 MHz。各个时刻扫频干扰在频率-时间2 维平面上的功率分布如图3所示。

DQN的参数设置中，扫频干扰共有6种干扰状态，用独热码表示6 种状态，因此深度神经网络的输入为代表干扰状态的3维数组向量，输出动作为代表发射阵列状态的64 维数组向量。DQN 网络包含3 个隐藏层，每个隐藏层的神经元个数分别为128，256 和128，每个隐藏层采用的激活函数为relu。其余的参数设置为：lr = 0.002、E = 800、T = 20、γ = 0.2、ε = 0.1、Nmin = 500、N = 64、Ntrain = 10、κ = 5。

在每个回合中，FDA-MIMO雷达通过与环境交互，学习并利用干扰机的干扰策略，不断调整自身的发射功率分配策略，以此来使得奖励最大化。每回合的平均奖励随回合数的变化如图4所示。

从图4 可以看出，随着回合数的增加，奖励逐步增加，当回合数接近400 时达到最大值，后续出现奖励的波动是因为FDA-MIMO 雷达作为智能体，其需要平衡探索和利用的关系，以ε 的概率随机化wT来寻求是否存在更好的动作。尽管奖励会出现波动，但是训练后获得的奖励依然明显大于训练前。最后，如图5 所示，我们给出FDA-MIMO雷达在第一回合和最后一回合的发射功率分配方案。

观察图5（a），可以发现当FDA-MIMO 雷达未与干扰环境进行交互时，其不知道扫频干扰的干扰策略，未能实现通过发射功率分配抑制干扰。经过与干扰环境交互后，图5（b）显示雷达学习了干扰的策略，利用学习的干扰策略可以实现对干扰各个时刻状态的预测，并以此调整发射功率分配实现对扫频干扰的抑制，在最大化SINR 的同时兼顾了对所有未受干扰阵元的有效利用。图5（b）还体现了强化学习探索和利用的关系，绝大多数时刻雷达会利用学习到的干扰策略实施最优动作，但是也会以小概率随机选择动作以探索是否还存在着最优动作未被发现。

4 结束语

本文基于强化学习的框架，以FDA-MIMO 雷达为智能体，以扫频干扰为环境，将DQN 算法应用到FDA-MIMO 雷达发射功率分配中，通过设置合适的奖励使得FDA-MIMO 雷达在发射阵元利用效率最大化的基础上实现了最大化的SINR，FDAMIMO 雷达可以根据干扰信号的变化动态地调整自身发射信号的频谱，避开干扰信号频段。

仿真结果证明，经过DQN 算法接近400 回合训练后，FDA-MIMO 雷达能够实现干扰策略的学习，以及利用学习的经验优化发射功率分配，达到抑制扫频干扰的目的。本文所提基于强化学习的抗干扰方法对FDA 雷达智能化抗干扰具有一定的参考价值。同时，需要说明的是，本文所提方法不仅适用于扫频干扰，也适用于窄带瞄准干扰和梳状谱干扰等频谱干扰。

［1］ANTONIK P, WICKS M C, GRIFFITHS H D, et al. Frequency Diverse Array Radars［C］//2006 IEEE Conference on Radar,Verona,NY,USA:IEEE,2006:215-217.

［2］SECMEN M, DEMIR S, HIZAL A,et al. Frequency Diverse Array Antenna with Periodic Time Modulated Pattern in Range and Angle［C］//2007 IEEE Radar Conference,Boston,MA,USA:IEEE,2007:427-430.

［3］ANTONIK P.An Investigation of a Frequency Diverse Array［D］.London:University College London,2009.

［4］LAN Lan, LIAO Guisheng, XU Jingwei, et al. Transceive Beamforming with Accurate Nulling in FDA-MIMO Radar for Imaging［J］.IEEE Trans on Geoscience and Remote Sensing,2020,58（6）:4145-4159.

［5］LAN Lan, ANGELA M, AUGUSTO A, et al. GLRT-Based Adaptive Target Detection in FDA-MIMO Radar［J］.IEEE Trans on Aerospace and Electronic System, 2020, 57（1）:597-613.

［6］HUANG Bang, BASIT A, GUI Ronghua, et al.Adaptive Moving Target Detection Without Training Data for FDAMIMO Radar［J］. IEEE Trans on Vehicular Technology,2022,71（1）:220-232.

［7］BASIT A,WANG Wenqin,NUSENU S Y.Adaptive Transmit Beamspace Design for Cognitive FDA Radar Tracking［J］.IET Radar Sonar and Navigation,2019,13（12）:2083-2092.

［8］HUANG Libing, ZONG Zhulin, ZHANG Shunsheng,et al.2-D Moving Target Deception Against Multichannel SARGMTI Using Frequency Diverse Array［J］. IEEE Geoscience and Remote Sensing Letters,2021,19:1-5.

［9］DING Zihang, XIE Junwei, XU Jingwei. A Joint Array Parameters Design Method Based on FDA-MIMO Radar［J］.IEEE Trans on Aerospace and Electronic Systems, 2023,59（3）:2909-2919.

［10］LAN Lan, XU Jingwei, LIAO Guisheng, et al. Suppression of Mainbeam Deceptive Jammer with FDA-MIMO Radar［J］. IEEE Trans on Vehicular Technology, 2020,69（10）:11584-11598.

［11］GUI Ronghua, WANG Wenqin, FARINA A, et al. FDA Radar with Doppler-Spreading Consideration: Mainlobe Clutter Suppression for Blind-Doppler Target Detection［J］.Signal Processing,2020,179:107773.

［12］XIONG Jie, WANG Wenqin, CUI Can, et al. Cognitive FDA-MIMO Radar for LPI Transmit Beamforming［J］.IET Radar Sonar and Navigation, 2017, 11（10）:1874-1880.

［13］兰岚，廖桂生，许京伟，等.FDA-MIMO 雷达非自适应波束形成抗主瓣欺骗式干扰研究［J］.信号处理,2019,35（6）：944-950.

［14］兰岚，廖桂生，许京伟，等.FDA-MIMO 雷达主瓣距离欺骗式干扰抑制方法［J］.系统工程与电子技术，2018，40（5）：997-1003.

［15］赵英健，田波，王春阳，等.认知频控阵雷达对随队假目标的动态零陷形成研究［J］.信号处理，2021，37（10）:1977-1985.

［16］GUI Ronghua, ZHENG Zhi, WANG Wenqin.Cognitive FDA Radar Transmit Power Allocation for Target Tracking in Spectrally Dense Scenario［J］.Signal Processing,2021,183:108006.

［17］WANG Liu,WANG Wenqin,SO H C.Covariance Matrix Estimation for FDA-MIMO Adaptive Transmit Power Allocation［J］.IEEE Trans on Signal Processing, 2022, 70:3386-3399.

［18］AUBRY A,CAROTENUTO V,DE MAIO A,et al.Optimization Theory-Based Radar Waveform Design for Spectrally Dense Environments［J］.IEEE Aerospace and Electronic Systems Magazine, 2016, 31（12）:14-25.

［19］STINCO P,GRECO M, GINI F, et al.Cognitive Radars in Spectrally Dense Environments［J］.IEEE Aerospace and Electronic Systems Magazine,2016,31（10）:20-27.

［20］DING Zihang,XIE Junwei,QI Cheng.Transmit Power Allocation Method of Frequency Diverse Array-Multi Input and Multi Output Radar Based on Reinforcement Learning［J］.Journal of Electronics & Information Technology,2023,45（2）:550-557.

基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰

0 引 言

1 信号模型

2 基于DQN的FDA雷达发射功率分配

3 仿真分析

4 结束语

0 引言