基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰

周长霖1,王春阳1,宫 健1,谭 铭2,包 磊3,刘明杰1

(1.空军工程大学防空反导学院,陕西西安 710051;2.国防科技大学信息通信学院,湖北武汉 430010;3.国防科技大学试验训练基地,陕西西安 710106)

摘 要:频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO 雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q 网络(Deep Q-Network,DQN)和FDA-MIMO 雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。

关键词:频率分集阵列;扫频干扰;强化学习;深度Q网络;功率分配

0 引 言

以提升雷达性能为目的,从相控阵雷达(Phase Array,PA)到多输入多输出(Multiple Input Multiple Output,MIMO)雷达,雷达系统的自由度不断提升,检测、跟踪和抗干扰能力不断增强。为了进一步增加雷达系统的可控自由度,美国空间研究实验室的Antonik 等人在2006 年提出了FDA 雷达体制,增加雷达获取信息的能力[1-3]。FDA 雷达通过阵元间的频率增量,使得其产生了特有的距离-角度-时间相关的方向图,广泛应用于波束形成领域[4-5]。此外,由于FDA雷达可控自由度的提升,其可以有效提高其对目标检测[6]、跟踪[7]、成像[8]和参数估计[9]的能力,对干扰[10]和杂波[11]的抑制能力以及自身射频隐身的能力[12]

雷达系统面临着复杂多变的电磁环境,动态变化的干扰会对雷达性能的发挥产生抑制作用。对于主瓣内的转发式欺骗干扰,FDA 雷达通过引入各个阵元的频率增量,目标回波信号与欺骗干扰信号的发射空间域不同[13-14],因此,转发欺骗干扰可以被有效识别和抑制。对于主瓣内的随队假目标干扰,FDA 雷达利用其波束的距离相关特性,通过产生动态零陷的波束[15],可以实现对假目标干扰的抑制。对于主瓣频谱阻塞干扰,FDA 雷达可以通过调整各个阵元的发射功率,从而控制发射信号频谱实现对干扰的抑制[16-17],其相较于MIMO 雷达基于波形设计的频谱干扰抑制主要有两个优点[18-19]:一是不需要复杂的优化方法;二是不需要任意波形发生器,仅仅通过发射功率分配便可以实现干扰的抑制。受文献[16]和[17]启发,文献[20]提出了基于强化学习的FDA-MIMO 雷达发射功率分配方法,在假设频谱阻塞干扰阻塞频谱一段时间内不变的情况下,其基于DDPG 算法成功实现了对干扰频段的避让。但是,根据文献[20]仿真结果,其建立的认知FDA-MIMO 雷达在与环境交互后只剩单个发射阵元在单一频段发射信号,其余各个频段全部静默。这一结果将导致FDA 雷达退化为PA 雷达从而丢失FDA 的特性,更重要的造成了软硬件资源的浪费,不能充分发挥雷达整体性能。

雷达抗干扰问题伴随着雷达发展的始终,干扰机技术的不断发展以及智能化的应用要求雷达也应当具有相当的智能以适应复杂多变的电磁环境。雷达能够在与空间电磁环境交互的过程中,学习干扰机的策略和干扰信号的参数,而后利用学习到的知识,动态地调整自身的信号参数,实现对自身性能的提升。本文假设的干扰环境为雷达主瓣内的扫频干扰,FDA-MIMO雷达在强化学习的框架下,基于DQN算法,动态地调整FDA各个阵元的发射功率,实现了发射信号在避开干扰频段的同时,充分利用未受干扰的频段。

1 信号模型

FDA-MIMO 雷达发射-接收模型如图1 所示,其包含M 个发射阵元和Nr 个接收阵元,阵元间距均为d。第m个阵元发射的信号是ϕm,可以表示为

图1 FDA-MIMO雷达发射-接收模型

式中:wm 为发射权重,其决定发射阵列各个阵元的功率分配;φ(t)为基带脉冲波形,其带宽为B;第m个阵元的载波频率fm = f0 +(m - 1)Δ ff0和Δ fB分别表示参考阵元载波频率和频率增量。各个阵元发射信号满足频域正交性:

假设空间中有一个目标位于(r0,θ0),接收阵列接收到目标回波信号后,采用文献[16]提出的匹配滤波框架。经过匹配滤波后,目标回波信号矩阵可以表示为

式中:αt 代表路径损失和目标反射系数,不失一般性,在后文中令αt = 1;aR(θ0),WTaT(r0,θ0)分别表示接收阵列导向矢量、发射权重矢量和发射阵列导向矢量;⊙是Hadamard 运算。将回波信号Yt向量化表示为受WT调控的yt(wT):

式中,⊗表示克罗内克积。观察式(7)可以得出,雷达接收的目标回波信号受到FDA-MIMO 雷达发射功率分配的影响。FDA-MIMO 雷达通过发射功率分配,可以有效调控发射信号的频谱。

假设扫频干扰与FDA 发射信号分布在同一频带内。不失一般性,扫频干扰i(t)可以近似为随时间序列变化的窄带瞄准干扰,扫描范围是FDA 雷达的发射信号频谱。干扰分布近似为广义平稳零均值复随机过程,其通过各接收阵元对第m 个发射阵元发射信号的匹配滤波信道后可以表示为

式中,*表示共轭。单个接收阵元接收到的干扰信号经过M 个匹配滤波信道后,干扰信号可以表示为

式中,im表示干扰信号通过第m个匹配滤波信道后的信号。接收阵列接收到的K 个干扰信号和噪声信号可以表示为

式中,n ∈ℂMN × 1 ~(0,σnIMNr)是噪声向量。由于发射信号是频域正交的。因此,干扰信号通过匹配滤波信道后也是相互正交的。干扰信号的相关系数矩阵可以表示为P = diag(p),其中,diag 表示对角矩阵。

由此,可以得出干扰和噪声信号的协方差矩阵可以表示为

根据式(7)和式(10),FDA-MIMO 雷达在干扰环境下接收到的信号可以表示为

在接收阵列处,采用最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)的自适应波束形成方法。目标回波信号与干扰信号和噪声信号强度之比(Signal-to-Interference-plus-Noise Ratio,SINR)可以表示为

式(15)表明了通过调整WT,也就是FDA-MIMO雷达通过优化发射功率的分配,可以在干扰环境下提高雷达的SINR,从而提高雷达的检测性能。

2 基于DQN的FDA雷达发射功率分配

FDA-MIMO雷达在接收信号中识别出干扰后,自适应地分配各个发射阵元的发射功率以避开干扰信号频段,提高SINR。在FDA-MIMO 雷达与电磁环境动态交互智能对抗的过程中,本文在强化学习的框架下采用DQN 算法对发射功率分配矢量wT 进行优化。FDA-MIMO 雷达自身被建模为一个智能体,根据空间电磁环境中干扰的功率分配状态p反馈调整自身的所采取的动作wT,而后获得奖励r。根据获得的奖励和当前侦测的干扰状态再次调整发射功率wT,最终实现与空间环境交互的智能抗干扰。

在强化学习中,状态、动作、奖励和环境是十分重要的因素。智能体在环境的一个状态下做出一个动作的决策,这个动作又被智能体作用回环境中,环境会发生相应的改变,智能体获得相应的奖励和更新的状态。这种交互过程不断迭代进行,智能体的目标是最大化交互过程中的累计期望奖励。在本文中,状态是t 时刻FDA-MIMO 雷达所感知的干扰功率分配pt =[ p0t,…,pmt,…,p(M - 1)t],其中pmt 表示t 时刻第m 频段的干扰功率分配。动作是t 时刻FDA-MIMO 雷达的发射功率分配WTt =[w0t,…,wmt,…,w(M - 1)t]T,其中WTt 表示t时刻第m 频段的发射功率分配。奖励考虑为关于SINR 和阵元有效使用率的函数,为了使得通过强化学习获得的动作策略的同时能够最大化利用所有未受干扰的阵元,本文基于罚函数的思想提出了一种奖励函数。通过奖励函数,就可以将优化的思想引入到深度学习网络中去,在t 时刻奖励rt 可以表示为

其中,κ 是惩罚系数,bool 为逻辑运算符,其运算结果表示为

在本文中FDA-MIMO 雷达面临的环境主要考虑为干扰机释放在主瓣内的扫频干扰,其干扰频段在雷达发射信号频段内按照一定的规律扫描,具体的扫描规律将根据仿真参数在下一节设置。确定各个要素后,基于DQN 的FDA-MIMO 雷达智能化发射功率优化框图如图2所示。

图2 基于DQN的FDA-MIMO雷达智能化发射功率优化框图

FDA-MIMO 雷达与环境的交互数据首先会存放在经验回放池中,经验回放池中的每一个数据包括t 时刻FDA-MIMO 雷达所感知的干扰功率分配ptt 时刻FDA-MIMO 雷达的发射功率分配wTt,在t 时刻奖励r,以及t + 1 时刻FDA-MIMO 雷达所感知的干扰功率分配pt + 1,即一个四元组数据(状态、动作、奖励和下一状态)。训练Q 网络时从回放池中随机采样若干数据进行训练,在使得训练网络的数据满足独立假设的同时,提高了样本的利用率,这一点对于稀缺的电磁对抗数据也十分有益。网络完成训练后,可以获得当前干扰状态下的最优功率分配。在DQN 算法中,为了解决神经网络训练不稳定性的问题,使用目标网络Qw-(p,wT)和训练网络Qw(p,wT)的思想,训练网络在训练过程中,损失函数构造为均方误差的形式,表示为

目标网络使用训练网络的一套旧参数。训练网络在训练的每一步都会更新,而目标网络的参数间隔一定时间步长会与训练网络同步一次w-w,这样使得目标网络相对于训练网络更加稳定。综上所述,基于DQN 的FDA-MIMO 雷达发射功率分配算法如表1所示。

表1 基于DQN的FDA-MIMO雷达发射功率分配算法

用随机的网络参数w初始化训练网络Qw(p,wT),复制相同的参数初始化w- ←w 目标网络Qw-(p,wT)初始化经验回放池R输入最大回合数E,最长时间步长T,贪婪概率ε,折扣因子γ,学习率lr,R 中采样数据所需最小数据量Nmin 以及一次采样的数据量N,更新一次目标网络需要训练网络更新次数Ntrain,惩罚系数κ for 回合数e = 1 →E do获取环境初始状态p for 时间步t = 1 →T do根据当前网络Qw(p,wT),以ε-贪婪策略选择动作wTt执行动作wTt,获得回报rt,干扰环境状态转变为pt + 1将(pt,wTt,rt,pt + 1)存储在经验回放池中if R中的数据大于Nmin:从R中随机采样N个数据{(pi,wTi,ri,pi + 1)}i = 1,…,N对于每一个数据用目标网络计算yi = ri +γ maxwTQw-(pi + 1,wT)最小化损失函数L =1 N ∑i(yi - Qw(pi,wTi))2,并使用梯度下降法更新训练网络Qw(p,wT)当训练网络更新次数为Ntrain,w- ←w end for end for

目标网络完成训练后,FDA-MIMO雷达实现了通过发射功率分配对抗频谱干扰,最大化SINR 的目的。

3 仿真分析

首先设置FDA-MIMO雷达的仿真参数,发射阵列和接收阵列的阵元数为M = Nr = 6,阵元间距为半波长,载波频率f0 = 1 GHz,频率增量Δ f= 1 MHz,基带矩形脉冲波形,0 ≤tTsBS = 1/Ts=1 MHz。因此,各个发射阵元发射的信号是频域正交的,雷达总辐射能量一定,各个发射阵元状态为辐射能量或静默,因此发射阵列的状态总数为2M = 64。空间目标位于(30°,15 km),干扰机位置位于(30°,20 km),信噪比(Signal-to-Noise Ratio,SNR)和干噪比(Interference-to-Noise Ratio,INR)相等,都为SNR = INR = 20 dB。

而后,干扰机根据侦测得到的雷达信号频谱使用范围释放扫频干扰。设扫频干扰带宽为2 MHz,扫频范围为1 000 ~1 006 MHz。各个时刻扫频干扰在频率-时间2 维平面上的功率分布如图3所示。

图3 扫频干扰在频率-时间2维平面上的功率分布情况

DQN的参数设置中,扫频干扰共有6种干扰状态,用独热码表示6 种状态,因此深度神经网络的输入为代表干扰状态的3维数组向量,输出动作为代表发射阵列状态的64 维数组向量。DQN 网络包含3 个隐藏层,每个隐藏层的神经元个数分别为128,256 和128,每个隐藏层采用的激活函数为relu。其余的参数设置为:lr = 0.002、E = 800、T = 20、γ = 0.2、ε = 0.1、Nmin = 500、N = 64、Ntrain = 10、κ = 5。

在每个回合中,FDA-MIMO雷达通过与环境交互,学习并利用干扰机的干扰策略,不断调整自身的发射功率分配策略,以此来使得奖励最大化。每回合的平均奖励随回合数的变化如图4所示。

图4 各回合的平均奖励随回合数的变化

从图4 可以看出,随着回合数的增加,奖励逐步增加,当回合数接近400 时达到最大值,后续出现奖励的波动是因为FDA-MIMO 雷达作为智能体,其需要平衡探索和利用的关系,以ε 的概率随机化wT来寻求是否存在更好的动作。尽管奖励会出现波动,但是训练后获得的奖励依然明显大于训练前。最后,如图5 所示,我们给出FDA-MIMO雷达在第一回合和最后一回合的发射功率分配方案。

图5 FDA-MIMO雷达发射功率分配方案

观察图5(a),可以发现当FDA-MIMO 雷达未与干扰环境进行交互时,其不知道扫频干扰的干扰策略,未能实现通过发射功率分配抑制干扰。经过与干扰环境交互后,图5(b)显示雷达学习了干扰的策略,利用学习的干扰策略可以实现对干扰各个时刻状态的预测,并以此调整发射功率分配实现对扫频干扰的抑制,在最大化SINR 的同时兼顾了对所有未受干扰阵元的有效利用。图5(b)还体现了强化学习探索和利用的关系,绝大多数时刻雷达会利用学习到的干扰策略实施最优动作,但是也会以小概率随机选择动作以探索是否还存在着最优动作未被发现。

4 结束语

本文基于强化学习的框架,以FDA-MIMO 雷达为智能体,以扫频干扰为环境,将DQN 算法应用到FDA-MIMO 雷达发射功率分配中,通过设置合适的奖励使得FDA-MIMO 雷达在发射阵元利用效率最大化的基础上实现了最大化的SINR,FDAMIMO 雷达可以根据干扰信号的变化动态地调整自身发射信号的频谱,避开干扰信号频段。

仿真结果证明,经过DQN 算法接近400 回合训练后,FDA-MIMO 雷达能够实现干扰策略的学习,以及利用学习的经验优化发射功率分配,达到抑制扫频干扰的目的。本文所提基于强化学习的抗干扰方法对FDA 雷达智能化抗干扰具有一定的参考价值。同时,需要说明的是,本文所提方法不仅适用于扫频干扰,也适用于窄带瞄准干扰和梳状谱干扰等频谱干扰。

参考文献:

[1]ANTONIK P, WICKS M C, GRIFFITHS H D, et al. Frequency Diverse Array Radars[C]//2006 IEEE Conference on Radar,Verona,NY,USA:IEEE,2006:215-217.

[2]SECMEN M, DEMIR S, HIZAL A,et al. Frequency Diverse Array Antenna with Periodic Time Modulated Pattern in Range and Angle[C]//2007 IEEE Radar Conference,Boston,MA,USA:IEEE,2007:427-430.

[3]ANTONIK P.An Investigation of a Frequency Diverse Array[D].London:University College London,2009.

[4]LAN Lan, LIAO Guisheng, XU Jingwei, et al. Transceive Beamforming with Accurate Nulling in FDA-MIMO Radar for Imaging[J].IEEE Trans on Geoscience and Remote Sensing,2020,58(6):4145-4159.

[5]LAN Lan, ANGELA M, AUGUSTO A, et al. GLRT-Based Adaptive Target Detection in FDA-MIMO Radar[J].IEEE Trans on Aerospace and Electronic System, 2020, 57(1):597-613.

[6]HUANG Bang, BASIT A, GUI Ronghua, et al.Adaptive Moving Target Detection Without Training Data for FDAMIMO Radar[J]. IEEE Trans on Vehicular Technology,2022,71(1):220-232.

[7]BASIT A,WANG Wenqin,NUSENU S Y.Adaptive Transmit Beamspace Design for Cognitive FDA Radar Tracking[J].IET Radar Sonar and Navigation,2019,13(12):2083-2092.

[8]HUANG Libing, ZONG Zhulin, ZHANG Shunsheng,et al.2-D Moving Target Deception Against Multichannel SARGMTI Using Frequency Diverse Array[J]. IEEE Geoscience and Remote Sensing Letters,2021,19:1-5.

[9]DING Zihang, XIE Junwei, XU Jingwei. A Joint Array Parameters Design Method Based on FDA-MIMO Radar[J].IEEE Trans on Aerospace and Electronic Systems, 2023,59(3):2909-2919.

[10]LAN Lan, XU Jingwei, LIAO Guisheng, et al. Suppression of Mainbeam Deceptive Jammer with FDA-MIMO Radar[J]. IEEE Trans on Vehicular Technology, 2020,69(10):11584-11598.

[11]GUI Ronghua, WANG Wenqin, FARINA A, et al. FDA Radar with Doppler-Spreading Consideration: Mainlobe Clutter Suppression for Blind-Doppler Target Detection[J].Signal Processing,2020,179:107773.

[12]XIONG Jie, WANG Wenqin, CUI Can, et al. Cognitive FDA-MIMO Radar for LPI Transmit Beamforming[J].IET Radar Sonar and Navigation, 2017, 11(10):1874-1880.

[13]兰岚,廖桂生,许京伟,等.FDA-MIMO 雷达非自适应波束形成抗主瓣欺骗式干扰研究[J].信号处理,2019,35(6):944-950.

[14]兰岚,廖桂生,许京伟,等.FDA-MIMO 雷达主瓣距离欺骗式干扰抑制方法[J].系统工程与电子技术,2018,40(5):997-1003.

[15]赵英健,田波,王春阳,等.认知频控阵雷达对随队假目标的动态零陷形成研究[J].信号处理,2021,37(10):1977-1985.

[16]GUI Ronghua, ZHENG Zhi, WANG Wenqin.Cognitive FDA Radar Transmit Power Allocation for Target Tracking in Spectrally Dense Scenario[J].Signal Processing,2021,183:108006.

[17]WANG Liu,WANG Wenqin,SO H C.Covariance Matrix Estimation for FDA-MIMO Adaptive Transmit Power Allocation[J].IEEE Trans on Signal Processing, 2022, 70:3386-3399.

[18]AUBRY A,CAROTENUTO V,DE MAIO A,et al.Optimization Theory-Based Radar Waveform Design for Spectrally Dense Environments[J].IEEE Aerospace and Electronic Systems Magazine, 2016, 31(12):14-25.

[19]STINCO P,GRECO M, GINI F, et al.Cognitive Radars in Spectrally Dense Environments[J].IEEE Aerospace and Electronic Systems Magazine,2016,31(10):20-27.

[20]DING Zihang,XIE Junwei,QI Cheng.Transmit Power Allocation Method of Frequency Diverse Array-Multi Input and Multi Output Radar Based on Reinforcement Learning[J].Journal of Electronics & Information Technology,2023,45(2):550-557.

Anti-Sweep Interference of FDA-MIMO Radar Based on DQN and Power Allocation

ZHOU Changlin1, WANG Chunyang1, GONG Jian1, TAN Ming2, BAO Lei3, LIU Mingjie1
(1.Air and Missile Defense College,Air Force Engineering University,Xian 710051,China;2.College of Information and Communication,National University of Defense Technology,Wuhan 430010,China;3.Test Center,National University of Defense Technology,Xian 710106,China

Abstract: The frequency diversity array(FDA)radar has many new characteristics due to the frequency increment of its array elements, including the flexible spectrum control of the transmitted waveform through the transmission power allocation. Aiming at the problem of suppression of radar performance by sweep interference, firstly, the interaction model between frequency diversity array-MIMO(FDA-MIMO)radar and electromagnetic interference environment is established by introducing a reinforcement learning framework, so that FDA-MIMO radar can sense interference and suppress interference in the interaction process with electromagnetic environment. Secondly, a sweep interference suppression method based on deep Q-network(DQN)and FDA-MIMO radar transmission power allocation is proposed, so that the radar system can maximize SINR while making full use of spectrum resources. The simulation results confirm that under the framework of reinforcement learning,FDA-MIMO radar can achieve interference suppression and improve radar performance by power allocation.

Key words: frequency diversity array(FDA); sweep interference; reinforcement learning; deep Q-network(DQN); power allocation

中图分类号:TN974

文献标志码:A

文章编号:1672-2337(2024)02-0155-06

引用格式:周长霖,王春阳,宫健,等.基于DQN和功率分配的FDA-MIMO 雷达抗扫频干扰[J].雷达科学与技术,2024,22(2):155-160.

ZHOU Changlin, WANG Chunyang, GONG Jian, et al. Anti-Sweep Interference of FDA-MIMO Radar Based on DQN and Power Allocation[J].Radar Science and Technology,2024,22(2):155-160.

DOI: 10.3969/j.issn.1672-2337.2024.02.005

收稿日期:2023-10-24;修回日期:2023-11-04

基金项目:国家自然科学基金(No.62201580);陕西省自然科学基金(No.2021JM-222)

作者简介:

周长霖 男,博士研究生,主要研究方向为频率分集阵列和雷达智能抗干扰方法。

王春阳 男,博士,教授、博士生导师,主要研究方向为阵列信号处理和电子对抗理论。

宫 健 男,博士,副教授、博士生导师,主要研究方向为雷达信号处理和电子对抗理论。

谭 铭 男,博士,讲师,主要研究方向为频率分集阵列和雷达抗干扰方法。

包 磊 男,硕士,助理研究员,主要研究方向为频率分级阵列。

刘明杰 男,博士研究生,主要研究方向为频率分集阵列和雷达波形设计。