基于多尺度注意力CNN的SAR遥感目标识别 <sup>*</sup>

合成孔径雷达(Synthetic Aperture Radar，SAR)是一种基于多平台的主动式对地观测系统，不受光照和气候条件的制约，具有全天时、全天候、高分辨、大幅宽等多种特点[1-2]。经历60多年的发展，合成孔径雷达成像技术已经逐渐成熟，高分辨SAR图像的数据获取能力得到了显著的提高，为SAR图像的智能化应用奠定了基础。上世纪80年代，林肯实验室提出了SAR自动目标识别(SAR ATR)系统的一般流程，将其分为了检测、鉴别和识别三个阶段。识别是SAR ATR的最后一个阶段，SAR图像经过检测与鉴别后，大部分的杂波虚警已被滤除，剩下的主要工作就是对目标切片进行分类识别。本文主要围绕SAR图像目标识别这一环节展开研究，实现对SAR遥感图像的高精度智能化判读。

目标识别往往是在特征空间中进行分类，因此能否提取到图像的有效特征是决定识别结果好坏的关键因素。近年来国内外的学者开展了大量研究，根据其提取特征的方法可分为两大类：1)基于人工特征描述的方法;2)基于深度学习卷积神经网络的方法。

基于人工特征描述的方法需要人工设计并选取具有判别性的特征。丁柏圆[3]等人提取了SAR图像和模板的属性散射中心，综合考虑不同散射中心对于匹配度的贡献及其虚警和漏警对最终匹配度的影响，设计了一种度量散射中心匹配度方法。康妙[4]等人提取了SAR图像的25种基线特征和局部纹理特征，将其串联输入栈式自编码器网络进行融合，最后利用softmax进行分类。张楚笛[5]等人采用二维变分模态分解技术将SAR图像分解为多个子模态分量，分别用于表示全局信息和边缘信息，进一步提取二维双向主成分分析特征，最后联合原始图像和各子模态的特征完成分类。李璐[6]等人提取了多级幅度特征和多级密集尺度不变特征变换(Dense-SIFT)特征。并借鉴深度森林的思想对二者进行联合利用，将得到的深层融合特征对目标进行识别任务。然而，人工特征描述十分依赖专业的经验与知识，且对复杂目标的特征表达能力有限，难以达到更好的识别性能。2006年，Hinton等人提出了深度学习[7]，这是一种基于人工神经网络的机器学习算法，通过深层神经网络从低到高逐层提取数据的特征，获取更丰富的特征表示。近年来，基于卷积神经网络的深度学习模型在自然图像分类范畴取得了出色的成果，很多研究者开始尝试利用卷积神经网络来处理SAR图像目标识别问题。Wang[8]等人设计了稀疏数据特征提取模块(SDFE)，并在此基础上提出了一种新的卷积神经网络SSF-Net，网络具有较好的鲁棒性。仓明杰[9]等人提出一种基于改进的卷积神经网络(ICNN)和改进的生成对抗网络(IGAN)的SAR目标识别方法，用无监督预训练好的IGAN鉴别器参数初始化ICNN，再用训练样本对ICNN微调，使网络具有更高的准确率和更强的抗噪声能力。陈禾[10]等人提出了一种结合高阶特征表示的多尺度特征提取残差结构，有效提升了深度卷积网络对于SAR图像细粒度型号识别任务的特征提取及泛化能力。REN[11]等人提出了一种扩展卷积胶囊网络的SAR ATR方法，其在编码器网络中利用不同膨胀率的多次卷积运算提取多尺度特征，然后嵌入了特征细化模块，以增强显著特征，抑制无用特征。高飞[12]等人提出基于度量学习的SAR图像识别方法，使用LSTM网络保留样本间相似特征，并通过距离度量函数将各类别样本进行关联，最后引入注意力机制提取出与测试图像特征更相似的训练图像。Pei[13]等人提出了一种基于深度特征提取与融合网络(FEF-Net)的多视点SAR ATR方法。FEF-Net具有多输入拓扑结构，包括可变形卷积和SE等特定模块，具有学习多视点SAR图像有用分类信息的能力。综上所述，卷积神经网络可以自动从数据中学习特征,完成端到端的高精度目标识别，是SAR遥感图像目标识别的研究热点。

然而SAR图像与光学图像不同，SAR图像上的信息主要是地物目标对雷达波束的后向散射形成的。雷达的工作参数如入射角、工作波长、极化方式等，以及地表的粗糙度等目标特性都会对成像产生影响。目标的散射特征往往存在于多个尺度当中，此外，SAR图像中存在固有的噪声斑，提取到的特征可能含有冗余信息，对SAR图像的目标识别也会产生负面影响。因此，本文提出一种结合多尺度特征提取和注意力机制的卷积神经网络 —— 多尺度注意力卷积神经网络。针对提取不同尺度的目标散射特征的问题，设计了多尺度残差特征提取模块，针对区分关键信息和冗余信息的问题，设计了注意力模块。最后将它们进行组合和有层次的堆叠构成了多尺度注意力卷积神经网络。将所设计网络在MSTAR(Moving and Stationary Target Acquisition and Recognition)数据集上，针对10种军事目标型号开展了图像分类实验，并取得了99.84%的总体精度，验证了本文提出方法的性能。进一步，在测试集中加入4种型号的变体进行扩展验证实验，取得了99.28%的总体精度，验证了本文方法在复杂情况下的有效性。

1 多尺度注意力卷积神经网络

1.1 算法总体介绍

本文所提出的多尺度注意力卷积神经网络模型如图1所示，整体架构基于ResNet34[14]网络，将原始BasicBlock替换为所设计的多尺度注意力模块，进行有层次的堆叠所构成。其中多尺度注意力模块由多尺度残差特征提取模块(包括多尺度特征提取与残差连接shortcut)和注意力模块组成，实现了多尺度特征提取和注意力机制的功能。以下将详细介绍多尺度残差特征提取模块、注意力模块以及网络的详细结构。

1.2 多尺度残差特征提取模块

由于SAR遥感成像对于同一目标的散射信息会随成像条件的变化而改变，这对SAR图像目标识别带来了很大的挑战，故需要对目标提取不变性散射特征。然而，这些不变性散射特征往往隐藏在多个尺度的散射点分布中：大尺度中存在全局散射特征，小尺度中存在局部散射特征，仅使用单一尺度的特征提取架构难以得到有效特征描述。因此，多尺度特征提取及融合是SAR遥感图像目标识别的关键所在。

对于多尺度特征提取，本模块在ResNet的BasicBlock基础上采用了GoogLeNet[15]中Inception模块的多尺度特征提取思想，多分支的网络拓扑结构可以进行多尺度的特征提取和融合，增加了网络的宽度和对多尺度信息的处理能力。进一步，借鉴VGGNet[16]用连续的小卷积核代替大卷积核的方法，在保持相同感受野的情况下进一步加深网络。

本文提出的多尺度残差特征提取模块有两种：Block-A和Block-B。Block-A如图2(a)所示，采用4个并行分支，分别是卷积核大小为1×1、3×3、5×5、7×7的卷积层，进行不同尺度的特征提取，然后将特征融合。同时加入残差模块的快捷连接(shortcut)，将输入层加到输出层。其中除了第一个分支中的1×1卷积用来进行特征提取，其他的1×1卷积用来降维，以减少参数量；Block-B如图2(b)所示，在上述基础上将5×5卷积核分解为2个串联的3×3卷积核、7×7卷积核分解为3个串联的3×3卷积核，以进一步加深网络。对于多尺度特征融合，考虑采用两种特征融合方式：拼接(concatenate)和对应元素相加(element-wise summation)，具体使用方式与选用的注意力模块有关，将在下一节补充说明。

1.3 注意力模块

虽然上述多尺度残差特征提取模块可以用多个尺寸的卷积核来提取不同尺度的SAR目标散射特征，然而，得到的多尺度散射特征若被无差别使用，则会造成信息冗余，毫无侧重。因此，本文进一步引入注意力机制来指导网络分配权重，使网络能够关注各个尺度散射特征中更具判别性的信息，达到更精确的SAR图像目标识别性能。具体地，在多尺度残差特征提取模块后加入注意力模块，分别考虑使用SENet[17]中的Squeeze and Excitation block(SE模块)和SKNet[18]中的Selective Kernel block(SK模块)。下面将详细介绍这两种注意力模块在本章提出的模型上的应用。

1) SE模块：其结构如图3(a)所示。SE模块关注的是所有通道间的权重分配，所以将四路卷积输出的特征图按特征通道维度拼接在一起，将多尺度特征以特征拼接(concatenate)方式融合。之后的具体操作可分为以下三个步骤：

(a) 压缩(Squeeze)：将多尺度特征融合后大小为

的特征图进行压缩，即进行全局平均池化，如式(1)。

式中，uc表示一个通道上的二维特征图， H、W分别表示长和宽，可看作一个二维矩阵。uc(i,j)表示特征图上(i,j)位置的元素值。每个通道的特征图通过式(1)将二维数据压缩为一个点，以此得到一个和通道数一样的一维向量

(b) 激活(Excitation)：使用两个全连接层对Squeeze之后的结果作非线性变换。首先将通道数降低到

而后通过激活函数后再经过一个全连接层扩充回到最初的

通道。由于通道间关系复杂，一次变换可能无法很好地拟合，两个全连接层既能在中间加入更多非线性变换，又能通过先降维再升维的操作减少参数和计算量。最后通过一个 Sigmoid函数输出一串0～1之间的权重，作为每个通道的评价分数，即其重要性大小。

将SE模块与上节提出的多尺度残差特征提取模块结合，可使网络从通道的角度进行侧重，关注更具判别信息的特征通道。

2) SK模块：其结构如图3(b)所示。SK模块关注的是不同尺度卷积支路之间的权重分配，从而达到调整神经元感受野大小的目的。故参考SKNet[17]中的特征融合方式，将上一步的多尺度特征以特征图对应元素相加(element-wise summation)的方式融合，这要求每个尺度的卷积核输出的特征图维度是完全相同的。之后操作可以分为以下两个步骤：

(a) 压缩和激活(Squeeze and Excitation)：相当于SE模块中Squeeze和Excitation，区别在于此处要对Squeeze结果分别作4个分支的非线性变换，以对应四路卷积。

(b) 权重作用(Select)：把Squeeze and Excita-tion的输出通过softmax函数转化为纵向通道之间的权重，然后把权重信息乘(element-wise pro-duct)到对应的U1、U2、U3和 U4上。最后再把权重作用后的四路的特征图进行对应相加(element-wise summation)得到输出特征图 M。

SK模块中的Select操作使用softmax加权与SE模块中最后把权重分别乘到输入特征图上的操作很相似，区别在于SE模块考虑的是通道之间的权重，而SK模块不仅考虑了通道之间的权重，还考虑了多路卷积的权重。也就是说，SE模块是对通道执行注意力机制，而SK模块则是对卷积核执行注意力机制，即让网络自己选择合适的卷积核。

1.4 网络详细结构

将上述的两种多尺度残差特征提取模块和两种注意力模块两两组合在一起，构成4种多尺度注意力卷积神经网络。Block-A与SE模块组合构成的网络命名为：多尺度-se34，Block-A与SK模块组合构成的网络命名为：多尺度-sk34，“34”表示它们将构成34层的卷积神经网络；Block-B与SE模块组合构成的网络命名为：多尺度-se66，Block-B和SK模块组合构成的网络命名为：多尺度-sk66，“66”表示它们将构成66层的卷积神经网络。

2 数据集与评价指标

2.1 数据集简介

本文采用MSTAR数据集进行SAR图像目标分类实验。该数据集采用美国国防高等研究计划署(DARPA)支持的MSTAR计划所公布的实测SAR地面静止目标数据，是通过工作在X波段、HH极化方式的高分辨率的聚束式合成孔径雷达采集得到，雷达空间分辨率为0.3 m×0.3 m。采集的数据共有10种前苏联军事目标车辆，包括坦克、装甲车等。其中SOC工作条件下10类MSTAR数据集中图像的俯仰角分别是 17°和 15°，图4分别展示了10类目标车辆的光学图像和对应的 SAR 图像。本文选用在俯仰角为17°和 15°的图像分别作为训练集和测试集。具体类别和图像数量见表2。

2.2 实验设置与评价指标

本文所有实验基于Ubuntu16.04.6 LTS操作系统，所用开发环境是python 3.7及其第三方库，以及深度框架Pytorch1.2.0。GPU的处理环境为CUDA9和cuDNN7。输入图像尺寸需统一裁剪为224×224以适应网络，batchsize设置为32，使用SGD优化器进行训练，初始学习率为0.001，每经过50个Epoch学习率减半。实验采用总体精度OA(Overall Accuracy)和混淆矩阵CM(Confusion Matrix)作为模型分类性能的评价指标。

混淆矩阵：如图5所示，为一个二分类混淆矩阵的示例。TP(True Positive)表示实际标签是P，被正确预测为P的数量；FN(False Negative)表示实际标签是P，但被错误预测为N的数量； TN(True Negative)表示实际标签是N，被正确预测为N的数量；FP(False Positive)表示实际标签是N，但被错误预测为P的数量。可以将其拓展到多分类的情况下。若数据集有M个类别，那么混淆矩阵可以用一个M行M列的矩阵形式来表示。正如混淆矩阵的名字，它的作用是体现出多个类别之间是否有混淆，可以直观地体现每一类的分类准确率和错分的类别。

总体准确率OA：其计算方法为所有分类正确的图像数除以图像总数，在混淆矩阵表示下如式(2)。该指标能够对数据集整体的预测情况进行评价。

3 实验结果与分析

3.1 实验结果

为进一步验证本文提出网络的性能，将本文模型的实验结果与其他算法以及一些经典的神经网络模型进行了比较，如表3所示。文献[4]和文献[5]是基于传统人工特征描述的方法，文献[11]和文献[12]是基于卷积神经网络特征提取的方法。可以看出传统算法的分类精度普遍不高，而基于卷积神经网络的分类方法有着明显的优越性。本文提出的多尺度-sk66网络OA达到99.84%的最高准确率，体现了本文提出的多尺度注意力网络的优越性能。

3.2 优化讨论

为了分析本文设计模型中两种多尺度残差特征提取模块和两种注意力模块对性能的影响，开展了一系列的对比试验。实验结果如表4所示。

1) 多尺度残差特征提取模块：对比ResNet34与去注意力-多尺度-se34的精度，如图6(a)所示，可以证明本文设计的多尺度残差特征提取模块的有效性。ResNet34网络单一尺度的特征提取导致获得的特征不够有效，而多尺度残差特征提取模块可以很好地提取并融合多尺度的特征，拥有更强大的特征提取能力，有效提升模型的收敛速度和分类精度。

2) 注意力模块：对比有无注意力的多尺度网络分类精度可以证明本文设计的注意力模块的有效性。如图6(a)所示，可以看出加入注意力模块之后，网络收敛速度有所提升。观察表4的2至5行与6至9行可以看出，相较于层数较浅的34层多尺度网络，注意力模块对于66层的深层多尺度网络的最终精度提升效果更加明显。深层网络的参数量更大，提取到的特征数量更多更复杂，存在冗余信息的可能性也就越大。这说明SE模块和SK模块都可以在大量信息中区分关键信息和冗余信息，有侧重地利用信息，从而有效提升网络性能。同时，观察表4以及图6(a)中多尺度-se34和多尺度-sk34的曲线可以看出，SK模块相较于SE模块对多尺度网络有着更好的提升效果。这可能是因为SK模块不仅考虑了通道之间的权重，还考虑了多路卷积的权重，更加适合多尺度网络的特点。

3) 网络深度：本文在第一节中设计了两种多尺度残差特征提取模块，分别对应了34层和使用连续小卷积核替换大尺寸卷积核得到的66层的网络结构。对比不同层数的多尺度注意力网络性能，如图6(b)所示，绘制了多尺度-sk34和多尺度-sk66的精度变化曲线图。可以看出，增加网络深度可以有效提升网络精度，但在前期的训练过程中可能会存在一定的波动。

表5是本文实验中最优模型多尺度-sk66的混淆矩阵。

3.3 扩展验证

同一大类军事目标中还会存在不同型号的变体，它们的军事配置不同，例如同类坦克上有无机关枪、油箱，以及天线是否展开等[19]。这些外观上的变化也会影响SAR目标识别。因此，为验证本文方法在复杂情况下的有效性，不改变训练集，向测试集中补充了BMP2的两种变体：SN9566、SNC21，以及T72的两种变体：SN812、SNS7。表6为所加入变体数据的具体类别型号和图像数量。

选择在3.1节实验中性能最好的多尺度-sk66模型对补充变体后的MSTAR数据集10类目标进行识别，并与其他方法[6，19-20]进行对比。实验结果如表7所示，多尺度-sk66的混淆矩阵如表8所示。可见，在测试集中加入变体之后，算法的整体性能稍有下降，但也优于其他算法。这说明本文提出模型有较强的泛化能力，在复杂情况下仍能保持较高精度，进一步验证了该方法的有效性。

4 结束语

本文以SAR遥感图像目标识别为背景，提出了多尺度注意力卷积神经网络。针对SAR图像的多尺度散射特征，设计了多尺度残差特征提取模块，能够提取并融合多尺度特征。同时引入了注意力机制来区分关键信息和冗余信息。通过在MSTAR数据集上进行10类目标识别的实验，验证了本文算法的有效性，总体准确率达到了99.84%，明显优于其他算法。另外，向测试集中补充4种型号的变体，进行扩展验证，总体准确率达到了99.28%，验证了本文算法在复杂情况下的有效性。

然而，本文实验选用的MSTAR数据集类别较少，图片样本有限，对模型的泛化能力有待进一步验证。此外，所设计的多尺度注意力网络模型参数量较大。因此，如何构建更好的多尺度特征融合方法和注意力机制从而进一步提升网络性能，是今后有待继续研究的内容。

[1] 李振红.浅谈深度卷积神经网络在SAR自动目标识别领域的应用[J].电子元器件与信息技术,2020,4(9):25-26.

[2] WU Junjie, PU Wei, HUANG Yulin, et al. Bistatic Forward-Looking SAR Focusing Using ω-k Based on Spectrum Modeling and Optimization[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2018,11(11):4500-4152.

[3] 丁柏圆,文贡坚,余连生,等.属性散射中心匹配及其在SAR目标识别中的应用[J]. 雷达学报，2017,6(2):157-166.

[4] 康妙,计科峰,冷祥光,等.基于栈式自编码器特征融合的SAR图像车辆目标识别[J]．雷达学报，2017,6(2):167-176.

[5] 张楚笛,唐涛,计科峰. SAR图像车辆目标多模态联合协同表示分类方法[J]. 信号处理，2021,37(5):681-689.

[6] 李璐, 杜兰, 何浩男, 等. 基于深度森林的多级特征融合SAR目标识别[J]. 电子与信息学报,2021,43(3):606-614.

[7] HINTON G E, SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science,2006,313(5786):504-507.

[8] WANG Wei, ZHANG Chengwen,TIAN Jinge, et al. A SAR Image Target Recognition Approach via Novel SSF-Net Models[J]. Computational Intelligence and Neuroscience,2020(5)：1-9.

[9] 仓明杰,喻玲娟,谢晓春.基于ICNN和IGAN的SAR目标识别方法[J].雷达科学与技术,2020,18(3):287-294.

CANG Mingjie， YU Lingjuan， XIE Xiaochun. SAR Target Recognition Method Based on ICNN and IGAN[J]. Radar Science and Technology, 2020, 18(3):287-294.(in Chinese)

[10] 陈禾,李灿,庄胤,等.用于SAR遥感图像车辆型谱级识别的高阶特征表示多尺度残差卷积网络[J].信号处理,2021,37(3):317-327.

[11] REN Haohao, YU Xuelian, ZOU Lin, et al. Extended Convolutional Capsule Network with Application on SAR Automatic Target Recognition[J]. Signal Processing,2021,183(1):108021.

[12] 高飞, 赵洁琼, 林翀, 等. 基于距离度量学习的SAR图像识别方法[J]. 北京理工大学学报，2021,41(3):334-340.

[13] PEI Jifang,WANG Zhiyong,SUN Xueping,et al. FEF-Net: A Deep Learning Approach to Multiview SAR Image Target Recognition[J]. Remote Sensing,2021,13(17):3493.

[14] HE Kaiming，ZHANG Xiangyu，REN Shaoqing，et al. Deep Residual Learning for Image Recognition[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA:IEEE,2016:770-778．

[15] SZEGEDY C, LIU W, JIA Y Q， et al. Going Deeper with Convolutions[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA:IEEE,2015:1-9.

[16] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]∥ in Proc. Int. Conf. Learn. Represent.,[S.l.]:[s.n.],2015:1-13.

[17] HU Jie，SHEN Li，ALBANIE S．Squeeze-and-Excitation Networks[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.

[18] LI Xiang, WANG Wenhai, HU Xiaolin,et al. Selective Kernel Networks[C]∥ 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA:IEEE,2020:1-12.

[19] 谷雨,徐英.面向SAR目标识别的深度卷积神经网络结构设计[J].中国图象图形学报,2018,23(6):928-936.

[20] 冯秋晨, 彭冬亮, 谷雨. SAR变体目标识别的卷积神经网络法[J]. 中国图象图形学报,2019,24(2):258-268.