针对SAR图像语义描述方法,设计一种联合卷积神经网络(CNN)和Transformer的深度学习网络模型架构,实现遥感图像的语义描述生成.该模型架构主要分为两个部分:特征提取器和描述生成器.对于特征提取器,在分析对比Inception-v3、ResNet、VGGNet以及EfficientNet四种经典的CNN特征提取方法基础上,选择EfficientNet模型作为主要的特征提取器.借助Transformer模型的自注意力机制设计描述生成器,生成SAR图像的语义描述.实验结果表明,不同特征提取方法下的CNN-Transformer均能较好地完成SAR图像语义描述,其中EfficientNetB4模型效果最佳,验证准确率达 0.8369.