第五章 深度学习雷达、通信图像解译(中)—参数反演/检测/识别技术
一、Introduction
回顾一下上一章开头所提到的深度学习与雷达、通信、信号处理图像解译研究的三个核心大方向:
- 如何利用深度学习实现通过输入前端系统参数生成仿真数据,也即 基于深度学习的雷达/通信成像 、数据集模拟算法;
- 如何利用深度学习实现通过输入雷达图像(可以是上面所述仿真生成的,也可以是实测+信号预处理算法得到的),并给出数值/编码形式的推理结果,也即 基于深度学习的雷达/通信图像参数反演、检测、识别技术;
- 如何利用深度学习实现通过输入雷达图像,并给出另一类表示任务所需信息的图像形式的推理结果,也即 基于深度学习的雷达/通信图像杂波抑制、数据增强、超分辨、定位、跟踪、分割技术。
今天要总结的内容是 利用雷达图像输入、给出数值/编码形式推理结果的“预测类”算法。 包括了参数反演、检测、识别技术。其中反演任务包括参数反演、全波形反演,可以笼统地称为“参数反演”;检测任务主要是利用雷达图像推理输出Bool型数值(二分类),判断目标的有无,是否在运动或静止等等;识别技术又包含了三大子类,一类是静态目标的类型或形态学上的识别任务(如利用雷达高分辨距离像HRRP实现飞机种类识别、利用雷达二维成像实现武器种类识别、人体姿态重建等等前沿课题),一类是动态目标的运动方式识别任务(如人体行为识别、无人机飞行状态识别等),另一类是信号调制类型识别(该类本质上隶属于波形反演,因此后续文章中将不会单列出来进行总结)。
我们会对每个应用方向,以实例的方式进行总结。这些内容大部分不是来自于我个人的研究,会严格予以列注。如有相关的错误,会及时进行修正。本章部分内容及图片参考自:
[1] Ahmed, S., Wang, D., Park, J. et al. UWB-gestures, a public dataset of dynamic hand gestures acquired using impulse radar sensors. Sci Data 8 , 102 (2021). https:// doi.org/10.1038/s41597- 021-00876-0 .
[2] Y. Zhang, H. Fu, Y. Qin, K. Wang and J. Ma, "Physics-Informed Deep Neural Network for Inhomogeneous Magnetized Plasma Parameter Inversion," in IEEE Antennas and Wireless Propagation Letters, vol. 21, no. 4, pp. 828-832, April 2022, doi: 10.1109/LAWP.2022.3149889.
[3] H. Sun, X. Yang, J. Gong, X. Qu and T. Lan, "Joint Physics and Data Driven Full-Waveform Inversion for Underground Dielectric Targets Imaging," in IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1-11, 2022, Art no. 4513311, doi: 10.1109/TGRS.2022.3219138.
[4] H. Li, G. Cui, S. Guo, L. Kong and X. Yang, "Human Target Detection Based on FCN for Through-the-Wall Radar Imaging," in IEEE Geoscience and Remote Sensing Letters, vol. 18, no. 9, pp. 1565-1569, Sept. 2021, doi: 10.1109/LGRS.2020.3006077.
[5] M. J. Sagayaraj, V. Jithesh and D. Roshani, "Comparative Study Between Deep Learning Techniques and Random Forest Approach for HRRP Based Radar Target Classification," 2021 International Conference on Artificial Intelligence and Smart Systems (ICAIS), Coimbatore, India, 2021, pp. 385-388, doi: 10.1109/ICAIS50930.2021.9395855.
[6] Y. Wang, H. Liu, K. Cui, A. Zhou, W. Li and H. Ma, "m-Activity: Accurate and Real-Time Human Activity Recognition Via Millimeter Wave Radar," ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto, ON, Canada, 2021, pp. 8298-8302, doi: 10.1109/ICASSP39728.2021.9414686.
好啦,废话不多说,下面进入正题,还是从背景简介开始讲起。
二、背景简介
本节的背景介绍我希望通过经典的问答方式展开。
1、为什么我们需要“预测类”算法
预测类算法是指利用历史数据或已知信息进行分析和推断,从而得出未来可能发生的结果的算法。研究预测类算法有以下几个原因:
- 帮助做出决策: 在许多场景下,人们需要在不确定的情况下做出决策。预测类算法可以帮助人们根据已知信息做出更好的决策,减少决策的风险和不确定性。放到雷达领域来看,“读图”是所有雷达工程实操人员都将面临的问题,而预测类算法实现的就是辅助人类专家的知识分析、做决策、减小人类该过程中引入很强的主观性所带来的弊端。
- 提高生产力: 预测类算法可以帮助人们更好地理解数据,发现数据中的模式和规律,从而更好地利用数据。这些模式和规律可以被应用于各种场景中,如基于气象雷达数据的天气预测等;
- 提高效率: 许多预测类算法都可以自动化完成,可以节省人们大量的时间和劳动力。例如,自动化的预测类算法可以自动识别和预测异常情况,从而减少需要手动处理的情况,提高工作效率;
- 推动创新: 预测类算法可以帮助人们更好地理解数据和问题,发现新的问题和机会,并提供解决方案。这种方法可以鼓励人们尝试新的方法,推动创新。
总结来看,研究预测类算法可以帮助人们更好地理解数据和问题,并提供更好的解决方案,从而提高决策的质量和效率,促进创新和进步。
2、为什么我们要在雷达领域加大预测类算法的研究投入
从上面问题的答案,延申到雷达领域的数据处理算法开发,我们不难总结出近年来加大预测类算法的研究投入有以下几个原因:
- 提高雷达数据利用率: 雷达系统可以收集大量的数据,但是数据的分析和利用仍然面临一定的挑战。通过研究预测类算法,可以更好地利用雷达数据,提高雷达数据的利用率和价值;
- 提高雷达系统的性能和可靠性: 在雷达领域,预测类算法可以帮助优化雷达系统的性能和可靠性,例如通过预测雷达信号的强度和散射,从而优化雷达系统的接收和处理。此外,预测类算法还可以提高雷达系统的抗干扰能力和鲁棒性;
- 提高雷达系统的应用范围: 研究预测类算法可以拓展雷达系统的应用范围,例如在天气预测、飞行器导航、交通控制等领域中应用雷达系统。通过研究预测类算法,可以提高雷达系统的精度和稳定性,从而更好地应对复杂环境下的应用需求;
- 推动技术发展: 预测类算法是一种新兴的技术领域,不断的研究和发展有助于推动技术发展,促进雷达领域的进步和发展。在这个过程中,不断提高预测类算法的准确性和可靠性,有助于拓展雷达系统在更多应用场景的应用。
综上所述,加大预测类算法在雷达领域的研究投入,可以提高雷达数据的利用率和价值,优化雷达系统的性能和可靠性,拓展雷达系统的应用范围,并推动技术革新,有助于推动雷达领域的进步和发展。
3、经典的智能预测算法有哪些
这在我基础篇机器学习尤其是频率学派一章中较为详细地讲解过:【 第九章 机器学习与信号处理(上)—频率学派 - 知乎 (zhihu.com) 】。总结来说,预测类的经典机器学习算法包含下述六种:
- 线性回归: 实现浮点型训练数据的输入、线性函数解析式的输出;
- 逻辑回归: 实现浮点型训练数据的输入、非线性函数解析式的输出;
- 支持向量机(SVM): 实现浮点型训练数据的输入、二分类Bool型参量的输出;
- 集成学习: 模型融合的算法,理论上可以实现各类数据输入、各种形态的预测方式输出,取决于融合弱模型的数据结构和输入输出关系;
- 梯度提升决策树(GBDT): 实现浮点型训练数据的输入、多分类标签的输出;
- 随机森林(RF): 实现浮点型训练数据的输入、多分类标签的输出。
这些算法均可以往雷达图像解译领域做迁移。
4、什么是雷达反演技术
雷达反演技术是指通过对雷达回波信号进行分析和处理,推断出目标的物理特征和参数的技术。在雷达领域,反演技术被广泛应用于目标识别、目标跟踪、大气参数探测等领域。雷达反演技术通常涉及雷达信号的处理、目标散射特性的建模、物理参数反演等多个方面。常见的反演技术包括:
- 雷达散射截面反演: 通过测量目标的散射截面,推断目标的物理特征和参数,如目标的形状、大小、材料等。这种反演技术被广泛应用于目标识别和目标跟踪领域;
- 目标速度和方位角反演: 通过分析雷达回波信号的时域和频域特征,反演目标的速度和方位角。这种反演技术被广泛应用于航空交通管制和导弹导航等领域;
- 大气参数反演: 通过分析雷达回波信号中的大气干扰特征,反演大气的参数,如大气湿度、温度、风速等。这种反演技术被广泛应用于天气预测和大气污染监测等领域;
- 多普勒反演: 通过分析雷达回波信号的频域特征,反演目标的速度和加速度等动态参数。这种反演技术被广泛应用于雷达遥感和气象等领域;
- 介电常数反演: 通过分析雷达回波信号的特征,推断出目标或介质的介电常数的过程。介电常数反演的准确性受到多种因素的影响,如雷达波长、目标或介质的形状和结构、目标或介质的湿度等。因此,在进行介电常数反演时需要综合考虑多种因素,选择合适的散射模型和反演算法,以提高反演的准确性;
- 全波形反演: 全波形反演指利用非线性寻优方法反演给定时窗内的波形记录以获取影响地震波传播的相关物性参数 (如弹性参数、粘弹性参数、各向异性参数、密度等)的方法。其主要是探地雷达、地震信息探测方向拓展出来的概念,通俗地讲,全波形反演就是利用波场模拟和实际地震资料对比,通过多次迭代使预测波场和实际地震资料匹配一致,求取地下地质参数用于构造成像与储层综合研究的一种地震反演方法。
综上所述,雷达反演技术是指通过对雷达回波信号进行分析和处理,推断出目标的物理特征和参数的技术。在雷达领域,反演技术被广泛应用于目标识别、目标跟踪、大气、地质参数探测等领域。
5、什么是雷达的目标检测技术
雷达的目标检测技术是指利用雷达技术对周围环境进行扫描和探测,从雷达回波信号中提取出目标特征,并将目标与背景进行区分和识别的技术。目标检测技术是雷达应用中的关键技术之一,广泛应用于军事、民用、航空航天等领域。雷达的目标检测技术通常包括以下几个步骤:
- 雷达回波信号预处理: 将雷达回波信号进行预处理,包括滤波、降噪、去除多径干扰等操作,以提高信号质量和减少干扰;
- 目标检测算法: 目标检测算法是目标检测技术的核心,主要包括传统的恒虚警检测(CFAR)算法、新型的深度学习算法等。通过对雷达回波信号进行分析和处理,从中提取目标的特征,并将目标与背景进行区分和识别;
- 结果显示: 将目标检测结果显示在交互式人机界面上,供操作人员进行进一步分析和决策。
雷达的目标检测技术具有高分辨率、远距离探测、不受天气影响等优点,因此在航空航天、军事防卫、海洋观测、自动驾驶等领域有着广泛的应用前景。
6、什么是雷达的静态目标识别技术
雷达的静态目标识别技术是指利用雷达技术对静止不动的目标进行探测和识别的技术。静态目标通常指在雷达扫描时间内,其位置相对于雷达基站基本不发生变化的目标,如建筑物、桥梁、通信塔、船舶等。相比于动态目标,静态目标的特点是其回波信号稳定、特征丰富,因此可以采用更加精细的信号处理算法和特征提取算法进行识别。雷达的静态目标识别技术通常包括以下几个步骤:
- 数据预处理: 对雷达回波信号进行滤波、降噪、去除多径干扰等预处理操作,以提高信号质量和减少干扰;
- 特征提取: 对处理后的雷达回波信号进行特征提取,提取与目标特征相关的参数,如回波强度、回波周期、多普勒频移等;
- 特征分析: 对提取的特征进行分析,确定不同目标之间的差异性特征,如建筑物的轮廓、形状、高度等;
- 目标分类: 根据特征分析的结果,将目标进行分类识别,确定目标种类和身份;
- 结果显示: 将目标识别结果显示在人机界面上,供操作人员进行进一步分析和决策。
静态目标识别技术在雷达应用中具有重要的应用价值,可以用于城市规划、土地利用、安全监测、环境监测等领域。同时,静态目标识别技术还可以与其他传感器相结合,实现更加全面和精确的目标识别和监测。
7、什么是雷达的运动目标识别技术
雷达的运动目标识别技术是指利用雷达技术对运动目标进行探测和识别的技术。相比于静态目标,运动目标的特点是其速度和方向会发生变化,其回波信号也会受到多普勒效应的影响,因此需要采用不同的信号处理算法和目标特征提取算法进行识别。雷达的运动目标识别技术通常包括以下几个步骤:
- 数据采集: 利用雷达对目标进行扫描,获取目标回波信号的数据;
- 信号处理: 对采集到的雷达回波信号进行滤波、去除多径干扰、降噪等处理,以提高信号质量和减少干扰;
- 目标检测: 对处理后的信号进行目标检测,确定可能存在的运动目标位置和速度信息;
- 多普勒处理: 对目标回波信号进行多普勒频移处理,以提取目标速度信息;
- 特征提取: 提取与目标运动特征相关的参数,如多普勒频移、回波强度、回波周期等;
- 目标分类: 根据特征提取的结果,将目标进行分类识别,确定目标种类和身份;
- 结果显示: 将目标识别结果显示在人机界面上,供操作人员进行进一步分析和决策。
运动目标识别技术在雷达应用中具有广泛的应用价值,可以用于航空、航天、军事、交通、环保等领域。同时,运动目标识别技术也可以与其他传感器相结合,如红外、光学、声纳等传感器,实现更加全面和精确的目标识别和监测。
8、如何将深度学习(人工神经网络)与雷达的参数反演、检测、识别任务相结合
将深度学习与雷达的参数反演、检测、识别任务相结合,可以充分利用深度学习的强大特征提取和分类能力,提高雷达应用的准确性和可靠性。以下是一些基本思路和方法:
- 数据预处理: 利用深度学习网络进行预处理,对雷达原始数据进行特征提取和降维处理,以减少特征数量、提高特征的可识别性;
- 神经网络模型: 设计适合雷达参数反演、检测、识别任务的神经网络模型,例如卷积神经网络(CNN)、循环神经网络(RNN)、深度神经网络(DNN)等;
- 数据标注: 将雷达采集到的数据进行标注,包括目标位置、类别、速度、方向等信息,作为深度学习网络训练的标签;
- 网络训练: 使用标注数据对深度学习网络进行训练,并对网络进行优化调整,以提高反演、检测、识别的准确性和鲁棒性;
- 模型测试: 使用测试数据对训练好的深度学习模型进行测试,并对测试结果进行分析和评估;
- 结果反馈: 将反演、检测、识别的结果反馈给雷达系统,进行实时监控和系统参数控制,以更好地服务于具体应用需求。
在实际应用中,深度学习可以与传统雷达技术相结合,提高雷达的探测和识别能力,例如将深度学习应用于雷达目标跟踪、图像识别、目标分类等方面,可以大大提高雷达的智能化水平和实用性。
所以鼓励读者们多研究基于深度学习的雷达图像解译算法。随着人工智能和深度学习技术的不断发展,基于深度学习的雷达图像解译算法已经得到了广泛应用和持续发展。通过对雷达图像数据的深入挖掘和分析,深度学习算法可以有效提高雷达图像的解译精度和准确性,进一步扩展雷达应用的领域和深度。
三、基于深度学习的雷达参数反演技术示例
等离子体的参数反演对于空间等离子体物理和应用研究具有重要价值,特别是对于非均匀磁化等离子体的参数反演,是一项亟待研究的前沿课题。
1、电磁参数反演的背景简介
磁化等离子体的参数反演对于空间和实验室等离子体应用(包括空间等离子体、等离子体隐身、等离子体处理等)来说很重要,具有一定的挑战性。传统的非线性电磁反演方法在处理电磁反演问题时会出现多解性、局部极值等问题,且这些方法往往非常依赖于足够的先验信息来建立合适的初始模型。 机器学习相关算法为快速准确电磁反演提供了一种可能性。它不需要去将反演问题线性化,而是将整个物理过程转化为一个“黑箱模型”来处理,直接求得反演结果,是一种有一定应用价值的电磁反演方法。 现有方法包括基于KNN和卷积神经网络的电磁反演技术。大量该领域工作者通过实验证明,基于卷积神经网络的电磁反演算法的泛化性更强,更适合处理复杂反演问题;KNN电磁反演算法有着非常高的反演精确度,在处理一些简单的、样本空间较小的电磁反演问题时,速度更快、精确度更高。因此需要对具体的场景展开讨论。
2、物理信息神经网络(PINN)介绍
PINN,即物理信息神经网络,也就是将数学物理方程作为限制加入到神经网络之中使得拟合得到的结果更加满足物理规律。也就是将数学物理方程迭代前后的差值内嵌到Neural Network的损失函数之中,让这个网络输出更佳逼近该方程的解集。那么 神经网络在训练迭代的过程之中优化的就不仅仅是网络自己的损失函数,还包括了给定数学物理方程每次迭代的偏差,使得最后训练出来的模型满足某种设定的物理规律。 本质就是拿神经网络解方程。
利用计算机求解数学物理方程的思想早上世纪后半叶就被广泛研究了,但该工作直到2019年才由布朗大学应用数学系研究团队提出并发表在Journalof Computational Physics上,是一个非常前沿的课题。笔者有一位北师大数院的挚友当前就读研究生期间的课题就是PINNs。知乎上有相关的文章将该研究的入门讲解的非常透彻:【 Physics-informed neural networks(PINNs)入门介绍 - 知乎 (zhihu.com) 】。
学过偏微分方程/偏微分方程数值解/泛函分析的小伙伴们应该听说过一阶非线性PDE方程(Partial Differential Equations),其形式可以简写为:
\begin{equation} u_t+\mathcal{N}[u ; \lambda]=0 \end{equation}\\ 其中 u(x,t) 是求解的目标函数, \mathcal{N}[u ; \lambda] 为非线性偏微分算子, \lambda 为待定参数,为了简化方程假定 \mathcal{N}[u ; \lambda]=\mathcal{N}(u) ,以Burgers方程为例:
\begin{equation} \begin{aligned} & u_t+u u_x-(0.01 / \pi) u_{x x}=0, \quad x \in[-1,1], \quad t \in[0,1] \\ & u(0, x)=-\sin (\pi x) \\ & u(t,-1)=u(t, 1)=0 \end{aligned} \end{equation}\\ 偏微分方程数值解课程中,可能会讲如何利用最简隐格式等网格划分方法,将该方程展开为一个迭代公式的形式,然后逐步计算目标函数在离散的定义域上各点的取值即可。现在,我们希望换个思路,用PINNs来求解。定义 f=u_t+uu_x-(0.01/\pi)uu_x ,定义PINNs的损失函数为:
\begin{equation} \begin{gathered} \mathrm{MSE}_u=\frac{1}{N_u} \sum_{i=1}^{N_u}\left|u\left(t_u^i, x_u^i\right)-u^i\right|^2 \\ \mathrm{MSE}_f=\frac{1}{N_f} \sum_{i=1}^{N_f}\left|f\left(t_f^i, x_f^i\right)\right|^2\\ \\ \mathrm{Loss}=\mathrm{MSE}_u+\mathrm{MSE}_f \end{gathered} \end{equation}\\ 其中, \begin{equation} \left\{t_u^i, x_u^i, u^i\right\}_{i=1}^{N_u} \end{equation} 定义了目标函数 u(x,t) 的初值和边界条件, \begin{equation} \left\{t_f^i, x_f^i\right\}_{i=1}^{N_f} \end{equation} 则定义了 f(x,t) 的内部训练数据。如果神经网络能很好地求解出所给定PDE方程的解, 那么对于来自初边值的任一个点, 其 \mathrm{MSE}_u\rightarrow0 ;对于定义域内部的点, 因为很好地拟合了微分方程, \mathrm{MSE}_f\rightarrow0 ;从而PINNs的训练目标与经典的神经网络一致,都是约束下降 \mathrm{Loss}\rightarrow0 。利用神经网络的反向传播机制和L-BFGS优化器便可以求解这个损失函数下降任务。原论文的网络结构设计如下:
3、PINNs在电磁参数反演领域的应用
电磁波与各向异性磁化等离子体的相互作用过程麦克斯韦方程组和本构关系由下面几个式子给出:
\begin{equation} \begin{aligned} \nabla \times \mathbf{H} & =\varepsilon_0 \frac{\partial \mathbf{E}}{\partial t}+\mathbf{J} \\ \nabla \times \mathbf{E} & =-\mu_0 \frac{\partial \mathbf{H}}{\partial t} \\ \frac{\partial \mathbf{J}}{\partial t}+v_c \mathbf{J} & =\varepsilon_0 \omega_p^2 \mathbf{E}+\omega_{\mathbf{c e}} \times \mathbf{J} \end{aligned} \end{equation}\\ 其中, \mathbf{H}、\mathbf{E}、\mathbf{J} 分别是磁场、电场和电流密度矢量。 \varepsilon_0、\mu_0 分别是真空中的介电常数和磁导率。 \omega_p、\omega_{ce}、v_c 分别是等离子体频率、电子回旋加速器频率和碰撞频率。电子回旋加速器频率为 \begin{equation} \omega_{ce}=q_e \mathbf{B} m_e=\hat{y} \omega_{c e y}+\hat{z} \omega_{c e z} \end{equation} ,其中 \begin{equation} \mathbf{B}=\hat{y} B_y+\hat{z} B_z \end{equation} 为背景磁场, q_e 为电荷数, m_e 是电子的质量, \theta 为波场传播方向和背景磁场方向的夹角,不难有:
\begin{equation} \omega_{c e y}=\omega_{c e} \sin \theta,~\omega_{c e z}=\omega_{c e} \cos \theta \end{equation}\\ 为了简化正演模型,我们假设波场的传播方向为 z 方向。基于上述正演模型为麦克斯韦等离子体耦合系统开发了一个PINN。网络图如下图所示,其包含三个模块:深度神经网络、残差项和损失函数。
简单解释这个网络结构。骨干部分的构建还是利用多层感知机,包括了两个子网络,其一实现背景场的估计,其二实现目标参数反演。网络利用z-score归一化方法对数据进行预处理。需要反演的参数为等离子体的频率 \omega_p ,背景场的估计输出分别为电场、磁场、电流密度。网络使用的激活函数为Swish,定义如下:
\begin{equation} \operatorname{swish}(x)=x \cdot \operatorname{sigmoid}(x)=\frac{x}{1-e^{-x}} \end{equation}\\ Residual Term部分实现数学物理模型的嵌入。由于麦克斯韦方程表征的等离子耦合系统中通常有真空和等离子体区域,我们通过网络自动分区并计算两个域中的残差,形成一个包含真空区域和等离子体区域残差的计算模块。具体来说,为了防止梯度爆炸,首先对输入数据作下述处理: \Delta t'=\frac{\Delta t}{\Delta t_0}、\Delta z'=\frac{\Delta z}{\Delta z_0} ,其中, \Delta t_0、\Delta z_0 为归一化系数。一维情形下, \theta = 90° ,真空区域中残差项的约束方程确定如下:
\begin{equation} \begin{aligned} e_{1 x \text { vacuum }} & =\frac{\partial H_y}{\partial z^{\prime}}+\frac{\varepsilon_0 \Delta z_0}{\Delta t_0} \frac{\partial E_x}{\partial t^{\prime}} \\ e_{1 z \text { vacuum }} & =\frac{\varepsilon_0}{\Delta t_0} \frac{\partial E_z}{\partial t^{\prime}} \\ e_{2 \text {.vacuum }} & =\frac{\partial E_x}{\partial z^{\prime}}+\frac{\mu_0 \Delta z_0}{\Delta t_0} \frac{\partial H_y}{\partial t^{\prime}} \end{aligned} \end{equation}\\ 等离子体区域中残差项的约束方程确定如下: \begin{equation} \begin{aligned} e_{1 x \text {.plasma }} & =\frac{\partial H_y}{\partial z^{\prime}}+\frac{\varepsilon_0 \Delta z_0}{\Delta t_0} \frac{\partial E_x}{\partial t^{\prime}}+\Delta z_0 J_x \\ e_{1 z \text {.plasma }} & =J_z+\frac{\varepsilon_0}{\Delta t_0} \frac{\partial E_z}{\partial t^{\prime}} \\ e_{2 \text {.plasma }} & =\frac{\partial E_x}{\partial z^{\prime}}+\frac{\mu_0 \Delta z_0}{\Delta t_0} \frac{\partial H_y}{\partial t^{\prime}} \\ e_{3 x \text {.plasma }} & =\frac{\partial J_x}{\partial t^{\prime}}+\Delta t_0 v_{\mathrm{c}} J_x-\varepsilon_0 \Delta t_0 \omega_{\mathrm{p}}^2 E_x-\Delta t_0 \omega_{\text {cey }} J_z \\ e_{3 z \text {.plasma }} & =\frac{\partial J_z}{\partial t^{\prime}}+\Delta t_0 v_{\mathrm{c}} J_z-\varepsilon_0 \Delta t_0 \omega_{\mathrm{p}}^2 E_z+\Delta t_0 \omega_{\text {cey }} J_x . \end{aligned} \end{equation}\\ 推理的时候,网络自动将空间上混合的数据划分为真空和等离子体区域,然后输入到不同的残差模块中进行计算。根据PINNs的基础理论,该问题的具备数学物理方程约束的损失函数为:
\begin{equation} \begin{aligned} L= \frac{1}{N}\left(\sum_{n=1}^N\left|\mathbf{E}\left(t^n, x^n, y^n, z^n\right)-\mathbf{E}^n\right|^2 +\sum_{n=1}^N\left|\mathbf{H}\left(t^n, x^n, y^n, z^n\right)-\mathbf{H}^n\right|^2\right)+\sum_{i=1}^M\left|\mathbf{e}_i\right|^2 \end{aligned} \end{equation}\\ 其中, \mathbf{E}\left(t^n, x^n, y^n, z^n\right) 以及 \mathbf{H}\left(t^n, x^n, y^n, z^n\right) 分别是网络的输出,对应的 \mathbf{E}^n 和 \mathbf{H}^n 为数据标签的采样, N 为采样点数,该公式前面两项本质上就是最小均方误差函数。 \mathbf{e}_i 为网络算法第二模块计算的残差项,对于真空区域, M=2 ,对于等离子体区域, M=3 ,这一部分本质上为损失函数的正则化项。训练过程使用Adam算法来优化损失函数。
P. S. 在作者的原文中,损失函数公式多打了一个反括号,笔者总结的时候理解该损失函数公式应该如上。
4、实验验证
为了验证所提的网络,文章考虑了EM波在不均匀各向异性磁化等离子体中的传播。合成数据是通过电流密度卷积磁化等离子体板中的一维波传播公式得到的。入射波是单频脉冲: \mathbf{E}_i=sin(2\pi ft) , f=200~\mathrm{GHz} ,磁化等离子体板厚度 d=1.2~\mathrm{cm} ,板子的厚度方向沿 z 轴放置。 \Delta z=0.015~\mathrm{mm} , \Delta t=0.025~\mathrm{ps} 。 z 方向的单元格数目为 800 ,波源在 z 方向的第 50 个单元格处。磁化等离子体板的厚度方向占 z 方向的第 200-600 单元格,其它单元格都是真空背景。等离子体的参数: \omega_{ce}=100~\mathrm{GHz}、v_c=600~\mathrm{GHz} 。下面几张实验图给出了反演结果及对比:
实验结果表明,等离子体频率反演在 1/50 采样率下的相对误差仅为 0.15~\% 。PINN方法的场重建优于ANN和Spline。采样点越少,所提方法的反演优势就越明显。值得注意的是,与作者之前关于非均匀等离子体参数反演的工作相比,在训练数据较少的情况下,反演结果有了很大的改善。由此证明了该方法的有效性、及高的参数反演性能。
四、基于深度学习的雷达全波形反演技术示例
本节内容参考自“Joint Physics and Data Driven Full-Waveform Inversion for Underground Dielectric Targets Imaging”一文,所提方法名称为“GPRDtrNet”。该工作2022年底发表于国际顶级学术期刊IEEE Transactions on Geoscience and Remote Sensing上。该工作是一项前沿的基于深度学习的探地雷达(GPR)算法研究,瞄准任务是地下目标重建,利用一种联合物理和数据驱动的全波形反演(PDD-FWI)方案实现。 该方法结合了基于物理学的非迭代方法和数据驱动的深度神经网络(DNN),以准确重建目标位置、形状和介电常数。
GPRDtrNet本质idea上来源于U-Net,但改进于U-Net。与以往基于DNN的重建方法相比,GPRDtrNet具有训练数据需求量小、精度高、泛化能力强、噪声鲁棒等优点。在笔者的学习、复现过程中,还发现该网络具备很强的轻量化和实时能力,但是作者并没有在文章中深入阐述,不过并不影响这项高质量工作的展现度。文章更值得深究和参考的点在于 “数据和模型双驱动”的探地雷达信号处理、特征提取、网络设计方案 ,这包括:
- 与其他直接数据驱动方法不同,采用归一化距离迁移算法(RMA)对回波B-Scan数据进行预处理,不仅降低了对GPR设备和数据维度的要求,而且显著提高了所提方案的鲁棒性和泛化能力;
- 为了克服GPR数据标记和低信噪比(SNR)条件下目标特征提取难的问题,文章开发了一种新型的GPR介电目标重建网络(GPRDtrNet)。该网络具有数据需求小、目标重建精度高、泛化能力强、噪声容限强等优点。
1、探地雷达地下目标探测的正反演模型基础
前面的总结里介绍了, 探地雷达反演是根据地面或者井中接收天线的观测数据推断地下介质的物性参数,如介电常数、电导率、电磁波波速等。探地雷达正演则是已知地下介质的物性参数,推导出电磁波传播的模型。因此后者难度相对较低,但应用价值也较低,前者难度较高,工程实用性也更强。
从上图的场景可以看出,GPR是一种常见的偏移成像配置,这意味着发射和接收天线的相对位置是固定的。在二维电磁建模背景下,检测区域中存在一些非磁性介电目标,因此我们可以将正演模型写为:
\begin{equation} \begin{aligned} & E\left(\boldsymbol{r}, \boldsymbol{r}_s\right) =E_i+k_b^2 \int_D \chi_e\left(\boldsymbol{r}^{\prime}\right) E\left(\boldsymbol{r}^{\prime}, \boldsymbol{r}_s\right) G_i\left(\boldsymbol{r}^{\prime}, \boldsymbol{r}\right) d \boldsymbol{r}^{\prime} \\ & E_s\left(\boldsymbol{r}_{\mathbf{0}}, \boldsymbol{r}_s\right) =k_b^2 \int_D \chi_e\left(\boldsymbol{r}^{\prime}\right) E\left(\boldsymbol{r}^{\prime}, \boldsymbol{r}_s\right) G_e\left(\boldsymbol{r}^{\prime}, \boldsymbol{r}_{\mathbf{0}}\right) d \boldsymbol{r}^{\prime} \end{aligned} \end{equation}\\ 其中, E\left(\boldsymbol{r}, \boldsymbol{r}_s\right) 为总场, E_i 为入射场, E_s 为散射场。 k_b 为波数, \boldsymbol{r}=(x,z)∈D 代表兴趣区域(DOI)内的点坐标, \boldsymbol{r}_s=(x_s,z_s)、\boldsymbol{r}_0=(x_0,z_0)∈\Sigma 分别代表源和观测点的坐标。令 \boldsymbol{r}_s−\boldsymbol{r}_0=\boldsymbol{\Delta} ,介质内部和外部的格林函数可以分别表征为 G_i、G_e , \chi_e\left(\boldsymbol{r}\right) 代表 \boldsymbol{r} 点的介电常数,有:
\begin{equation} \chi_e(\boldsymbol{r})=\epsilon(\boldsymbol{r}) / \epsilon_b-1 \end{equation}\\ 对于FWI问题,我们的目标是从散射场数据重建地下场景的介电常数分布图。设正演过程的处理可以抽象为一个完整的函数 {\Phi} ,则:
\begin{equation} E_s(\boldsymbol{r})=\Phi(\varepsilon(r)) \end{equation}\\ 反演就是通过已知上式左边的结果,倒过来估计一个DOI内介电常数分布 \hat{\epsilon}(\boldsymbol{r}) 的值,其满足下述优化问题:
\begin{equation} \hat{\epsilon}(\boldsymbol{r})=\arg \min _\epsilon\left\|\Phi(\epsilon(\boldsymbol{r}))-E_s^{\text {obs }}\right\|_p^2+\mathcal{R}(\epsilon(\boldsymbol{r})) \end{equation}\\ 其中, E_s^{\text {obs }} 为雷达天线接收到的散射场, \mathcal{R}(\epsilon(\boldsymbol{r})) 是一个正则化项,其引入先验信息并增强了对噪声的鲁棒性。不难发现这是一个倾向于局部最小值的非线性优化问题,现有的最优化理论提出了许多解决该结构问题的迭代算法,但往往需要昂贵的计算成本,并且很容易陷入局部最优解。因此,考虑使用深度神经网络来代替传统FWI方法中的迭代过程,降低反演推理过程的计算成本,实现趋向于给出全局最优解的算法。
2、数据预处理
我们首先使用均值滤波法,从回波中去除直达波和空气-土壤界面的反射杂波。与其他迁移算法相比,RMA在不降低图像质量的情况下具备高效性。因此,利用RMA实现数据预处理,以确保PDD-FWI方案的实时性。预处理后的回波可以表示为:
\begin{equation} \begin{aligned} I(x, z) & =\iint M\left(k_x, k_z\right) e^{j\left(k_x x+k_z z\right)} d k_x d k_z \\ M\left(k_x, k_z\right) & =\frac{v}{2} \frac{k_z}{\sqrt{k_x^2+k_z^2}} U\left(k_x, z_0=0, \frac{v}{2} \sqrt{k_x^2+k_z^2}\right) \end{aligned} \end{equation}\\ 其中, I 为RMA的结果。 U 为经过2D-FFT处理后的 z_0=0 平面的雷达回波矩阵。 v 为地下介质中波的传播速度, k_x、k_z 代表 x 和 z 方向上的波数。由于其他GPR系统中对回波幅度的定义不同,因此RMA结果中像素点的幅度绝对值没有实际意义。它们通常比实际介电常数值大得多,这对网络训练非常不利。因此,对RMA结果进行归一化以加快后端网络的收敛速度。此时RMA结果可以表示为:
\begin{equation} \hat{I}(x, z)=\frac{\left|I(x, z)-I_b\right|}{\max _{(x, z) \in D}\left|I(x, z)-I_b\right|} \end{equation}\\ I_b 是背景区域的RMA结果,通常取图像最小值即可。
3、所提GPRDtrNet网络架构
所提GPRDtrNet结构如图4-2和4-3所示。为了快速读懂该方法的设计思路,首先需要对U-Net有个全面的掌握。
U-Net本质上是一个大规模、具备跳连结构的自编码器,设计思路和特征金字塔网络一样,借鉴了”多抽样率数字信号处理“领域的滤波器组概念。首先网络通过多个降采样层将图像编码为一个高层特征图,其维度更小但语义信息更明确;然后再将高层特征图通过多个升采样层解码为原始尺度,该过程中的每一上采样阶段都要和编码过程中尺度相同的特征图做聚合,目的是将语义信息与原始像素信息做对应。这也是为什么该网络最早被用于图像的”语义分割“且大获成功。具体降采样和升采样的过程没有绝对死板的超参数设置,但是每个”下采样阶段“和”上采样阶段“需要一一匹配并实现跳连,一个阶段通常由卷积、批归一化、激活、池化/上采样、跳连组成,具体如下图所示:
GPRDtrNet对U-net的改进主要体现在以下三点。
- 简化了U-Net的结构并减少了卷积层的数量,以解决GPR数据难以标记和缺乏大量可信公共数据集的问题;
- 引入了预处理结果与输出之间的跳连结构,并一个1×1点卷积将两者融合,充分利用预处理结果中的像素级目标信息,提高GPRDtrNet的鲁棒性;
- 引入多尺度加性空间注意力门,克服浅层特征图中冗余信息(包括噪声和杂波干扰)带来的网络收敛难问题。
P. S. 有一说一越看越觉得自己之前的文章和师兄的这篇文章在思路上真有点撞车。但由于我的研究穿墙雷达,领域大不相同,且方法是针对运动目标数据处理的,和全波形反演没有关系,网络的底层原理也完全不相同(本文为U-Net多尺度多层编解码器结构,后者为LISTA稀疏特征感知模块堆叠结构),可以说还是一项崭新的工作。因此IEEE TGRS在同一时段均给了这两篇文章录用并无不妥之处。
受加性注意力模型和空间注意力模型的启发,该工作提出了加性空间注意力门,其结构如图4-3所示。在此注意力模块中,深层特征用作门控信号,并与浅层特征一并输入,以突出显示我们想要的特征像素。然后,我们使用Sigmoid函数,增大关键的目标重建区域的权重。最后, 利用注意力权重对浅层特征进行处理,抑制与目标特征无关的背景区域,从而保证网络对目标区域给予更多的关注,最终实现类似图像分割的目标特征提取。
此外, 由于拟合的目标介电常数值是连续变化范围内的随机变量,而探地雷达探测的背景介电常数一般都近似认为是均匀和确知的,因此原始U-Net的二进制交叉熵损失(BCE损失)不再适用。 考虑到介电常数重建任务本质上是一个拟合任务,并且背景区域中的介电常数值是已知的,因此考虑了均方误差损失(MSELoss)和结构相似性损失(SSIMLoss)的组合。其中,MSELoss可以反映重建结果与地面真实之间的像素级误差,适用于评估目标介电常数的重建结果。SSIMLoss可以反映它们之间的结构相似性,适用于评估目标位置和形状的重建结果。与单个MSE或SSIM损失相比,该混合损失函数更好地同时考虑了对目标形状、位置和介电常数的要求。所述混合损失函数定义如下:
\begin{equation} \begin{aligned} L= & \frac{1}{2} \sum_{(x, z) \in T}\left\|\Gamma[\hat{I}(x, z)]-\epsilon_t(x, z)\right\|_2 -\sum_{(x, z) \in D} \operatorname{SSIM}\left\{\Gamma[\hat{I}(x, z)], \epsilon_t(x, z)\right\} \end{aligned} \end{equation}\\ 其中, Γ、T 分别表示前向计算过程,以及目标所在的图像区域。 \epsilon_t(x, z) 表示实际的介点常数值。通过网络训练的反向传播过程不断优化参数,逐步降低上式给出的Loss值,以保证网络在结构相似度和像素级误差方面的输出始终接近真实场景。最后,当损失值及其下降速率足够小时,网络达到完全收敛状态,此时固化模型的全波形反演/目标重建性能最佳。
4、实验验证
笔者的个人习惯是所有的新算法均针对实测数据特征开展研究,很少做仿真。因此关于同时具备仿真和实测验证的论文,仿真部分的工作便不再总结了。本文中,作者设置的目标场景如下,该场景和理论部分图4-1是契合的:
实验在上图所示的沙坑中进行。沙坑大小为 2.1×2.5×1.4~\mathrm{m} ,沙子的介电常数为 2.3 ,测量线沿沙坑宽度方向,长度为 1.8~\mathrm{m} ,其他场景参数见下表。测试设备类型为中国电子科技集团(CETC)有限公司LTD-2600雷达和美国地球物理测量系统公司(GSSI)的SIR-4000雷达,其中心频率分别为 1.5 和 1.6~\mathrm{GHz} 。波形为基于Ricker子波的脉冲超宽带信号。
实验中收集了三种不同目标组合的回波数据。所有三种目标都是由混凝土制成的,但它们的介电常数不同,因为所使用的混凝土不是来自同一生产批次。然后采用所提GPRDtrNet、FWI、MCTV-FWI和PINet方法对 3 种目标总计 12 项实验的回波数据进行处理,重建结果如下图:
四种方法的评估指标对比(所有方法均基于Linux系统,RTX 3090 GPU测试):
结果表明,本文提出的目标重建方案性能最好,相对GPRDtrNet而言,FWI、MCTV-FWI和PINet方法表现出明显的边缘畸变。此外,FWI和MCTV-FWI方法的重建结果存在较多的噪声。为了得到更具说服力的结果,表4-2计算了不同方法重建结果的平均SSIM和MSE。MCTV-FWI和PINet分别实现了目标形状和介电常数的精确重建,而所提方法对目标形状、位置和介电常数的重建性能最好。综上所述,所提方法在真实数据中具有良好的重建性能,具有实际应用潜力。为了验证所提出的方案对不同类型的GPR设备的灵活性,我们分别实验了两种所用产品的数据。重建结果如下图所示。可以发现,两台设备采集的B-Scan的相位和振幅有所不同,但是,经过预处理后,仍然可以提取目标的初步轮廓和位置。经过GPRDtrNet推理后,从两个回波数据中均可准确重建目标。这表明预处理方法和GPRDtrNet可以用于不同设备采集的数据,也即验证了所提方法的泛化能力,这在实际工程应用中非常有意义。
综上证明了GPRDtrNet的具有较好的目标重构性能、较高的噪声鲁棒和较强的泛化能力。
五、基于深度学习的雷达目标检测技术示例
P. S. 笔者在本专栏内的总结不常选用IEEE Transactions on Geoscience and Remote Sensing(JCR/中科院 Q1区,工程大类国际顶级期刊,雷达领域已超越IEEE TAES成为目前无争议全世界影响力最大的刊物)上作品的原因在于,那些工作具备极强的前瞻性,但往往难度大,不适合进阶篇的撰写。因此进阶篇都选用了仍然是SCI检索,但位列第二档次的期刊工作。
基于雷达的目标检测是指利用雷达系统对目标进行探测和识别的过程,该识别一般指”Bool型输出的二分类“,也即判断目标、尤其是特定种类目标的有无。在雷达目标检测中,雷达通过向周围发射微波信号并接收返回的信号来探测目标。当信号遇到目标时,一部分能量会被目标反射回来,通过接收器接收并处理,从而实现目标检测
雷达目标检测具有以下优点: 首先,雷达可以穿透雨雪、云层等障碍物,能够在恶劣天气和复杂环境下进行探测。其次,雷达可以对远距离的目标进行探测,并且对目标的速度和距离具有较高的精度和稳定性。此外,雷达还可以提供目标的角度信息,对于多目标检测和跟踪具有重要意义。
基于雷达的人体目标检测是指利用雷达技术对人体目标进行探测和识别的过程。雷达技术通过向周围发射微波信号并接收返回的信号来探测目标,而人体目标则是通过识别人体的微弱反射信号实现的。基于雷达的人体目标检测在安防、救援等领域具有广泛应用。 近年来,随着深度学习等人工智能技术的发展,基于深度学习的雷达人体目标检测方法也得到了广泛应用和研究,能够实现对人体目标的更精准、更高效的探测和识别,具有重要的应用前景和研究价值。 下面介绍一种基于语义分割神经网络的雷达室内人体目标检测技术。该工作由笔者所在团队的”兄弟团队“完成,来自电子科大信息与通信工程学院,崔国龙教授团队博士毕业生李虎泉一作发表于IEEE GRSL的成果。
1、非协作场景室内人体目标检测任务简介
穿墙雷达成像(TWRI)技术能够穿透非金属介电材料生成监视区域的图像,该技术已广泛用于非协作城市场景室内人类目标检测。小型化和便携性对于穿墙雷达(TWR)系统来说是非常重要的硬件设计指标,因此需要小孔径的天线阵列做信号收发。有限于此,结合BP成像的原理,不难实验发现目标成像存在某一方向的拉伸变形,且形状随目标位置变化而显著改变。TWRI中的目标检测技术旨通过阈值判决来区分某些图像像素隶属于目标还是背景杂波。代表性方法包括恒定虚警率(CFAR)检测器及其各项改进算法。但是,对于具有变化形状的目标图像,CFAR系列算法很难确定参考单元格的大小,由此无法确保穿墙场景下的检测性能。似然比测试(LRT)检测器是另一种具有代表性的目标检测方法,广泛使用于TWRI的静态目标检测和探地雷达的浅层掩埋目标检测领域。但这种检测器高度依赖于场景先验,也即对回波随机信号中各变量概率密度函数(PDF)的估计,在复杂实测场景下性能不佳。Otsu和最大熵(ME)两种图像分割方法可以处理TWRI的静态目标检测问题。但是由于不同人类目标之间散射特性有差异,成像后目标区域的像素幅值呈现高的动态范围。基于直方图的分割方法可能导致弱散射目标的高漏检率。
总结来讲,现有的检测技术只考虑目标图像的强度特征而忽略了几何特征,当目标数量较多、且距离雷达较近时,受限于雷达系统的分辨率,仅使用强度特征很难应对图像畸变和强散射点互相重叠的情况。 因此作者考虑使用深度学习技术优化现有检测器。最简单的可实现该任务的算法即为全卷积语义分割网络(FCN),此外,对于弱散射目标的检测,作者将注意力机制与传统FCN网络结合,以突出目标并抑制背景杂波。
2、穿墙雷达室内人体成像基础
假设采用多通道穿墙成像雷达生成室内多人目标的图像。感兴趣区域被划分为有限数量像素的 x-y 坐标系。参考笔者基础篇第七章的总结内容:【 第七章 成像算法(雷达、射频信号成像) - 知乎 (zhihu.com) 】,利用BP成像,可以得到:
\begin{equation} \xi(\mathbf{x})=\sum_{m=1}^M \sum_{n=1}^N e^{j 2 \pi f_c \Delta \tau_{mn}(\mathbf{x})} \operatorname{sinc}\left(B \Delta_{\tau_{m n}}(\mathbf{x})\right) \end{equation}\\ 其中, \mathbf{x_p} 为点目标 \mathbf{p} 的坐标, \xi(\mathbf{x}) 为坐标 \mathbf{x} 点的像素幅值。 M、N 分别是发射、接受单元的数量。 B 为带宽, f_c 为中心频率, \begin{equation} \Delta \tau_{m n}(\mathbf{x})=\tau_{m n}(\mathbf{x})-\tau_{m n}\left(\mathbf{x}_{\mathbf{p}}\right) \end{equation} , \tau_{m n}(\mathbf{x}) 代表 \mathbf{x} 像素点对应的信号时延。TWR图像可以如上简单建模为所有目标的点扩散函数的相干求和。所得目标图像的形状与TWR系统的距离、方位向分辨率有关。其中, c 为光速,则距离分辨率为:
\Delta R= \frac{c}{2B}\\ 方位分辨率为:
\begin{equation} \Delta \theta=\frac{0.886 \lambda_c}{D} r \end{equation}\\ 其中, \lambda_c 为中心频率对应的信号波长, D 是天线阵列的有效孔径长度, r 为目标相对雷达距离。下图给出了一个典型的室内多人目标成像结果仿真:
从仿真图像上观察不难发现该检测问题的几个核心难点:
- 形状方差: 对于小孔径TWRI系统,方位分辨率随目标位置而显著变化,导致TWR图像中目标形状呈现出多样性;
- 图像目标混叠: 由于小孔径TWR的分辨率限制,当存在多个相邻目标时,会出现图像目标混叠和失真;
- 弱散射目标易漏检: 传输损耗和散射特性的变化导致TWR图像具有大的动态范围,算法对弱散射目标很容易漏检。
为了应对这些挑战,我们利用TWR图像的几何特征实现目标检测。
3、基于注意力机制的FCN设计
所设计的网络结构如下图所示:
为了应对目标图像的形状方差和图像重叠,FCN利用多个卷积层组成了下采样-上采样结构,以提取TWR图像的多尺度特征。这些卷积层对图像执行线性变换,可以利用相邻像素的强度和几何特征进行目标检测。在下采样结构中,特征图的大小在卷积层处理后以步幅 2 减半。相反,上采样结构中步幅为 2 的反卷积放大特征图尺度。激活函数均为ReLU。最后一个Softmax层将输出限制在 [0,1] 范围内,该输出表示每个像素属于目标的概率。
下-上采样阶段的通过跳连,将多尺度提取的特征图合并,形成综合检测结果。为了提高网络对弱散射目标的检测精度,作者提出在跳连中集成注意力模块的改进思路,具体来说所用的注意力门结构如下:
该模块的结构非常简单,示意图对卷积、激活函数的配置标注也很简洁明确,此处不再深入分析。注意力系数突出显示目标区域并抑制背景杂波。注意力门的输出是输入特征图和注意力系数的逐元素乘法,可表示为:
\begin{equation} \hat{\mathbf{I}}_l=\mathbf{I}_l \odot \mathbf{A}_l \end{equation}\\ 其中, ⊙ 代表矩阵的Hadamard积。
对于TWRI场景,人类目标仅占据图像的一小部分区域(也即具备稀疏性)。因此,训练过程容易收敛到损失函数的局部最小值,导致网络的输出倾向于对背景区域的分割,目标区域则丢失或仅部分被检测到。为了应对这个问题,作者提出将交叉熵与Dice因子相结合构建网络的损失函数。其中,Dice因子的公式如下:
\begin{equation} D\left(\mathbf{I}_{\text {pred }}, \mathbf{I}_{\text {truth }}\right)=\frac{2 \sum \mathbf{I}_{\text {pred }}(\mathbf{x}) \mathbf{I}_{\text {truth }}(\mathbf{x})}{\sum \mathbf{I}_{\text {pred }}(\mathbf{x})^2+\sum \mathbf{I}_{\text {truth }}(\mathbf{x})^2} \end{equation}\\ 其中, \mathbf{I}_{\text {pred}} 为网络的预测输出, \mathbf{I}_{\text {truth}} 为标签。则完整的损失函数可以写作:
\begin{equation} \text { Loss }=\alpha E\left(\mathbf{I}_{\text {pred }}, \mathbf{I}_{\text {truth }}\right)+(1-\alpha) D\left(\mathbf{I}_{\text {pred }}, \mathbf{I}_{\text {truth }}\right) \end{equation}\\ 其中, E() 为二进制交叉熵。训练过程优化器为Adam, \alpha=0.5 ,Batch Size大小设为 1 ,训练轮数 100 。
4、实验验证
同上文章的仿真不再总结,为了验证所提方法在工程应用中潜在价值,作者采用穿墙成像雷达系统在封闭房间内实测检验多个人体目标。雷达天线采用八通道两发四收的MIMO阵列,探测区域 10~\mathrm{m}\times 10~\mathrm{m} ,发射天线坐标为 (4.85,0)~\mathrm{m}、(5.15,0)~\mathrm{m} ,接收天线等间距放置在 [(4.8875,0)~\mathrm{m}, (5.1125,0)~\mathrm{m}] 范围内。信号收发采用 1.6~\mathrm{GHz}-2.2\mathrm{GHz} 的频率步进连续波。接收到的信号首先通过脉冲压缩进行处理。随后,添加白色高斯噪声。以信号的最高幅度为参考,信噪比随机设置在 3 至 10~\mathrm{dB} 之间。成像区域离散化为 256\times256 个网格,成像后先完成归一化再送给网络迭代。
结论就是,与其他基于雷达图像的检测器相比,该方法在目标图像畸变方面具有鲁棒的检测性能,同时提供了准确的位置、几何形态估计,是具备有效性和高性能特点的算法。
六、基于深度学习的雷达静态目标识别技术示例
通常情况下,雷达探测到的目标信号是一些复杂的回波信号,这些信号需要经过一系列的信号处理和特征提取操作,才能够用来进行目标的分类和识别。基于雷达的目标分类识别技术在军事、航空航天、智能交通、智能制造等领域有广泛应用。近年来,随着深度学习等人工智能技术的发展,基于深度学习的雷达目标分类识别方法也得到了广泛研究和应用,能够实现对目标的更准确、更高效的分类和识别,具有重要的应用前景和研究价值。
1、雷达静态目标识别技术简介
基于雷达的静态目标识别技术在军事、安防、智能交通等领域有广泛的应用。 例如,在军事领域,可以利用雷达技术对敌方防御设施进行识别和分析,为军事决策提供支持;在智能交通领域,可以利用雷达技术对桥梁、隧道等静态目标进行监测和检测,以确保道路交通的安全性和顺畅性。
提到基于雷达的静态目标识别课题,首先需要回顾高分辨距离像(HRRP),这个概念在之前的文章中反复提到过,利用这项技术可以提取目标的形态学特征,从而用来分辨其所属的具体类别。雷达回波特征有两种类型,一种类型的特征是目标属性/散射中心的组合,例如距离、速度、高度、方位角、RCS等。另一种类型的回波特征是雷达成像的视觉特性,例如高分辨雷达距离剖面 、合成孔径雷达图像剖面和逆合成孔径雷达图像剖面。与其他雷达成像测量体制相比,HRRP是一种很容易获得的数据类型。然而, 由于HRRP是雷达视线上的目标散射强度的一维投影,因此其实测数据的特征本质上和雷达的观测角度强相关。
HRRP数据特征的角度依赖特性,使得特征提取变得困难。CNN+RF等深度学习算法可以有效克服这个问题。因此作者的工作目标为基于雷达HRRP特征的空中目标分类,利用深度学习算法提升其识别性能。
P. S. 这里就有很多小伙伴们不太理解,这里雷达探测的是飞机,属于运动目标,为何笔者会归类于”静态目标识别技术“一类呢?熟悉雷达系统的小伙伴们知道,雷达发射脉冲波形一般包括了多个重复周期(PRT),要想对距离和速度等物理量进行探测、估计, 需要先验地假定目标是点目标或点目标的刚性叠加,在一个PRT之内可以近似为静止,而在不同的PRT之间是有位移的。 因此,针对雷达HRRP的目标分类任务,由于我们需要的是隐藏在一道快时间回波内的目标”几何尺寸“信息,本质上是和静目标探测原理类似;相反,如果是需要做空中目标的飞行状态识别,利用的是一段时间内飞机的”位移、速度、偏转角“等信息,本质上就是动目标探测问题了。
2、空中目标的HRRP数据生成
HRRP的基本概念在之前的文章中已经深入介绍,此处不再赘述:【 第二章 神经网络设计与雷达/通信/信号处理:前沿,机遇与挑战 - 知乎 (zhihu.com) 】。由于各种目标的HRRP剖面测量值是很难直接通过回波解析式推导获得的,考虑数值方法,也即利用目标在AutoCAD中模型,通过电磁场仿真软件求解来获得仿真的HRRP数据。
作者使用了三种现有的AutoCAD模型,包括导弹、飞机和直升机,这三种空中目标的表面都近似视作良电导体。发射信号的中心频率设为 1.5~\mathrm{GHz} ,距离分辨率约为 0.937~\mathrm{m} 。对于导弹和飞机目标,对方位向的 181 个角度均进行了仿真;而对于直升机目标,仿真则涵盖了整个 360 度方位角的数据。方位角分辨率均为 1 度。每个仿真的目标及观测条件生成 128 个样本。然后将高斯噪声添加到数据集中,生成SNR在 5-15~\mathrm{dB} 之间变化的噪声配置文件。该工作使用了由上述方法生成的 11 个HRRP数据集,每个数据集都包含所有 3 个目标的距离配置文件。随机切分数据集的 70~\% 用于训练,其余用于验证。下图展示了直升机HRRP数据的一个样例:
3、基于LSTM、CNN和RF的HRRP目标分类方法
讲真,笔者阅读了好几遍才看明白原来作者是分别提出了三种方法,一种是LSTM+Fc的网络,一种是经典CNN,一种是随机森林,分别对该HRRP目标识别任务进行迭代训练、验证,并在后续实验中进行了对比。
首先是基于LSTM的识别方法:
简单解释该LSTM网络结构,其总共包含了 8 个LSTM层,LSTM单元数从 350 至 100 逐层递减,最后是一个具有Softmax激活函数的全连接层实现标签映射。目标种类用One-Hot编码表征,损失函数为交叉熵。
其次是基于CNN的识别方法:
这里使用的CNN网络有 5 个卷积层,ReLU激活,MaxPooling池化。卷积层中使用的滤波器数量分别为 32 、 64 、 96 、 128 和 256 ,每个卷积层后跟一个批归一化层。全连接层节点数 500 。该模型任然以One-Hot编码预测目标类,损失函数仍为交叉熵。
随机森林方法则是构建多个决策树,并作为一个集成方法做出更准确的分类预测。从HRRP数据集的总样本中随机选择一个子集,并为每个子集分别构建决策树。该模型使用基于熵的机制在创建决策树时找到最佳的数据拆分方法。该算法通过对不同的树进行微调,具体来说,收集不同子集中所有树的输出投票结果,并使用多数投票进行融合,做出最终判决。
4、实验验证
首先使用训练数据集训练三个分类模型,然后用测试集进行分类效果验证。在训练过程中,监督训练损失、训练准确性、验证损失和验证准确性等指标,以确保模型收敛。不同的数据SNR条件下,三种模型的验证准确性对比如下表所示:
上表可以同时反应两个模型指标:精度性能和后验鲁棒性。结论是,CNN和RF在准度和鲁棒性方面具有相似的性能,准确率上略优于LSTM模型,但后验鲁棒性来说LSTM模型更好。下表给出了三种SNR条件下各个模型验证推理的混淆矩阵:
LSTM和CNN由于其固有的模型复杂性,在训练过程中需要更多的时间来收敛。LSTM模型虽然结构相对复杂,但可以进一步优化,以获得更好的性能。随机森林技术需要优化的超参数则很少,但其在许多对可解释性要求高的应用程序中有比CNN和LSTM更大的优势。
现实场景的雷达HRRP目标识别任务上,需要综合考量模型的各项指标表现具体挑选,且应对该工作尽量改进,实现对更多种类、型号的飞机机型的识别能力、以及最好能抵抗实测数据中存在的各种高斯噪声以外的复杂的干扰。
七、基于深度学习的雷达动态目标识别技术示例
基于深度学习的雷达动态目标识别技术是指利用深度学习算法对雷达探测到的动态目标进行识别和分类的过程。与传统的基于规则的算法相比,基于深度学习的方法具有更高的自适应性和鲁棒性,能够适应不同的环境和目标变化。
基于深度学习的雷达动态目标识别技术主要分为两个阶段:特征提取和目标分类。 在特征提取阶段,通过卷积神经网络(CNN)等深度学习算法,自动从原始雷达数据中提取出与目标特征相关的高级表示,这些表示可以更好地表征目标的形态、纹理、运动等特征。在目标分类阶段,将提取出的特征送入分类器,如支持向量机(SVM)、多层感知器(MLP)等,完成目标的分类和识别。
基于深度学习的雷达动态目标识别技术在军事、安防、智能交通等领域有广泛的应用。例如,在军事领域,可以利用雷达技术对敌方车辆、人员等动态目标进行识别和追踪,为军事作战提供支持;在智能交通领域,可以利用雷达技术对行人、车辆等动态目标进行检测和跟踪,以提高交通管理的智能化水平和安全性。
总之,基于深度学习的雷达动态目标识别技术是雷达目标识别研究中的重要分支,具有较高的准确性和实时性,对于实现雷达目标自动识别和智能化控制具有重要的意义。下面我们举个利用毫米波雷达实现人类活动识别的例子m-Activity。m-Activity是一种使用商用毫米波雷达的实时人类活动识别系统,包含三个核心模块:
1、m-Activity的数据采集模块
该模块收集带有特征信息的点云,并将其馈送到下一个模块中。毫米波雷达反射FMCW(调频连续波)信号,并将回波处理成中频基带(IF)信号,从中求解出距离 d 、速度 v 和到达角 \theta (AoA)信息。因此,我们可以获取原始收集的数据,包括每个时间帧上的目标坐标值 (x,y,z) 和速度 v 。用滑动窗口的形式,累积多个慢时间帧的数据,作为图像给到后续模块做处理。
2、m-Activity的数据预处理模块
该模块将毫米波雷达的目标点云数据与背景环境和多径效应引起的杂波、噪声分离开,以降低其对后端分类识别器的性能影响,然后将点云体素化以供下一个模块实现分类。所谓的”体素化“过程,即是对杂波、噪声抑制后目标所在兴趣区域的框选、合成立方、编码。具体如下图所示:
3、m-Activity的活动识别模块
该模块自动识别、捕获人体活动的点云特征,然后输出标签,并在交互式系统上给出响应。在本模块中,所提出的轻量级HARNet首先学习不同活动背后的固有规则,然后在非常短的时间内推理并返回其预测值。m-Activity从每个滑动窗口观察值序列的上下文信息中给出当前活动的分类结果,只要推理时间不超过慢时间窗口的累积时间即可证明该方法具备实时系统部署潜力。方法架构如下所示:
简单来说,HARNet接收的是一个四维的数据,包括了三个空间维度和一个体素化点云的通道数维度。将这个斯威矩阵扔给具备时序数据特征提取能力的Time Distributed卷积层的ResNet,作为特征提取的Backbone。该层的Keras代码示例可以在官方手册上找到:【 TimeDistributed layer (keras.io) 】。然后利用双向循环门控单元网络(Bi-GRU)实现特征标注,最后用全连接层实现分类决策。标签数为 5 。具体来说,给到网络的慢时间滑动窗口大小为 60 帧。时间分布CNN(Time Distributed ResNet)利用具有 60 个通道的 7×7 卷积构建,并使用 3×3 的最大池化,激活函数选用ReLU。我们将这些Backbone输出的张量链接到一个Bi-GRU网络中,该子网络由两个堆叠的GRU层组成,大小为 2560 和 32 个隐藏单元。最后,我们使用具有 3840 个节点的全连接层及Softmax激活函数实现分类决策。总训练轮数为 100 ,初始学习率为 0.001 。作者在理论章节没有明确给出优化器的选择,建议复现选用Adam。
4、实验验证
雷达用的是德州仪器(TI)公司产品IWR-1443,频率范围 76-81~\mathrm{GHz} ,实际带宽 4~\mathrm{GHz} ,距离分辨率约为 0.047~\mathrm{m} ,多普勒分辨率约为 0.38 ~\mathrm{m/s} 。雷达采用 3 发 4 收的MIMO体制,参与者被要求进行 5 种不同的活动,即拳击,跳跃,跳跃,深蹲和步行。我们召集了 9 名参与者,每个活动均在 5 秒内完成并重复 2 次。我们总共收集了大约 30 分钟的数据,然后将它们划分为单独的训练和测试集。
所提方法的验证结果混淆矩阵如下:
对比基线模型”RadHAR“的验证混淆矩阵:
m-Activity的平均精度超过基线方法 4.6~\% 。各类活动的准确率均超过基线方法RadHAR,因此证明所提m-Activity是一种有效的且高性能的新方法。
另外作者还在不同的环境中对模型的识别效果进行对比:
越小的房间采集的数据存在越多的静态目标杂波、背景噪声,从而会大幅降低分类器的识别精度。从同一种活动的不同场景数据的验证准确率变化来看,m-Activity不仅具有比基线方法RadHAR更高的精度,还具备更好的噪声鲁棒性,这是模型具备实际系统部署潜力的另一个先决条件之一。
最后是模型的实时性能验证:
其实吧,严格意义上来说,只要推理时长小于慢时间采样窗口的长度,就可以认为该方法具备实时性。所以所提HARNet和RadHAR都是具备实用价值的,但从作者的实验结果来看,HARNet的推理速度超过RadHAR数十倍,足可见是一个更高效的优化模型。
八、学习及参考资料建议
做基于AI算法的雷达图像解译的小伙伴们在一个快乐的莺歌燕舞的早晨,接受了老师为大家精心挑选的课题,买了杯咖啡,同时在电脑上打开了 ∞ 篇论文,伸了伸拦腰,兴致勃勃地感觉自己当天就能造出航空母舰时,突然发现了一个棘手的问题:
我上哪去找那么多数据来给网络训练啊喂。让我现在马上攒一张图片出来都有难度。
无疑,在雷达、通信、信号处理相关的这些领域,数据集本身比方法精贵。除开那些拥有大量商业雷达的团队,绝大部分实验室的原理验证都需要自己手动搭建设备、调试系统参数、实现数据采集、数据预处理、构建数据集,再到后端考虑检测、识别等算法。前端的工作往往会更费时费力。因此雷达领域如果发表一篇开源数据集的文章,可能会比发表了数篇方法论的文章引用量、影响力还要大得多。(CV领域其实也是这样的,但是CV领域的方法前瞻性往往很强, 雷达领域的智能算法则往往挑选服务于解决特定的射频成像特征提取任务的尽量好用的模型,并没有很强的创新性,系统设计、如何获取数据和寻找新的特征才是我们的首要工作! )
笔者的博士课题是侧重后端算法研究的,雷达前端系统如硬件设计、数据采集、信号/数据预处理这些也会,但远远不如相关小方向的老师、学生同行们精通,所以应该不会在这几个专栏里总结如何搭实验样机。可能会在生活篇里用Plog方式记录远行北理重庆创新中心做实验的动手经历。
所以实测数据足够多、容易获取,或者很容易从熟人那里伸手要到的时候,应尽量针对实测数据开发我们的算法。
那么回到数据如何获取的问题上来,这里给大家推荐一本仿真教材:徐志明等编著,电子工业出版社出版,《雷达目标特性及MATLAB仿真》,封面大概长这样:
里面讲解了很多雷达目标的Matlab仿真方法。根据我们所需要的场景,微调背景、目标属性参数以及通过不同方式的慢时间上的采样,实现针对一个任务生成多组数据。再将这些数据进行切分,包括打标签(无监督就不需要啦)、生成训练集和验证集等。
利用仿真数据进行训练、再利用仿真或实测数据进行测试,是实测数据量不足时的一个可行方案。
如果仿真数据不能满足我们对复杂场景的特征提取的需求,一个最好的办法是需求高质量开源数据集。这些数据集可能会在一些数据库平台上公开、在Github论坛上能找到、或者是作者撰写文章告诉大家数据集内容及下载地址。一些比较经典的雷达领域的开源数据集:
- DRIVE: Digital Radar Imagery Verification Experiment。该数据集由美国国防部高级研究计划局(DARPA)提供,包含大量真实的目标雷达图像,包括车辆、行人、建筑物等。可用于雷达目标检测和识别算法的研究和测试;
- MSTAR: Moving and Stationary Target Acquisition and Recognition。该数据集由美国空军研究实验室提供,包含各种类型的雷达图像,如散射中心、目标姿态等。可用于雷达目标识别、分类等算法的研究和测试;
- SAR-Ship: Synthetic Aperture Radar Ship Dataset。该数据集由瑞典国防研究所提供,包含大量的合成孔径雷达(SAR)图像,用于船舶目标检测和识别算法的研究和测试;
- SAR-BCS: Synthetic Aperture Radar - Building, Construction and Ship。该数据集由加拿大国防部提供,包含大量的SAR图像,用于建筑物、船舶、车辆等目标的检测和识别算法的研究和测试;
- RadarATP: Radar Automatic Target Recognition Application Program。该数据集由美国海军研究实验室提供,包含多个雷达场景的图像数据,用于雷达目标检测、识别、跟踪等算法的研究和测试。
这些数据集为雷达目标检测、识别、分类等算法的研究和测试提供了标准的评估平台,有助于研究人员更好地评估和改进算法的性能和鲁棒性。
利用高质量开源数据进行训练、再利用该开源数据/自行实验重测的实测数据进行验证,是仿真不足以支撑所需分析的雷达特征复杂度时的一个可行方案。
此外,利用开源/从熟人那里要到的预训练模型进行迁移学习,也可以一定程度上解决问题。但对于做原理验证、实验室发文章的小伙伴们要谨慎该方法可能涉及的抄袭等法律问题!
如果这些方法都解决不了,那么就需要在后端算法上动脑筋了,简单来说,就是要研究基于”小样本学习“的雷达特征提取、检测、识别方法。这类智能算法专注于解决样本数据量较少、噪声干扰大等问题,因此小样本学习算法具有重要的应用价值。目前,基于雷达的小样本学习算法主要包括以下几类:
- 元学习(Meta-Learning): 通过训练模型来学习如何更快地适应新任务,从而实现小样本学习;
- 迁移学习(Transfer Learning): 通过在不同任务之间共享知识,从而使得模型在小样本数据下具有更好的泛化能力;
- 模型蒸馏(Model Distillation): 将一个复杂的模型蒸馏成一个简单的模型,从而实现小样本学习;
- 生成式对抗网络(GAN): 通过生成器和判别器之间的对抗学习,从少量样本数据中生成更多样本,从而实现小样本学习。
以上算法均可应用于雷达目标检测、识别等任务中,通过使用少量的样本数据训练模型,可以降低数据采集和标注的成本,提高算法的泛化能力和实用性。
利用小样本学习算法,从根源上避开数据量不足的问题,而是通过增强算法性能、实现更强的模型在少量/低质量数据上迁移的能力,进而实现目标任务。
Paper with Code网站是AI算法研究生必须知道的平台,【 The latest in Machine Learning | Papers With Code 】,这个平台收录了前沿算法文章的原文链接、代码链接、基线对比效果总结,是研究参考的利器。
关于深度学习雷达、通信图像解译中的参数反演、检测、识别问题,相关的中文著作很少,英文著作的参考价值不大(因为英文著作大多都是通过相关常见高水平论文发表团队合作分章节撰写的,不如直接去看其实验室官网的介绍)。因此,更多地还是需要读前沿论文,并从中借鉴灵感,为己所用。总的来说,在学术圈的绝大多数领域,“少”是“前沿”的代名词,这也证明了相关的突破性的研究仍需继续努力。