应用于激流检测和定位的可解释深度学习-阿里云开发者社区

相关文章推荐

冷静的马克杯 · 中心实验室-公共服务平台-首都医科大学· 2 月前 ·

坐怀不乱的小笼包 · 深入了解LightGBM：模型解释与可解释性 ...· 1 年前 ·

不爱学习的芒果 · 如何使用Vue获取div的高度 - 问答 ...· 2 年前 ·

卖萌的瀑布 · 24 小时 Jack Bauer ...· 2 年前 ·

被表白的针织衫 · 要实现一个Web IDE ...· 2 年前 ·

离岸流是一种强大的局部水流，沿着海岸移动并远离海岸。最近的研究表明，离岸流造成的溺水仍然是海滩安全的主要威胁。在决定指定巡逻区域的位置时，识别离岸流对于救生员来说很重要。当救生员不在巡逻时，公众在决定去哪里游泳时也需要信息。

在这里，新西兰国立水与大气研究所 (NIWA)的研究人员提出了一种人工智能 (AI) 算法，该算法既可以识别图像/视频中是否存在裂流，也可以定位裂流发生的位置。

虽然 AI 在裂流电流检测和定位方面取得了一些重大进展，但缺乏研究确保 AI 算法可以很好地推广到各种沿海环境和海洋条件。该研究使用了一种可解释的 AI 方法，即梯度加权类激活图 (Grad-CAM)，这是一种用于非晶裂口电流检测的新方法。训练数据/图像多种多样，包含各种环境设置中的裂流，确保模型泛化。一个开放获取的离岸流空中目录被用于模型训练。

在这里，还通过应用各种随机图像变换（例如，透视、旋转变换和加性噪声）来增强航拍图像，这通过泛化显著提高了模型性能。为了考虑到不同的环境设置，一个包含雾、阴影和雨的综合生成的训练集也被添加到 rip 电流图像中，从而将训练数据集增加了大约 10 倍。可解释的 AI 显著提高了无界裂流检测的准确性，当对来自倾斜角度的冲浪相机的独立视频进行验证时，它可以在大约 89% 的时间内正确分类和定位裂流。新颖性还在于无需预定义边界框即可捕获非晶裂口电流结构的某些形状特征的能力，因此可以使用无人机等远程技术。

该研究以「 Interpretable Deep Learning Applied to Rip Current Detection and Localization 」为题，于 2022 年 11 月 18 日发布在《 Remote Sensing 》。

激流被定义为沿岸和远离海岸移动并穿过破碎带的强大的局部水流。由于质量和动量守恒，裂口电流形成。破浪将地表水推向海岸线。由于重力的作用，这些多余的水到达海岸线并流回开阔水域。水通过阻力最小的路线移动，因此，通常会在优先位置形成离岸流。这些包括沙洲中的局部起伏或断裂或没有或较低碎波的区域。离岸流的形成并不局限于海洋，当有足够的波浪能量时，也可以在大型湖泊中形成。有多种因素可以优先发展离岸流。这些包括海滩形态、波高、风向和潮汐。因此，一些海岸线比其他海岸线更容易受到离岸流的影响。由于预测形态的复杂性，大量研究采用概率预测方法。

据报道，离岸流对世界各地的海滩游客来说是最危险的安全风险，在澳大利亚，离岸流造成的死亡人数超过洪水、飓风和龙卷风的总和。根据季节和地点的不同，海滩给海滩游客带来了不同程度的风险。例如，大浪、强风和显着潮汐变化的裸露海滩通常会带来更大的风险。重要的研究工作也已投入到与离岸电流相关的危害的交流中。有研究强调了救生员在海滩上的重要性，也强调了直接调查和采访当前幸存者以获得对事件的人类行为方面的宝贵见解的重要性。

虽然裂流是一种众所周知的海洋现象，但许多海滩游客不知道如何可靠地识别和定位裂流。这也适用于救生员，由于他们通常从高度倾斜的角度观察海洋，他们同样可能难以识别某些离岸流，尤其是当海岸形态复杂或海洋气象条件迅速变化时。尽管有警告标志和教育活动，这个沿海过程仍然对海滩安全构成严重威胁，一些国家报告死亡人数增加。因此，用于有效识别和预测这一动态过程的新技术的研究和开发正在进行中。这些技术，旨在将海滩游客的安全从被动转变为预防，并且需要有效和明确的警告/通知传播。目的是准确预测和/或识别激流，以告知公众发生激流的位置，以便他们做出最安全的游泳地点的明智决定。

受欢迎的海滩通常有救生员巡逻，一些海滩还配备了摄像头。这些摄像机的功能可以用于安全、提供实时天气和海滩状况信息，或者在某些情况下用于监控沿海过程。30多年来，海岸图像一直被用于检测海浪特征、海滩和近岸形态，美国、英国、荷兰和澳大利亚以及新西兰的卡姆时代（Cam Era）等综合和半自动化系统已经开发完成。其他系统包括 HORUS、CoastalCOMS、KOSTASYSTEM、COSMOS、SIRENA、Beachkeeper 和 ULISES。

用于闪存撕裂警告的 Lifeguarding Operational Camera Kiosk System (LOCKS) 是另一个例子。虽然许多海滩使用单个或多个摄像头网络，但很少（如果有的话）海滩具有实时处理功能来识别裂缝等特征。因此，大多数离岸电流检测都是由救生员和海滩游客手动完成的。因此，任何激流预报或实时识别工具都可以帮助救生员和海滩游客进行与激流相关的救援和溺水。

虽然声学多普勒电流剖面仪 (ADCP)、浮动漂移器和染料等原位测量已用于研究和量化裂口电流，但这些既费时又昂贵，并且必须在发生裂口的地方使用。与图像处理技术相比，这使得它们在识别裂口方面用处不大，图像处理技术可以以低成本和低工作量观察大面积区域。

使用 AI 和其他图像和信号处理技术来分类和定位离岸电流也得到了显著的应用，例如，波浪破碎和海岸形态。图像和其他信号处理技术通常使用时间曝光图像，或简单地通过对一系列帧进行平均。该技术适用于存在波浪不突破裂口电流位置并因此在视觉上更暗的裂口电流。在这里，具有一致碎波的地方会呈现模糊的白色，而裂口的位置会显得更暗。

这些技术有几个限制。首先，由于对至少 10 分钟的时间进行平均，它无法检测和捕获非平稳的、快速变化的离岸电流，而这在冲浪救生的背景下是必需的。其次，自动推导离岸流的阈值存在重大挑战，离岸流的阈值随基础测深的变化而变化。此外，通过这种方法检测裂口电流没有一个万能的阈值（也由于环境光条件）。捕获单个图像帧之间运动的光流方法是另一种有前途的技术。该技术克服了通过时间平均检测快速变化的裂口电流的问题。然而，要使这种方法自动化也具有挑战性，因为该算法需要量化波浪作用、可能的离岸流和背景运动之间的差异。最近的研究表明，这些方法对海滩测深很敏感，因此裂流电流检测的阈值因位置而异。

这些方法常常导致许多误报。另外，由于计算限制，这些技术难以实时部署。然而，有团队确实提出了最近的研究，该研究利用固定的摄像机角度在冲浪区利用二维波平均电流（光流）。后来也有进一步发展，并且两项研究都可以捕获非晶裂口电流结构。还有团队使用图像增强策略来识别不同的海滩状态，其中 rip 通道的存在与特定类的存在相关联。

因此，启用更多与海滩相关的相关信息对于物理过程识别很有用。许多传统图像处理技术的解决方案是深度学习技术，例如卷积神经网络 (CNN)。虽然深度学习模型的训练速度可能相对较慢，但它们在实时环境中的部署和应用速度很快，这对于无人机技术和当前研究的部分设想未来计划也很有前景。

图示：来自 Google Earth 的示例航拍图像，用于训练当前基于 AI 的模型。（来源：论文）

在最新的研究中，新西兰国立水与大气研究所 (NIWA)的研究人员研究了可解释人工智能的有用性，特别是在模型改进的背景下。研究人与通过 CNN 等深度学习技术进行监督学习的一些优势，以及它们从经验中学习和学习复杂的依赖关系和特征以导出一组模型权重/参数以产生最大准确度的能力。CNN 还需要较少的人工输入，这优于需要定义阈值的传统图像处理技术。

图示：应用迁移学习的一般应用。（来源：论文）

由于 CNN 等许多 AI 算法具有许多可调参数，因此它们需要大量的训练数据。训练数据缺乏多样性也会导致模型泛化能力差，并且在裂流检测的背景下，模型需要来自代表各种不同环境设置的海滩的训练数据。虽然训练 CNN 所需的数据量可能非常大（实际上可能无法获得），但有许多方法可以克服这一点并减少过度拟合。例如，数据增强通过一系列平移（例如旋转和透视变换）来操纵每个单独的图像，从而增加了训练数据量。此外，迁移学习已成为一种广泛使用的技术，用于在小型数据集上训练基于 AI 的模型，其中基于 AI 的模型首先在非常大的数据集上进行训练，然后在较小的数据集上进行微调。

典型的 AI 研究问题侧重于检测具有明确边界的对象（例如，人、狗、汽车等）。要训练基于 AI 的模型以对每个图像中对象的位置进行分类和定位，需要在每个对象周围定义一个边界框。

一些研究已经成功地使用对象分类算法来定位和预测裂流的发生。有其他团队使用 CNN 预测裂流的发生，也有团队使用更快的 R-CNN（基于区域的 CNN）来定位（预测边界框）和预测裂流的发生，实现了超过 98% 的测试数据集的准确性。裂流检测的另一个挑战是它们不一定在每个视频帧中观察到，而是可以在一系列图像上观察到裂流。由于视频序列的训练既耗时又需要更多的训练数据（例如，独特的视频），现有方法已经在裂流的静态图像上使用了 CNN。为了避免未观察到裂口电流的情况，研究人与使用了一种帧聚合技术，其中预测在一个时间间隔内聚合。他们指出，当预测在一段时间内汇总时，假阳性/阴性率会降低。

虽然这些方法在裂口电流检测和定位方面取得了早期成功，但在现实环境中实施基于 AI 的算法存在几个问题，该研究旨在解决这些问题：

（1）没有考虑对裂口电流的非晶结构进行分类，

（2）人工智能模型的可解释性，以了解模型是否正在学习离岸流的正确特征以及模型中是否存在缺陷，

（3）增强 AI 模型泛化能力的替代数据增强方法，

（4）建立对基于 AI 的模型预测的信任。

新方法的一个主要优点是它们不依赖于边界框。这些通常是预定义的，因此只能从其中包含的信息中学习。在这里，该模型可以捕获无定形结构（裂流形状）的一些特征，因为它学习了各种没有边界框的可能的海岸特征。这使得这项技术能够与无人机一起使用（沿轨道改变摄像机视图），而不仅仅是固定角度摄像机。

图示：使用可解释的 AI 与累积断裂部分进行撕裂检测的比较，中间面板显示视频的静止帧。（来源：论文）

新方法引入了一种可解释的 AI 方法，即梯度加权类激活图 (Grad-CAM)，以解释经过训练的基于 AI 的模型的预测。Grad-CAM 能够揭示典型的黑盒 AI，并使模型能够了解输入图像中的哪些区域/像素影响了基于 AI 的模型的预测。反过来，这也使得能够预测分类裂口电流的非晶边界。目前的方法并不像 Faster R-CNN 那样限制 AI 模型学习特定于放置的边界框的特征，并且你只看一次 (YOLO) 对象检测方法，其中算法被迫学习非常具体的监督特征，而可能还有其他相关的特征。新方法还在识别独立于传统准确性指标的主观模型缺陷的背景下引入了可解释的 AI。这些方法可以帮助提供更好的模型开发和增强策略，以改进基于 AI 的模型的泛化。基于人工智能的复杂模型的决策无法被很好地理解，因此很难被信任，尤其是在涉及安全和人类健康的冲浪救生环境中。因此，对于真实世界的应用，显然需要可靠、灵活（无边界框）和高性能的基于 AI 的撕裂检测模型。

论文链接： https://www.mdpi.com/2072-4292/14/23/6048

基于深度学习的目标姿态检测方法_kaic

伴随着人工智能技术的发展，物体探测和辨识技术已被广泛用于各个领域，而作为物体探测的一个重要分支，物体姿态探测在机器人控制、自动驾驶等领域中扮演着重要角色。本文的目的在于探究基于单目相机的目标三维姿态检测方法，以实现对目标物体的快速、精确的三维姿态检测和识别，提高目标检测的准确率和效率，并为人工智能技术的发展提供新的思路和方法。本文系统地介绍了基于单目相机的三维目标检测技术，并详细讨论了基于深度学习的单阶段目标检测算法，即YOLOv5算法。具体来说，本文采用YOLOv5算法搭建神经网络模型，在KITTI数据集构建训练集后对模型进行训练，再采集部分环境照片以及KITTI数据的部分照片构建测试集.

深度学习应用篇-计算机视觉-OCR光学字符识别[7]：OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链（2）

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链（1）

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

深度学习实战（四）：行人跟踪与摔倒检测报警

本项目的目的是为了给大家提供跟多的实战思路，抛砖引玉为大家提供一个案例，也希望读者可以根据该方法实现更多的思想与想法，也希望读者可以改进该项目种提到的方法，比如改进其中的行人检测器、跟踪方法、行为识别算法等等。