关注公众号,发现CV技术之美

自监督学习近一年来可谓是计算机视觉的大热门,今天向大家分享一篇来自 CVPR 2023 的论文 『Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation』 ,介绍一个轻量高效的自监督深度估计框架Lite-Mono。

  • 作者:Ning Zhang, Francesco Nex, George Vosselman, Norman Kerle

  • 单位:University of Twente

  • 收录:CVPR 2023

  • 论文:https://arxiv.org/abs/2211.13202

  • 代码:https://github.com/noahzn/Lite-Mono

自监督深度估计在训练时不需要ground truth标签,在近些年引起了学者们的关注。许多已有模型的准确率受益于使用大型的backbones骨干网络,但是代价是模型也变得很大。

本篇论文结合CNNs和Transformers的优点设计了一个轻量级的模型Lite-Mono, 该模型主要包含两个模块: CDC连续空洞卷积(Consecutive Dilated Convolutions)模块 ,用于提取增强的多尺度局部特征;以及 LGFI局部-全局特征交互(Local-Global Features Interaction)模块 ,用于编码长距离的全局特征。

实验显示Lite-Mono在KITTI数据集上的准确率大大超过了Monodepth2,但参数量少了约80%。该模型可以被部署在边缘计算设备上,如Jetson Xavier。

图1. Lite-Mono模型很小,但是能生成更准确的深度图。

1. 提出了一个新的轻量级的自监督深度估计网络Lite-Mono。该模型在模型尺寸以及FLOPs的有效性得到了验证。

2. 所提出的模型在KITTI数据集上和其他一些较大的模型进行了比较,并以最少的参数量取得了有竞争力的准确度。模型的泛化能力也在Make3D数据集上得到了验证。此外,本文还讨论了不同设计选择的有效性。

3. 模型的运行速度在NVIDIA TITAN Xp显卡以及Jetson Xavier平台上进行了测试,取得了模型复杂度和运行速度间的良好平衡。

Lite-Mono 框架介绍

图2显示了Lite-Mono的整体框架。DepthNet深度网络是一个编码器解码器结构用于估计深度,PoseNet姿态网络用来估计相邻单目帧的相机运动。DepthNet由4个阶段组成,使用CDC模块和LGFI模块提取丰富的层级特征。这两个模块的详细介绍请参见图3。

d0099db9bf315bdc64e54fb7851dd787.png 图2:Lite-Mono框架。

3.1 设计动机和选择

增强的局部特征:使用较浅的网络可以有效减小模型尺寸,但是随之带来的问题就是:模型的感受野非常小。受空洞卷积的启发,本文使用堆叠的CDC连续空洞卷积(Consecutive Dilated Convolutions)模块使网络在不引入额外可训练参数的前提下,提升网络的感受野。

低计算量的全局特征:增强的局部特征不足以学习输入的全局表示,因此本文借助Transformers来建模长距离信息。最初的Transformer中的多头自注意力模块的计算复杂度和特征维度呈线性关系,难以用它来设计轻量级的模型。本文的LGFI模块采用交叉协方差在特征的通道维度计算注意力,因此计算的内存复杂度和时间复杂度均降低了。

3.2 DepthNet深度网络

编码器:Lite-Mono 在4个阶段聚集多尺度特征。当输入图像的尺寸是H×W×3时,首先经过卷积主干,并使用一个3×3卷积来降采样。接着使用2个stride为1的3×3卷积来提取图像特征,特征图尺寸为H/2 × W/2 × C1。在第2阶段,特征和池化的3通道输入图像串联起来以减少空间信息的损失,并使用一个stride为2的3×3卷积下采样,得到特征图尺寸为H/4 × W/4 × C2。然后特征经过堆叠的CDC模块和LGFI模块学习丰富的特征表示。第二和第三阶段的降采样阶段同时串联来自之上一阶段的降采样后的特征。这样的设计和ResNet的残差连接类似,可以使模型提升对跨阶段信息的利用。类似地,特征图经过第3阶段和第4阶段,并分别得到尺寸为H/8× W/8× C3和H/16 × W/16 × C4的特征图。

连续空洞卷积(CDC):该模块利用空洞卷积提取多尺度局部特征。不用于一些论文中使用并联的空洞卷积层,本文在同一阶段使用连续多个空洞卷积层来提取丰富的多尺度信息。

图3:本文所提出的CDC模块和LGFI模块。在深度编码器的每一阶段,连续使用N个具有不同扩张率的CDC模块。

局部-全局特征交互(LGFI):给定一个输入特征图X,尺寸为H×W×C, 首先将它线性地投影到相同维度的Q=XWq, K=XWk, V=XWv,然后计算交叉协方差注意力来增强输入特征X:

根据设置不同的特征图通道数、CDC模块数量以及扩张率,本文设置了深度编码器的四种变体,如下表所示:

表1:本文设置的4种结构变体。[3×3, C] × N表示一个CDC模块使用3×3卷积输出特征图的通道为C, 并重复N次。

解码器:本文使用的深度解码器结构简单,如图2所示,包含使用双线性上采样层恢复特征图的尺寸,和使用卷积层串联来自编码器的特征。每个上采样块后跟一个预测头,分别输出原图尺寸1倍,1/2倍,以及1/4倍的逆深度图。

3.3 姿态估计网络

采用[15, 46]中同样的姿态估计网络,编码器部分是一个预训练过的ResNet18。

3.4 自监督训练

和Monodepth2一样,自监督训练的目标是最小化目标图像It以及其对应的重建的图像之间的L1损失。此处也结合了SSIM损失。

同时使用边缘感知的平滑损失:

最终损失函数分别在3个尺度的逆深度图上计算得到:

4.1 KITTI数据集上的结果

如表2所示。

表2:Lite-Mono和其他一些方法在KITTI数据集Eigen split上得比较。除非另有说明,所有输入图像的尺寸都是640×192。“M”:单目KITTI数据;“M+Se”:单目数据+语义分割;“M*”:输入尺寸为1024×320;“M†”:不使用经过ImageNet预训练的模型。

4.2 Make3D数据集上的结果

如图4所示,本文提出的Lite-Mono可以感知到不同尺寸的物体。

4.3 模型复杂度和速度实验

如表3所示,Lite-Mono模型在Jetson Xavier上的速度也比较快。对于各模型在不同batch size设定下的速度,可访问作者GitHub。

表3:该表中的结果由batch size=16得出。其他batch size下的结果请参阅项目主页。

在该项目的GitHub代码库里看到有另一个团队对该算法的鲁棒性进行了测试,超过了以往的方法,且模型最小。

欢迎加入「深度估计 交流群👇备注: MDE

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达本文转载自:集智书童MobileDets: Searching for Object Detection Archite... 关注公众号,发现CV技术之美CVPR 2023 作为 计算机视觉 领域的顶级会议之一,每年都吸引了众多学者们的关注。CVPR 2023论文分类汇总项目即为了帮助大家更好的追踪顶会CV2023论文。项目链接:https://github.com/52CV/CVPR-2023-Papers本项目旨在为 计算机视觉 领域的研究者们提供一个按照研究方向分类的CVPR 2023论文汇总,分类包括但不限于目标检测、姿... 作者|派派星 编辑| CVHub点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【 深度 估计 】技术交流群后台回复【 深度 估计 综述】获取单目、双目 深度 估计 等近5年内所有综述!Title: Lite - Mono : A Lightweight CNN and Transformer Architecture for Self-Supervised Mono cul... •提出适用于多尺度人体骨骼特征提取的Graph Hourglass模块,包括考虑人体骨骼结构的新型池化和解池操作——骨骼池化和骨骼Unpool(反池化) •其次,我们引入了图堆叠沙漏网络(Graph... 1, TITLE:Probing Image-Language Transformers for Verb Understanding AUTHORS: Lisa Anne Hendricks ; Aida Nematzadeh CATEGORY: ... 整理:AI算法与图像处理 CVPR2023 论文和代码整理:https://github.com/DWCTOD/ CVPR2023 -Papers-with-Code-Demo欢迎关注公众号 AI算法与图像处理,获取更多干货:大家好,最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分类,方便不同方向的小伙伴挑选自己感兴趣的论文哈大家好,目前给每天的论文汇总接入chatGPT帮忙总结,目前在... 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达作者丨图灵智库来源丨泡泡机器人SLAM标题: HR-Depth:High Resolution Self-Supervised Mo... 点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【 计算机视觉 】微信技术交流群转载自:GiantPandaCVAlexey Bochkovskiy 刚刚宣布 YOLOv7 收录 CVPR 2023!时隔 6 年,YOLOv 系列再登顶会 CVPR!(最近的是YOLOv2 CVPR 2017,后面的YOLOv3没有投稿,YOLOv4没有收录,YOLOv5没有论文,... neurips2020 Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies. neurips2020 Labelling unlabelled videos from scratch with multi-modal self-supervision. neurips2020 A Contour Stochastic Gradient ....