PAMI中心8项研究成果被计算机视觉顶级会议CVPR2023录用-厦门大学模式分析与机器智能研究中心

相关文章推荐

健壮的香烟 · ARM指令集详解_51CTO博客_arm指令集· 1 年前 ·

耍酷的企鹅 · pytorch中F.cross_entrop ...· 1 年前 ·

月球上的镜子 · VBA and Access_Erick ...· 1 年前 ·

坚强的牛肉面 · android使用HorizontalScr ...· 2 年前 ·

闯红灯的毛巾 · Linq ...· 2 年前 ·

时间：2023-04-16 点击：

2023 IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR 2023) 将于 2023 年 6 月 18 日至 22 日在加拿大温哥华市举行。 CVPR 是计算机视觉领域的顶级国际会议， CCF A 类会议。本届 CVPR 2023 共收到 9155 篇有效投稿，最终共有 2360 篇论文被录用， 25.78% 的接受率。本中心有 8 篇论文被接收。

论文 1 ： Long-Tailed Visual Recognition via Self-Heterogeneous Integration with Knowledge Excavation

作者： 金焱（厦门大学） 、李梦柯（深圳光明实验室）、卢杨* （通讯作者，厦门大学） 、张晓明（香港浸会大学）、王菡子 （厦门大学）

简介：本文的第一作者是信息学院计算机科学与技术系2021级硕士生金焱，通讯作者是信息学院计算机科学与技术系卢杨助理教授。目前深度长尾视觉识别的主要目的是在保证对多数类别影响最小的情况下尽可能提高少数类别的识别效果，以获得更加平衡的判别模型。该工作首先发现深度模型对于视觉长尾特征存在深度相关的偏好。基于此发现，该论文提出了一种基于多专家架构的自异构长尾学习方法。该方法首先对不同深度浅层特征与专家深层特征进行聚合，使得深度专家自发利用多样化深浅特征，随后通过动态知识迁移在特征学习阶段实现对困难负类的压制。实验结果表明，该方法在长尾视觉识别的4个基准数据集上都取得了目前最优的性能表现。

论文2： CIMI4D:A Large Multimodal Climbing Motion Dataset under Human-scene Interactions

作者 ：富振 奇（厦门大学），杨艳（杭州电子科技大学），涂晓彤 * （通讯作者，厦门大学），黄悦（厦门大学），丁兴号（厦门大学）， kai-Kuang Ma （南洋理工大学）。

简介：论文针对现有弱光照图像增强方法受限于单幅图像的有限信息以及手工先验的有效性和适用性的问题，提出使用弱光照图像对和自监督深度学习方法对弱光照图像进行 Retinex 分解。通过引入成对弱光照图像内在的反射率一致性约束，提出的方法能够极大地减少模型对于手工特征的依赖，进而提升模型的准确性和鲁棒性。

论文 3 ： Memory-friendly Scalable Super-resolution via Rewinding Lottery Ticket Hypothesis

作者 ：林锦（厦门大学），罗小同（厦门大学），洪铭（厦门大学），曲延云 * （通讯作者，厦门大学），谢源（华东师范大学），吴宗泽（深圳大学）

简介 ：本文的第一作者是信息学院计算机科学与技术系 2020 级硕士生林锦， 2020 级罗小同博士为共同一作，通讯作者是信息学院计算机科学与技术系曲延云教授。本文提出了一种内存友好的轻量化可伸缩超分方法（简称 MSSR ）来构建稀疏度可调的可伸缩超分模型。 MSSR 首次在图像恢复任务中引入彩票假说（ Lottery Ticket Hypothesis ， LTH ）用于构建可伸缩模型。并且， MSSR 可以针对不同的超分方法去构建相应的可伸缩超分模型，该模型可以根据不同的稀疏度自适应地适配到不同的设备当中，减少模型的重复再训练。

论文 4 ： Virtual Sparse Convolution for Multimodal 3D Object Detection

作者： 吴海（厦门大学）、温程璐 * （通讯作者，厦门大学） , Shaoshuai Shi （ Max Planck Institute for Informatics ）、 Xin Li （ Texas A & M University ）、王程（厦门大学）

简介： 本文针对基于虚拟点的三维目标检测中噪声大和计算冗余度高的问题，设计了一个新的虚拟稀疏卷积（ VirConv ），通过冗余体素抛弃及将稀疏体素映射回图像空间抑制深度估计噪声，显著提高了多模态三维目标检测的效率和精度。以此为基础，提出 VirConv-L ， VirConv-T 和 VirConv-S 分别用于高效率、高精度、半监督三维目标检测。在竞争激烈的 KITTI 自动驾驶数据集二维、三维、 BEV 汽车检测榜单上，方法均排名第一（ 2022/11 月 - 至今）。

论文 5 ：SGLoc: Scene Geometry Encoding for Outdoor LiDAR Localization

作者： 李文（厦门大学）、于尚书（厦门大学）、王程*（通讯作者，厦门大学）、胡国胜（Oosto）、沈思淇（厦门大学）、温程璐（厦门大学）

简介： 激光雷达三维视觉定位是城市全空间（室内外）、全天候、全天时可用的稳健导航解决方案。无地图视觉定位技术使用神经网络来隐式的替代定位任务中的传统地图。无地图视觉定位仅需当前场景数据，避免了地图的存储和传输。SGLoc将激光雷达视觉定位问题解耦为点云对应点回归和位姿估计两个子问题，强化了隐式神经网络对场景中三维几何的学习能力，显著提升定位精度。在10公里级城市场景验证结果表明，SGLoc是首个能够在达到亚米级定位精度的大范围无地图视觉定位模型。

论文6 ：SLOPER4D: A Scene-Aware Dataset for Global 4D Human PoseEstimation in Urban Environments

作者： 戴雨笛（厦门大学）、林逸泰（厦门大学）、林希平（厦门大学）、温程璐*（通讯作者，厦门大学）、许岚（上海科技大学）、易鸿伟（Max Planck Institute for Intelligent Systems, Tübingen, Germany）、沈思淇（厦门大学）、马月昕（上海科技大学）、王程（厦门大学）

简介： 本文提出了用于全局4D人体姿态估计的大型城市场景感知数据集SLOPER4D。基于自制的激光雷达和相机头戴式设备，采集了12名对象在10个城市场景中的动作序列，并提供了2D关键点、3D姿态参数和全局平移的逐帧标注，以及重建的场景点云。SLOPER4D包括15个运动序列（轨迹长度均大于200米），覆盖面积超过2千平方米；包含100K LiDAR帧、300K视频帧和500K的IMU运动帧。基于建图和动作捕捉联合优化方法，数据集还提供了准确的全局3D人体姿态标注。该数据集将有效促进大规模城市场景下全局人体姿态估计相关工作的研究。

论文7： CIMI4D:A Large Multimodal Climbing Motion Dataset under Human-scene Interactions

作者：颜明（厦门大学）、王新（厦门大学）、戴雨笛（厦门大学）、沈思淇*（通讯作者，厦门大学）、温程璐（厦门大学）, 许岚（上海科技大学）、马月昕（上海科技大学）、王程（厦门大学）

简介：本文提出了一个大型攀岩运动数据集CIMI4D，包含姿态惯性测量动作序列、点云序列、RGB 视频、点云场景等来自12位攀岩爱好者的攀岩运动数据。我们通过一个联合优化过程对不同模态的数据进行了时间同步、优化校准，并通过人工标注提高了数据的质量。本文在人体姿态估计(有/无场景约束)、姿态预测和姿态生成等任务对现有方法进行测试，由于现有方法主要关注的是在地面上行走的人体姿态，在以CIMI4D为代表的攀爬动作上表现欠佳，CIMI4D对现有方法带来较大的挑战。相关数据集，代码将于近期发布。

论文 8 ： Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identification

作者： 张玉康（厦门大学） 、王菡子* （通讯作者，厦门大学）

简介： 本文的第一作者是信息学院计算机科学与技术系2020级博士生张玉康，通讯作者是信息学院计算机科学与技术系王菡子教授。对于可见光与近红外跨模态行人重识别任务，主要挑战是可见光和红外图像之间的模态差异。然而，训练样本通常是有限的，而模态差异太大，这导致现有的方法无法有效地挖掘跨模态的细粒度线索。为了解决这一问题，本文提出了一种新的增强网络，称为多样性的特征扩展网络。该算法可以有效地生成不同的特征来学习多样性的特征表示，并减少可见光和红外图像之间的模态差异。此外，本文提供了一个低光照的跨模态行人重识别数据集，该数据集包含46,767个由9台可见光和近红外相机捕获的1,064个行人的图像。在SYSU-MM01、RegDB和LLCM数据集上进行的大量实验表明，所提出的算法优于其他现有的方法。