0. 使用深度和语义信息生成物体的点云,其中深度和语义信息由现成的方法提供

1. 对物体点云分割进行下采样(Farthest Point Sampling)

2. 以下采样的点云和分类信为输入,两个 Basenet 神经网络分别回归物体的旋转和平移。物体的平移由三维欧几里德坐标系表示;物体的旋转由围绕三个坐标轴旋转的角度(即轴角 axis-angle)表示。

3. 最后应用迭代最近点(ICP)算法对目标位姿进行微调。

如Table 1所示,仅使用深度信息,本文提出的方法在 YCB-Video 数据集上得到了比 PoseCNN (PC)和 DenseFusion (DF)这些基于色彩信息的方法更好的性能。这里 AD 表示一系列评估点的平均距离,ADS 表示对称的平均距离。

定性分析结果和与 PoseCNN (PC)、 DenseFusion (DF)的对比:

Abstract

This paper addresses the task of estimating the 6 degrees of freedom pose of a known 3D object from depth information represented by a point cloud. Deep features learned by convolutional neural networks from color information have been the dominant features to be used for inferring object poses, while depth information receives much less attention. However, depth information contains rich geometric information of the object shape, which is important for inferring the object pose. We use depth information represented by point clouds as the input to both deep networks and geometry-based pose refinement and use separate networks for rotation and translation regression. We argue that the axis-angle representation is a suitable rotation representation for deep learning, and use a geodesic loss function for rotation regression. Ablation studies show that these design choices outperform alternatives such as the quaternion representation and L2 loss, or regressing translation and rotation with the same network. Our simple yet effective approach clearly outperforms state-of-the-art methods on the YCB-video dataset.

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

相比色彩信息, 深度信息更易于进行物体的位姿估计;提出了第一个直接使用无序点集作为输入的位姿估计深度学习框架;提出的方法在 YCB-video 数据集上超越了最新方法;旋转表示、模型设计、损失函数等的模型简化实验。旋转表示、模型设计、损失函数等的模型简化实验。方法概述预测步骤:0. 使用深度和语义信息生成物体的点云,其中深度和语义信息由现成的方法提供1. 对物体点云分割进行下采样(Farthest...
最近看了几篇 6D 姿态 估计 的文章,对他们做个分类。 6D 姿态 估计 就是 估计 出物体相对于相机的姿态。我把他们分成了 类:1、vote方式 2、latent space方式 1、vote方式 1.1 PoseCNN: A Convolut ion al Neural Network for 6D Object Pose Estimat ion in Cluttered Scenes
YCB-VIDEO DATASET 提供物体姿势和分割真值标记以物体为中心的数据集通常因为是人工标注的,所以数据量很小。例如常用的LINEMOD数据集提供大约1000图像的手工标记为数据集中的15个对象。虽然这样的数据集对于评估基于模型的姿态 估计 技术很有用, 它比用于训练最先进的深度神经网络的典型数据集小了好几个数量级。解决这个问题的一个办法是用合成图像来增加数据。然而,必须注意确保性能在真实场景和渲染场景之间的通用性。 A. 6D 位姿 标记 为了避免手动注释所有的视频帧,我们只在第一帧中手动指定物体的姿势
https://zhuanlan.zhihu.com/p/92032320 论文:Deep Learning in Medical Image Registrat ion : A Survey 阅读中主要关注点:配准的各个流派大致的思路,比较有意思的想法,刚性配准的网络架构与 目标 函数 一、研究情况梗概