相关文章推荐

泡泡点云时空,带你精读点云领域顶级会议文章

标题:Canonical Surface Mapping via Geometric Cycle Consistency

作者:Nilesh Kulkarni, Abhinav Gupta, Shubham Tulsiani

来源:ICCV 2019

编译:王宇杰

审核:郑森华

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

我们探索了建立物体表面与标准模板之间的映射关系(CSM)的任务。具体而言,给定图像,我们学习将对象上的像素映射到该类别的抽象3D模型上的对应位置。但是我们如何学习这样的映射关系呢?有监督的方法需要大量的手工标签,这些标签不能超出一些精选的类别。我们的主要观点是CSM任务(像素到3D),当与3D投影(3D到像素)结合时,可以实现一个闭环。因此,我们可以利用几何上的循环一致性来建模损失函数,从而允许我们可以舍弃原先稠密的人为监督的方法。我们的方法仅利用前景掩模标签来训练不同类别的CSM模型,而无需稀疏或密集的关键点数据标注。我们展示了以上方法还可以用于推断两个图像之间的密集对应关系,并将我们的方法与其他有监督/无监督等方法的结果进行比较。

1、提出了一种学习物体表面与标准模板之间的映射关系的方法 。

2、由于使用了标准模板,因此可以推断同一类语义标签下不同图像之间的密集对应 。

3、由于使用了几何上的循环一致性,因此不需要人工标注的数据作为监督信号。

表面的参数化表示

我们学习映射的模板形状实际上是3D空间中的二维表面。因此,模板形状的表面S可以通过两个参数u∈(0,1)和v∈(0,1)(或等效地是2D矢量u)来参数化。该参数化意味着我们可以获得映射φ,使得φ(u)表示表面S上的唯一点。

虽然有几种方法可以构建这样的映射,一种直观的方法是考虑使用u来表示极角以参数化空心球体表面上的点,这可以通过向内映射来对应表面S。给定具有表面S的模板形状,我们使用该方法来获得参数化结果φ。我们在下图中展示了一些可视化,用于从两个类别的2D方形图像到模板3D形状的映射。

CSM的数学定义

对于图像I的CSM映射关系C是从像素到模板3D形状的映射。给定像素p≡(x,y),C [p]代表表面上的对应点。由于表面具有二维参数化,C等效地是与I具有相同尺寸的图像,在每个像素处具有双通道值。CNN网络fθ学习给定RGB输入图像,输出为每个像素输出2维向量。

相机投影关系的数学定义

我们将相机建模为弱透视(缩放的正交)变换。对于每张图像I,相机模型的参数化表示为π,其中尺度信息s∈R,平移t∈R2和旋转r是三个欧拉角。我们用π(P)表示使用相机参数π≡(s,t,r)将点P投影到图像坐标系。

算法网络结构

我们的目标是学习每个像素预测器fθ,它输出给定输入图像I的规范表面映射。我们提出了一种方法,仅使用前景掩模部分。为简单起见,首先假设每个训练图像已知摄像机参数,学习此CSM预测器,并在后面放宽此要求。

几何的循环一致性约束

我们的方法是从几何性质中推导出学习的信号。特别地,由于类别实例下面的3D形状通常是相似的(类似于模板形状),因此在3D表面上的逐像素映射应该在重投影下(近似)保持几何的循环一致性,并以此建立约束(见下图) 。

给定具有相关联的相机π和前景掩模的图像If, 当一个类别中的实例与模板形状相似时,给定对象前景上的像素p,我们可以预期其在3D表面上的对应点φ(C [p])到(近似)投射回来的p̄。数学定义如下,它惩罚了所有前景像素几何上的循环不一致性。

加入可视性约束

通过将像素投影到3D,再投射到相同位置的建模方式是可取的,但却不能保证一定正确。作为一个例证,对于前面的鸟类,喙和尾巴都在相似的位置投射,但只有前者可见。这意味着在π表面上自我遮挡的点也可以导致Lcyc最小化。我们的解决方案是阻止fθ预测映射到相机π下的自遮挡区域的u值。

3D形状上的点在相机π下自遮挡,其相机帧中的z坐标大于相应像素处的渲染深度。我们使用神经网格渲染器(NMR)在相机π下渲染模板形状S的深度图Dπ,并通过检查其对应点的z坐标(例如zp)来定义每个像素p的可见度损失函数,当在π下投影时,3D形状上的φ(C [p])具有更大的z坐标值。

我们使用UNet 样式架构将fθ实现为网络。该网络将尺寸为256×256的图像作为输入,并输出表示球体表面上的点的每个像素的单位矢量,然后将其转换为类似于纬度和经度的(u,v)坐标。训练网络以最小化几何循环一致性和可见性损失函数为目标:

处理未知相机位姿的情况

我们已经提出了我们的方法来学习规范的表面映射预测器fθ,假设每个训练图像的已知摄像机π。我们注意到训练的目标对于相机的位姿参数也是可微的,因此我们可以简单地使用网络预测的相机参数,并共同学习相机参数和CSM。这种联合训练甚至可以让我们绕过需要相机参数作为监督信号的要求,并且仅使用前景掩模标注和给定的模板形状来学习CSM预测。因此,我们另外学习了相机参数的预测模型CNN gθ',并使用预测的相机参数通过几何的循环一致性假设来训练 。然而,为了防止网络只学到一些平凡解,我们还添加了掩模重投影误差,并且遵循之前的工作使用多假设相机预测器来避免局部最小值。我们的整体训练设置如下图所示。

掩模的重投影损失

如果唯一的学习目标包括相机模型和预测的CSM之间的一致性,那么网络可以学习一些简单的解决方案,例如:总是预测'正面'相机和相应的CSM。为了避免这种情况,当在预测的相机π下观察时,我们强制设置模板形状应该与已知的前景图像Ifg大致匹配。为了实现这种损失函数,我们使用(NMR)来获得可微分渲染渲染,给定模板形状S和摄像机π来渲染掩模。虽然位姿可能仍然不明确,例如 正面和背面的汽车,这种额外的掩模重投射损失使我们能够规避前面所提到的平凡解。该重投影损失定义如下:

利用CSM得到图片的密集对应关系

我们描述了一种CSM的方法,而不依赖于姿势或关键点注释。这允许我们在给定相同语义对象类别的两个图像的情况下推断密集语义对应,因为如果图像中的像素对应,则它们应该被映射到模板表面上的相同区域。给定(源,目标)图像对(Is,It),让我们用(Cs,Ct,Is_fg,It_fg)表示相应的预测CSM映射和前景掩模。给定这些预测,对于Is上的任何像素ps,我们可以通过搜索最接近φ(Cs [ps])的(前景)像素来推断其对应的像素Ts→t [ps]。

两张图片中关键点的对应关系结果图。

针对六种不同类别的CSM结果

在α= 0.1时正确关键点(PCK)和关键点匹配AP(APK)的百分比,越高越好。

关键点匹配的PR曲线

Abstract

We explore the task of Canonical Surface Mapping (CSM). Specifically, given an image, we learn to map pixels on the object to their corresponding locations on an abstract 3D model of the category. But how do we learn such a mapping? A supervised approach would require extensive manual labeling which is not scalable beyond a few hand-picked categories. Our key insight is that the CSM task (pixel to 3D), when combined with 3D projection (3D to pixel), completes a cycle. Hence, we can exploit a geometric cycle consistency loss, thereby allowing us to forgo the dense manual supervision. Our approach allows us to train a CSM model for a diverse set of classes, without sparse or dense keypoint annotation, by leveraging only foreground mask labels for training. We show that our predictions also allow us to infer dense correspondence between two images, and compare the performance of our approach against several methods that predict correspondence by leveraging varying amount of supervision.

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com 返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
 
推荐文章