新智元报道
编辑:LRS
【新智元导读】
支持数百人的大场景3D重建,代码和基准数据集即将开源!
基于图像的宽视场大场景多人重建对于人群分析和安全预警至关重要,不过现有的方法局限于中小场景、少量个体和相对位置。
对于包含数百人的大场景图像来说,里面人的尺度变化很大、空间分布非常复杂。
针对这些挑战,天津大学团队联合清华大学与英国卡迪夫大学在CVPR2023的工作中提出Crowd3D,一个从单张大场景图像重建全局空间一致的数百人姿态、形状和位置的框架。
Crowd3D定义了人与场景的虚拟交互点,借助预估的地面和相机参数,将2D图像的像素点与人的3D空间位置对应,从而减轻了单目重建深度和尺度的歧义性,实现了绝对尺度下的人群重建。
为解决大场景中人的尺度差异,Crowd3D设计了一种以人为中心的自适应裁剪方案,使不同裁剪图像中的人有一致的输入尺度,从而提高重建的性能。
此外,作者还构建了一个大场景人群重建的基准数据集LargeCrowd,推动了大场景人群重建的发展。相关代码和数据即将开源!
项目主页:http://cic.tju.edu.cn/faculty/likun/projects/Crowd3D
代码:https://github.com/1020244018/Crowd3D
方法动机
现有的单目多人重建方法大多局限于固定FoV(Field of View)的小场景,重建人体网格的三维姿态、形状和相对位置。这些方法无法直接地从大场景图像中回归人体,因为与图像尺寸相比,图中人的尺度相对较小且变化较大。
即使采用图像裁剪策略,由于在推断时为每个裁剪图假设独立的相机系,这些方法也无法获得全局空间一致的人群重建。
作者观察到在大型场景中,地面是人群最通用的交互对象,能够体现人与场景的和谐性。同时地面也是场景中最常见的元素,且一般的监控场景通常只含有单个或多个地平面。
以此为出发点,作者参考了人和地面的交互关系,定义了人与场景虚拟交互点(HVIP)的新概念,提出了基于HVIP的渐进式位置变换网络,从而建立了2D像素与人的3D全局空间位置的对应关系,将复杂的3D人群定位简化为2D的像素点预测,实现了百人大场景下全局空间一致的人群重建。
图1 Crowd3D框架总览
方法思路
Crowd3D框架总览
Crowd3D的目的是从包含数百人的单张大场景图像中重建全局空间一致的人群3D位置、姿势和形状。
如图1所示,该方法包含三个主要阶段:
1)采用自适应的以人为中心的裁剪方案(Adaptive Human-center Cropping)将大场景图像裁剪成具有层级大小的图像块,以确保不同裁剪图像中的人具有合适的占比;
2)使用人的2D姿态检测作为先验来估计全局场景的相机内参和地平面方程(Camera and Ground Plane Estimation),用于后续的推断;
3)设计基于HVIP的渐进式位置变换网络(Crowd3DNet),以裁剪后的图像、地平面和相机参数作为输入,直接预测大场景相机坐标系下的多人人体网格。
自适应的以人为中心的裁剪策略
为了处理大场景图像中大量的人和不同的人体尺寸,作者提出了自适应的以人为中心的裁剪策略,使不同的裁剪图像中的人与相应裁剪图像的高度比例尽可能一致,有利于后续的人体推断。
作者观察到人的身高像素在大场景图像的垂直方向上像金字塔一样分层变化,认为裁剪图像的尺寸也应该符合类似的分层变化,启发式地采用等比序列来模拟垂直方向上块尺寸的层次变化。
该想法是简单而有效的。定义图像顶部和底部的人的身高是和,图像处理区域的上下界为和。考虑垂直方向上不重叠的方形块,从上到下的尺寸大小定义为,并认为它们服从等比数列的规则。作者设置人的身高是块尺寸的一半,因此有且,分块问题被转化为求解以下问题:
在此基础上,作者进一步在相邻行之间增加重叠块,重叠块的尺寸被设置为相邻行裁剪块尺寸的均值,来保证每个人都至少完整的处在一个分块中。对于水平方向,块的尺寸是相同的,也包含重叠块。
人与场景虚拟交互点(HVIP)
为减轻单目重建的深度-尺度歧义性的影响,作者定义了人与场景虚拟交互点(HVIP),来帮助推断大场景相机系统中人的准确3D位置。HVIP表示一个人的3D躯干中心在全局相机空间中的地平面上的投影点,记为。人的躯干中心是人体上的一个语义点,文中指人的肩膀关节和髋关节的中心,用表示。
基于HVIP,作者构建了一种渐进式的地面变换。如图2所示,作者通过HVIP建立了图像像素点和人的全局3D空间位置的映射关系,从而实现仅预测2D像素点(2D躯干中心和2D HVIP)就能推断出人的准确3D位置。
蓝色的HVIP是地平面上的点,它可以直接参与地面变换,建立图像像素到地平面上三维点的关系映射;HVIP与人的躯干中心通过垂直关系绑定,结合透视投影约束可准确推断出人的3D躯干中心位置。
值得注意的是,由于HVIP不在人体上,位置推理过程对人的姿态没有限制,不会影响重建网络重建各种姿态的人体。基于HVIP的渐进式地面变换的公式化表达如下:
图2基于HVIP的渐进式地面变换
相机和地平面估计
HVIP的设计需要预估场景的地平面方程和相机参数,作者使用预先预测的人体2D姿态检测作为先验来实现。
作者通过实验统计表明:为一个大型场景图像预测地面和相机参数,只需要包含站立着的十人的2D姿态就足够了。这在实际大场景图像中很容易满足。
在预估场景参数时,该方法假设站立人的颅尾方向(文中指肩部中点和脚踝中点的连线)与地面垂直,站立人的脚踝在地面上,并结合透视投影关系迭代优化出相机和地面参数。
基于HVIP的渐进位置变换网络
在网络设计上,如图1所示,作者采用了单阶段的多头网络,同时预测人体中心热图、躯干中心偏移图、2D HVIP图和SMPL参数图。
其中,人体中心热图用于发现人,预测每个位置是人体中心的概率。如果人体中心热图预测正响应,则网络从相应中心位置的其他参数图中采样相关参数,获取人体的2D躯干中心、2D HVIP和SMPL参数。
通过基于HVIP的渐进式位置变换,网络能够直接推断出大场景相机系下的人体网格,从而实现全局空间一致的大场景多人重建。
实验结果
因为现存的单目多人重建方法不能全局一致的处理数百人的大场景图像,作者对SMAP[1]、CRMH[2]、BEV[3]三种方法进行了合理扩展,将各自的重建结果统一到与Crowd3D相同的全局相机系中用于公平比较,修改后的方法定义为SMAP-Large、CRMH-Large和BEV-Large。
如图3所示,在定性比较上,俯视图的结果清晰显示出Crowd3D重建的人群的空间分布与输入图像是一致的,而其他方法不一致。数字标记的人显示该方法准确推断出排队人群的位置。
此外,尽管对比方法也显示出合理的投影结果,但不准确的位置估计意味着它们预测的三维人体具有错误的绝对尺度。
在定量比较方面,如表1所示,Crowd3D在四个指标上均优于其他方法,显示出该方法重建的人群具有更准确的位置分布和姿势,其中位置分布包括物理距离和相对排列。
图3 不同方法在LargeCrowd数据集上的定性对比结果
表1 不同方法在LargeCrowd数据集上的定量对比结果
该工作的demo视频如下:
作者简介
温浩
天津大学20级博士研究生
主要研究方向:三维视觉、计算机视觉
黄敬
天津大学21级硕士研究生
主要研究方向:三维视觉、计算机视觉
崔慧丽
天津大学20级硕士研究生
主要研究方向:三维视觉、计算机视觉
林浩哲
清华大学博士后
主要研究方向:十亿像素计算机视觉
来煜坤
英国卡迪夫大学教授
主要研究方向:计算机图形学,几何处理,图像处理和计算机视觉
http://users.cs.cf.ac.uk/Yukun.Lai/
方璐
清华大学副教授、博导
主要研究方向:机器智能、神经计算
李坤
天津大学教授、博导
主要研究方向:三维视觉、智能重建与生成
http://cic.tju.edu.cn/faculty/likun
参考资料:
[1] Zhen J, Fang Q, Sun J, et al. SMAP: Single-shot multi-person absolute 3D pose estimation[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XV 16. Springer International Publishing, 2020: 550-566.
[2] Jiang W, Kolotouros N, Pavlakos G, et al. Coherent reconstruction of multiple humans from a single image[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 5579-5588.
[3] Sun Y, Liu W, Bao Q, et al. Putting people in their place: Monocular regression of 3D people in depth[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 13243-13252.