一、HOI4D:首个类别级第一人称人-物体交互数据集(CVPR2022)
HOI4D数据集提供了用于全景分割、运动分割、3D手部位姿、类别级物体位姿和手部动作的逐帧注释,以及物体CAD模型和重建场景点云。论文还建立了三个基准任务来促进4D类别级人-物体交互的发展,包括 4D 动态点云序列的语义分割、类别级物体位姿跟踪和第一人称的细粒度视频动作分割。此研究可以支持大量的新兴研究方向,如4D场景理解,类别级人-物体交互,动态场景重建等,对人-物体交互领域的发展具有重要推动作用。数据集目前已经开源!
论文和项目网址:https://hoi4d.top/
在过去的十年中,在大量数据集和基准测试的推动下,图像、视频和3D点云感知领域取得了巨大的进展。然而,在人类辅助机器人和增强现实领域,需要感知来自 4D 第一人称的感官输入,这是一种新的数据流形式。计算机视觉系统需要从第一人称视角理解人和物体的交互。这种理解应该包括了对 4D 动态场景的语义理解、遮挡下的人手和物体 3D 位姿估计、交互物体功能性理解以及人类的动作意图分析,这对当今的计算机视觉系统提出了新的挑战。
为了帮助应对这些挑战,我们首先需要一个大规模且标注丰富的 4D 第一人称HOI 数据集以及相应的基准测试。现有工作大多数都集中在实例级物体交互上,交互物体的种类数量都非常少,且这些实例的 CAD 模型和大小是事先已知的。在这种情况下,我们需要对每个模型单独训练网络,网络不具备类内的泛化性。此外,现有工作倾向于忽略关节物体,而只关注交互模式相对简单的刚性物体。使用合成数据集可能是另一种选择,但模拟人体运动和物体的抓取仍然是一个未被解决的问题,这使得现有的合成数据集很难达到足够的真实性。
根据上述限制,我们首次提出了一个用于类别级人-物体交互的大规模第一人称数据集HOI4D,如图下图所示。我们从最近的类别级物体位姿估计和跟踪工作中汲取灵感,旨在将 4D的人-物体交互感知推进到一个新时代,使计算机视觉系统具备理解复杂场景中的类别级物体交互的能力。HOI4D数据集由240万张RGB-D图像(4000段RGB-D视频序列)组,4个采集者与 800个物体实例交互。这些物体实例平均分为16个类别,包括7个刚性物体和9个关节物体。此外,我们的采集环境没有像之前的工作一样局限在实验室,而是在 610 个不同的室内场景中执行与物体功能性相关的任务,这一过程中无需佩戴任何人工标记。HOI4D逐帧标注了全景分割、运动分割、3D手部位姿、刚性和关节物体位姿以及动作分割,为类别级别的人与物体交互提供前所未有的细致标注。另外,HOI4D数据集还为每一段采集序列提供了配套的物体CAD模型和静态重建点云。
HOI4D 中丰富的标注还可以对一系列类别级的HOI任务进行基准测试。在本文中,我们特别关注三个任务:4D 动态点云序列的语义分割、HOI场景下的类别级物体姿态追踪以及具有不同交互目标的第一人称动作识别。我们对这些任务的现有方法进行了深入分析,实验表明,HOI4D 对当今的计算机视觉算法提出了巨大挑战。对于类别级的物体位姿跟踪任务,之前的大多数数据集都是在没有手部遮挡的简单场景下使用合成数据。在HOI4D 数据集的帮助下,我们现在可以使用真实世界的数据来完成这项更具挑战性的任务。由于缺乏带标注的室内数据集,4D 点云的语义分割主要用于自动驾驶场景下,但HOI4D 引入了更多的挑战,例如严重的遮挡,第一人称运动和显著不同的传感器噪声模式。视频的细粒度动作分割可以帮助 AI 更好地理解人的行为,但我们发现现有方法不能很好地直接处理细粒度数据。
二、HOI4D challenge:HOI4D 动态点云感知任务挑战赛
赛道设置:
竞赛HOI4D挑战赛包括以下三个方向:4D语义分割挑战赛、类别级HOI物体追踪挑战赛、4D动作分割挑战赛。
4D语义分割挑战赛中,我们希望推断出每个3D点的语义标签。因此,所有被评估的方法的输入是一个三维点的坐标列表。然后每个方法都应该为扫描的每个点输出一个标签。
提交评估:
我们将维护一个在线排行榜,通过该排行榜,参与者可以测试他们正在进行的项目并提交他们的结果。我们将在我们的服务器上评估并且及时更新排行榜。注意我们只会测试来自学校或公司邮箱注册提交的结果,私人邮箱账号的提交将不被允许。同时来自同一个团队的成员提交的结果我们每周仅测试最早提交的结果,短时间内使用多个邮箱多次重复提交将会被取消评奖资格。
在类别级HOI物体追踪挑战赛中,输入是一个点云视频,给定第一帧中物体的姿势,我们跟踪这个物体,并给出此后每一帧中物体的姿势。请注意,我们指的是类别级别的物体姿态。
在4D动作分割挑战赛中,我们需要给点云视频中的每一帧点云贴上一个动作类别标签。该任务的输入是一个点云视频,输出是该视频中每一帧描述的动作。
奖金设置:
我们为每个赛道的前三名分别颁发3000、2000、1000美元的奖金并且将邀请团队分享他们的杰出工作。
竞赛时间线:
02-07: 挑战赛开始
05-25: 挑战赛截止日期
06-01: 向作者发出获奖通知
06-18: workshop日期
为了降低研究者参与挑战赛的门槛,我们为每个赛道均提供了基线测试方法及其代码,代码及更多详细信息更关注研讨会网站与挑战赛网站(www.hoi4d.top)!
点击进入—>
CV微信技术交流
CVPR/ECCV 2022论文和代码下载
后台回复:
CVPR2022,
即可下载CVPR 2022论文和代码开源的论文合集
后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集
后台回复:
Transformer综述,
即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>CV微信技术交流群CVPR 2023 HOI4D Challenge | 动态点云感知任务挑战赛启动!一、HOI4D:首个类别级第一人称人-物体交互数据集(CVPR2022) HOI4D数据集提供了用于全景分割、运动分割、3D手部位姿、类别级物体位姿和手部动作的逐帧注释,以及物体CAD模型和重建场景点云。论...
这项工作基于我们的。请阅读它以获取更多信息。也欢迎您观看
CVPR
2020的。
直接在
点云
上工作的
任务
越来越多。随着
点云
大小的增加,这些
任务
的计算需求也随之增加。一个可能的解决方案是首先对
点云
进行采样。经典采样方法(例如,最远点采样(FPS))不考虑下游
任务
。最近的一项工作表明,学习针对特定
任务
的采样可以显着改善结果。但是,提出的技术并未处理采样操作的不可微性,而是提供了一种解决方法。
我们为
点云
采样引入了一种新颖的微分松弛。我们的方法采用了一种软投影操作,该操作将采样点近似为主要输入云中的混合点。近似值由温度参数控制,并在温度变为零时收敛到常规采样。在训练过程中,我们使用投影损耗来鼓励温度下降,从而使每个采样点都靠近输入点之一。
这种近似方案可在各种应用(例
能读图的GPT-4震撼发布了!但要用它还得排队。。。
不如先试试这个~
加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。
并且训练这个小模型单卡(一块RTX 3090)就能搞定。
效果呢,直接看图。
比如说,给训练后的GPT-3输入一张“音乐现场”的图片,问它:现场在举办什么活动?
毫不迟疑,GPT-3给出了音乐会的答案。
再来加点难度,再给GPT-3酱紫的一张照片,让它来分辨照片中的帘子是什么类型的材质。
GPT-3:蕾丝。
Bingo!(看来是有点儿东西在身上的)
这个方法呢,是杭州电子科技大学和合肥工业大学的一个团队的最新成果:Prophet,半年前他们就已经着手进行这项工作。
论文一作是杭电研究生邵镇炜,他在1岁那年被诊断患有“进行性脊肌萎缩症”,高考时遗憾与浙大擦肩,选择了离家近的杭州电子科技大学。
目前该论文已经被
CVPR
2023
接收。
跨模态
任务
上达到新SOTA
话不多说,直接来看在Prophet这种方法的加持下GPT-3的读图能力。
我们先来看看它在数据集上的测试结果。
研究团队在两个基于外
CVPR
2020 CLVision
挑战赛
这是
CVPR
2020 CLVision
挑战赛
的正式开始资料库。 在这里,我们提供:
设置环境和生成zip提交文件的两个脚本。
一个完整的工作示例包括:1)加载数据并设置持续学习协议; 2)在训练期间收集所有元数据。3)在有效和测试集上评估训练后的模型。
在第一阶段结束时
启动
Dockerfile以简化最终提交。
您只需要编写自己的持续学习策略(即使仅用几行代码即可!),您就可以参与其中了。
挑战说明,规则和奖品
您可以在官方找到挑战说明,奖项和主要规则。
我们不希望每个参与者都一定要提交适用于所有参与者的解决方案。 每个参与者都可以决定参加一个或多个赛道,但他将自动在所有4个独立排名中竞争(ni,multi-task-nc,nic,所有这些)。
请注意,用于计算CL_score的元数据的收集是强制性的,并且应遵守每个指标要求的