参考文献:https://arxiv.org/abs/2004.07485v1
代码实现:https://github.com/MVIG-SJTU/AlphAction

Asynchronous Interaction Aggregation for Action Detection

理解交互是视频动作检测的重要组成部分。 我们提出了异步交互聚合网络(AIA),它利用不同的交互促进动作检测。其中有两个关键设计:一是交互聚合结构(IA),采用统一的范式对多种交互类型进行建模和集成;另一种是异步记忆更新算法(AMU),它使我们能够通过动态建模非常长时间的交互来获得更好的性能,而不需要巨大的计算成本 。我们提供的经验数据表明,我们的网络能够从综合交互中获得更显著的准确性,并且易于端到端的训练。我们的方法在AVA数据集上报告了最新的最新性能,与我们强大的baseline相比,验证集的mAP增益为3.7(相对改进12.6%),在UCF101-24和EPIC-Kitchens数据集上的结果进一步说明了我们的方法的有效性。

动作检测(时空动作定位)的任务是检测和识别空间和时间上的动作,作为视频理解的一项重要任务,它具有异常行为检测、自动驾驶等多种应用。除了空间特征和时间特征[19,25,3,9],相互作用关系[12,37,45,27]对于理解动作至关重要。以图1为例。男人、茶杯以及女人之前的动作有助于预测女人的动作。在本文中,我们提出了一个新的架构, 强调动作检测的互动性
在这里插入图片描述
互动可以简单地看作是目标人和语义之间的关系。现有的许多研究都试图探索视频中的交互,但目前的研究方法存在两个问题:(1) 以往的研究方法[12,14]只关注单一类型的交互 (如人-物体),它们只能促进一种特定的行为。文献[44]试图合并不同的交互,但它们是分别建模的,一个交互的信息对另一个交互建模没有贡献,如何在视频中找到正确的交互并将其用于动作检测仍然是一个挑战。(2) 长期的时间交互作用很重要,但很难追踪 。由于资源挑战,使用时间卷积的方法[19,25,9]接收时间非常有限,像文献[39]把复制的提取特征作为预处理,在现实中是不实际的。

在这项工作中,我们提出了一个新的框架,即 异步交互聚合网络(AIA),它探索了三种交互(人-人、人-物和时间交互) ,几乎涵盖了视频中所有类型的人-语义交互。作为第一次尝试,AIA使它们在层次结构中协同工作,以捕获更高层次的时空特征和更精确的注意。我们的网络主要有两种设计:交互聚合(IA)结构和异步记忆更新(AMU)算法。

对于交互聚合(IA)结构的设计,探索并整合了所有三种类型的交互在一个深层结构中 。更具体地说,它由多个元素的交互块组成,每个元素交互块通过一种交互类型增强目标特征。这三种类型的交互块沿着IA结构的深度嵌套,一个块可以使用先前交互块的结果。因此,IA结构能够使用不同类型的信息精确地对交互进行建模。

由于视频数据量大,联合训练具有长记忆特性是不可行的,因此提出了AMU算法来估计训练过程中的难处理特征。我们采用类记忆结构来存储空间特征,并提出了一系列的写-读算法来更新内存中的内容:每次迭代时从目标片段中提取的特征被写入记忆池,然后在后续迭代中进行检索,从而对 时间交互 进行建模。这种有效的策略使我们能够端到端地训练整个网络,并且计算复杂度不会随着时间记忆特征长度的增加而线性增加。与先前预先提取特征的解决方案[39]相比,AMU简单得多,并且获得更好的性能。

综上所述,我们的 主要贡献是:(1)一个深度IA结构,它集成了多种人-语义交互以实现鲁棒的动作检测;(2)一个动态估计记忆特征的AMU算法 。我们在AVA[16]数据集上对时空动作定位任务进行了广泛的消融研究,提出的方法在性能上显示了巨大的提升,这在验证和测试集上都产生了最新的结果。我们也在数据集UCF101-24和片段级动作识别数据集EPIC Kitchens上测试了我们的方法,进一步验证了方法的通用性。

2 相关工作

视频分类(动作分类) 。各种3D CNN[19,32,31,34]已经被开发用来处理视频输入。为了使用巨大的图像数据集,I3D[3]在ImageNet[6]预训练基础上获益。在文献[25,7,33,42,4]中,上述模型中的3D核通过时间滤波器和空间滤波器来模拟,这两种滤波器可以显著减小模型的尺寸。SlowFast网络[9]引入了双流方法[28,10]。

时空动作检测 。动作检测比动作分类更为困难,因为模型不仅需要预测动作标签,还需要在时间和空间上对动作进行定位。最新的方法[16,11,9,17,40]遵循目标检测框架[13,26],对检测到的边界框生成的特征进行分类。与我们的方法相比,它们的结果只依赖于裁剪的特征,而所有其他的信息都被丢弃,对最终的预测毫无贡献。

视频的注意机制 。transformer[35]由几个堆叠的自注意层和全连接层组成。Non-Local[36]提出的结论是,先前的自注意模型可以看作是non-local均值的经典计算机视觉方法的一种形式[2],因此引入了一般的non-local块[36]。这种结构使得模型能够通过在不同的时间或空间关联特征来计算响应,从而使注意力机制适用于动作分类等与视频相关的任务。non-local块在文献[39]中也扮演着重要的角色,通过non-local特征库操作符引用来自长期特征库的信息。

3 提出的方法

在本节中,我们将描述在空间和时间中定位动作的方法。我们的方法旨在对各种交互进行建模和聚合,以获得更好的动作检测性能。在第3.1节中,我们描述了两种重要的实例级特性:短片段和长视频中的记忆特征。在第3.2节中,探讨了交互聚集结构(IA)以聚集交互知识。在第3.3节中,我们介绍了异步记忆更新算法(AMU),以缓解时间交互建模中计算量大和内存消耗大的问题。我们的方法的总体流程如图2所示。
在这里插入图片描述

3.1 实例级和时间记忆特征

为了在视频中建立交互模型,我们需要正确地找到被查询的人与什么交互。以前的工作如[36]计算特征图中所有像素之间的交互作用。由于计算量大,这些暴力方法使用视频数据集的大小有限,难以学习像素之间的交互。因此,我们开始考虑如何获得集中的交互特征。 我们观察到人总是与具体的物体和其他人互动,因此我们提取对象和人作为实例级特征。另外,视频帧之间总是高度相关的,因此我们保留了人的特征作为长期时间记忆特征。

实例级特征将从视频特征中截取。由于计算整个长视频是不可能的,所以我们将其分割为连续的短视频片段 [ v 1 , v 2 , … , v T ] [v_1,v_2,…,v_T] [ v 1 , v 2 , , v T ] ,利用视频骨干模型 f t = F ( v t , φ F ) f_t=F(v_t,φF) f t = F ( v t , φ F ) 提取第 t t t 个视频片段 v t v_t v t d d d 维特征,其中 φ F φF φ F 为参数。

v t v_t v t 的中间帧上应用检测器得到人员框和物体框。在检测到的边界框的基础上,利用RoIAlign算法从特征 f t f_t f t 中裁剪出人和物体的特征, v t v_t v t 中人和物体的实例级特征分别表示为 P t P_t P

参考文献:https://arxiv.org/abs/2004.07485v1代码实现:https://github.com/MVIG-SJTU/AlphActionAsynchronous Interaction Aggregation for Action Detection摘要理解交互是视频动作检测的重要组成部分。我们提出了异步交互聚合网络(AIA),它利用不同的交互促进动作检测。其中有两个关键设计:一是交互聚合结构(IA),采用统一的范式对多种交互类型进行建模和集成;另一种是异步内存更新算法
在这篇文章中,我们将介绍一些方法来制作用于 人体 行为识别 的视频分类器。在我们讨论视频分类之前,让我们先了解一下什么是 人体 行为识别 。简单地说,对某人正在执行的活动/动作进行分类或预测的任务称为活动识别。我们可能会有一个问题:这与普通的分类任务有什么不同?这里的问题是,。看看这个人做的这个后空翻动作,我们只有看完整的视频才能判断这是一个后空翻。 如果我们提供的模型只是来自视频片段的随机快照(如下图),那么它可能会错误地预测动作。 如果一个模型只看到上面的图像,那么它看起来有点像这个人正在下降,所以它预测会下降。
What You Need To follow along with this book, you’ll need the following: • A Mac running macOS Mojave (10.14) or later. Earlier versions might work, but they're untested. • Xcode 11 or later. Xcode is the main development tool for iOS. You’ll need Xcode 11 or later for the tasks in this book, since Combine was introduced with the iOS 13 SDK. You can download the latest version of Xcode from Apple’s developer site here: apple.co/2asi58y • An intermediate level knowledge of Swift. This book teaches you how to write declarative and reactive iOS applications using Apple's Combine framework. Combine uses a multitude of advanced Swift features such as generics, so you should have at least an intermediate-level knowledge of Swift. If you want to try things out on a physical iOS device, you’ll need a developer account with Apple, which you can obtain for free. However, all the sample projects in this book will work just fine in the iOS Simulator bundled with Xcode, so a paid developer account is completely optional.     近期由于需要做一些关于 人体 行为识别 及摔倒检测的研究,故进行调研如下,如有错误请指正,欢迎交流。 一、 行为识别 在场景识别中,有很大一部分研究是针对于 人体 行为识别 的,主要进行识别的也是一些家庭内的危险行为,如小孩、老人摔倒检测,外来人员闯入等,这些都可归为 人体 行为识别 的范畴之内。 行为识别 action recognition),即根据视频图像完成对于 人体 动作的区分,这其中包括但不
视频行为数据集 传统的通用的数据集: 1、KTH数据集:2004年发布,包含 6 类 人体 行为:行走、慢跑、奔跑、拳击、挥手和鼓掌,每类行为由 25 个人在四种不同的场景(室外、伴有尺度变化的室外、伴有衣着变化的 室外、室内)执行多次,相机固定。该数据库总共有 2391个视频样本。视频帧率为 25 fps,分 辨率为 160×120,平均长度为 4 秒。 2、The Weizmann Datase...
人体 行为识别 。可以判断 人体 的动作,适合于机器人交互。python。实验室同学做的效果,非常好.支持60种 人体 行为动作 标注解释: person_1:%0.88 人体 编号:置信度0.88 stand:0.950 战立状态:置信度0.950 talk to(eg.self):0.700 自我对话状态:置信度0.700 watch(a person):0.272 注视一个人的状态:置信度0.272 行人属性识别:Improving Pedestrian Attribute Recognition With Weakly-Supervised Multi-Scale Attribute……