arXiv每日更新-20220322(今日关键词:detection, transformer, 3d)

arXiv每日更新-20220322(今日关键词:detection, transformer, 3d)

三维视觉 32篇

* Generating Fast and Slow: Scene Decomposition via Reconstruction
* 链接: arxiv.org/abs/2203.1119
* 作者: Mihir Prabhudesai,Anirudh Goyal,Deepak Pathak,Katerina Fragkiadaki
* 其他: Project website at this https URL
* 摘要: 我们认为将场景分段为组成实体,即底层对象及其部分。目前监督的视觉探测器虽然在其培训分布中令人印象深刻,但往往未能将分销场景分配到其组成实体中。通过重建像素,通过尝试将场景分割成未经监督的实体,最近的老虎机的生成模型会破坏监督的这种依赖性。然而,他们被限制到目前为止到目前为止,因为它们遭受重建分割权衡,所以随着实体瓶颈得更宽,重建改善但是分割崩溃。我们向GFS-网(生成快速和慢速网络)提出了缓解这一问题的两种成分:i)以原语的形式培训,通常在当前的生成模型中缺失,ii)通过梯度下降,每场景的测试时间适应重建目标,我们称之为缓慢推断,从当前的前馈探测器丢失。我们展示了拟议的课程足以打破重建分割权衡,并且缓慢推理大大改善了分销场景的细分。我们评估PARTNet,CLEVR,房间各种++的3D和2D场景分割基准的GFS-网,并显示出对SOTA监督前馈探测器和无监督对象发现方法的大(50%)性能改进

* Masked Discrimination for Self-Supervised Learning on Point Clouds
* 链接: arxiv.org/abs/2203.1118
* 作者: Haotian Liu,Mu Cai,Yong Jae Lee
* 摘要: Masked AutoEncoding在图像和语言领域中的自我监督学习取得了巨大成功。然而,基于掩码的预介绍尚未显示有利于点云理解的好处,可能是由于注意力量不能正确处理通过在训练期间屏蔽引入的训练与测试分发不匹配的标准骨干。在本文中,我们通过提出歧视性掩模预测变压器框架,MaskPoint},用于点云来弥合这个差距。我们的主要思想是将点云作为离散占用值(1如果点云的一部分; 0,如果没有),并且在屏蔽物点和采样噪声点之间执行简单的二进制分类作为代理任务。通过这种方式,我们的方法对点云的点采样方差具有强大,并促进学习丰富的表示。我们在几个下游任务中评估预训练模型,包括3D形状分类,分割和实际词对象检测,并展示了最先进的结果,同时实现了与之相比先前的最先进的变压器基线。代码将在此HTTPS URL上公开提供。

[推荐] * DiffPoseNet: Direct Differentiable Camera Pose Estimation

* 链接: arxiv.org/abs/2203.1117
* 作者: Chethan M. Parameshwara,Gokul Hari,Cornelia Fermüller,Nitin J. Sanket,Yiannis Aloimonos
* 其他: 10 pages, 5 figures, Accepted to CVPR 2022
* 摘要: 当前用于相机姿势估计的电流深度神经网络方法依赖于3D运动估计的场景结构,但这降低了鲁棒性,从而使跨数据集概括难以实现。相比之下,利用光学流动的运动估计3D运动来结构的经典方法,然后计算深度。然而,它们的准确性强烈依赖于光学流量的质量。为了避免这个问题,已经提出了直接方法,其中从深度估计分开3D运动,但仅使用正常流的形式使用图像梯度来计算3D运动。在本文中,我们介绍了一个网络NFLOWNET,用于正常流量估计,用于实施强大和直接约束。特别地,正常流量用于基于张力(深度阳性)约束来估计相对相机姿势。我们通过将优化问题作为可分辨性的张力层来实现这一目标,这允许相机姿势的端到端学习。我们对所提出的Diffposset对噪声的敏感性的广泛定性和定量评估及其在数据集中的概括。我们将我们的方法与Kitti,Tartanair和Tum-RGBD数据集的现有最先进的方法进行了比较。

[推荐] * Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDAR Point Clouds

* 链接: arxiv.org/abs/2203.1113
* 作者: Yifan Zhang,Qingyong Hu,Guoquan Xu,Yanxin Ma,Jianwei Wan,Yulan Guo
* 其他: CVPR2022, code avaliable at: this https URL
* 摘要: 我们研究了3D LIDAR点云的有效对象检测问题。为了减少内存和计算成本,现有的基于点的管道通常采用任务 - 不可行的随机采样或最远的点采样来逐步下降到输入点云,尽管并非所有点对对象检测的任务同样重要。特别地,前景点与对象探测器的背景点固有更重要。由此激励,我们在本文中提出了一种高效的基于单级点的3D探测器,称为IA-SSD。我们方法的关键是利用两种学习,面向任务的实例感知的下采样策略,以分级地选择属于感兴趣对象的前景点。此外,我们还介绍了一种上下文质心感知模块,以进一步估计精确的实例中心。最后,我们在编码器的架构下构建我们的IA-SSD以获得效率。在几种大规模检测基准上进行的广泛实验表明了我们IA-SSD的竞争性能。由于较低的内存占地面积和高度的并行度,它在Kitti DataSet上实现了80+每秒的优越速度,具有单个RTX2080TI GPU。代码可用于\ url {此HTTPS URL}。

[推荐] * No Pain, Big Gain: Classify Dynamic Point Cloud Sequences with Static Models by Fitting Feature-level Space-time Surfaces

* 链接: arxiv.org/abs/2203.1111
* 作者: Jia-Xing Zhong,Kaichen Zhou,Qingyong Hu,Bing Wang,Niki Trigoni,Andrew Markham
* 其他: To appear at CVPR 2022 (Source Code: this https URL )
* 摘要: 场景流是捕获3D点云运动场的强大工具。然而,由于非结构化点使其难以甚至不可能有效地追踪点明智的对应,因此难以将基于流量的模型应用于动态点云分类。为了捕获3D动作而不明确跟踪对应关系,我们通过将ST-表面的运动概念概括为特征空间来提出运动学启动的神经网络(动力学)。通过展开特征空间中的ST-表面的正常求解器,Kinet隐含地编码特征级动态,并从使用成熟骨干机进行静态点云处理的优势。只有网络结构的微小变化和低计算开销,它是无痛的,并与给定的静态模型共同列车并部署我们的框架。 Nvesture,SHRec'17,MSRACtion-3D和NTU-RGBD的实验证明了其性能,效率,参数数量和计算复杂性的效率,以及对各种静态骨架的多功能性。明显的是,动力学在MSRACTION-3D上实现了93.27%的准确性,只有3.20米的参数和10.35g拖鞋。

* PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark
* 链接: arxiv.org/abs/2203.1108
* 作者: Li Chen,Chonghao Sima,Yang Li,Zehan Zheng,Jiajie Xu,Xiangwei Geng,Hongyang Li,Conghui He,Jianping Shi,Yu Qiao,Junchi Yan
* 摘要: 最近已经提出了3D车道检测方法,以解决许多自治驾驶场景中不准确的车道布局问题(上坡/下坡,凹凸等)。以前的工作由于他们的前视图和鸟瞰图(BEV)与缺乏现实数据集而设计的简单设计,因此在复杂的案例中挣扎。对这些问题来说,我们呈现了持平性器:具有新颖的基于变压器的空间特征变换模块的端到端单眼3D车道检测器。我们的模型通过参加与摄像机参数的相关前视本地区域作为参考,产生BEV功能。持平性器采用统一的2D / 3D锚设计和辅助任务,可以同时检测2D / 3D车道,增强特征一致性并共享多任务学习的好处。此外,我们释放了一个称为Openlane的第一个大型现实世界3D车道数据集之一,具有高质量的注释和场景分集。 Openlane包含200,000帧,超过880,000个实例级车道,14个车道类别以及场景标签和封闭路径的对象注释,以鼓励车道检测和更多的工业相关自主驱动方法。我们展示了持平性器在我们的新Openlane数据集以及Apollo 3D Lane合成数据集中显着优于3D车道检测任务中的竞争基础,并且还与Openlane上的2D任务中的最先进算法相同。项目页面可在此HTTPS URL上使用。

[推荐] * Stereo Neural Vernier Caliper

* 链接: arxiv.org/abs/2203.1101
* 作者: Shichao Li,Zechun Liu,Zhiqiang Shen,Kwang-Ting Cheng
* 其他: AAAI 2022 preprint version
* 摘要: 我们为基于学习的立体声3D对象检测提出了一种新的对象中心框架。以前的研究构建了以场景为中心的表示,不考虑户外实例之间的显着变化,从而缺乏实例级模型可以提供的灵活性和功能。通过制定和解决本地更新问题,即,在给定初始3D长方体猜测的情况下,如何预测精细更新,构建此类实例级模型。我们展示了解决这个问题的解决方案如何补充(i)在建立一个粗到精细的多分辨率系统,(ii)执行模型 - 不可忽视的对象位置细化,以及(iii)进行立体声3D跟踪 - 检测。广泛的实验表明了我们的方法的有效性,这在基准基准上实现了最先进的性能。此HTTPS URL可提供代码和预先训练的型号。

[推荐] * MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer

* 链接: arxiv.org/abs/2203.1098
* 作者: Kuan-Chih Huang,Tsung-Han Wu,Hung-Ting Su,Winston H. Hsu
* 其他: Accepted to CVPR 2022
* 摘要: 单眼3D对象检测是自主驾驶中的重要而挑战性的任务。一些现有方法利用来自现成的深度估计器的深度信息来辅助3D检测,而是遭受额外的计算负担并实现由不准确的深度前提引起的有限性能。为了缓解这一点,我们提出了一种用于单眼3D对象检测的新型端到端深度感知的变压器网络。它主要由两个组件组成:(1)深度感知功能增强(DFE)模块,隐式地学习具有辅助监控的深度感知功能,而无需额外计算,以及(2)全球的深度感知变压器(DTR)模块集上下文和深度感知功能集成。此外,与传统的像素 - 方向位置编码不同,我们引入了一种新的深度位置编码(DPE),以将深度位置提示注入变压器。我们所提出的深度感知模块可以轻松插入现有的仅图像单目3D对象探测器,以提高性能。基提DataSet的广泛实验表明,我们的方法优于以前的最先进的单目,实现了实时检测。代码可在此HTTPS URL上获得

* 3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge Modality Attention
* 链接: arxiv.org/abs/2203.1092
* 作者: Martin Buchner,Abhinav Valada
* 其他: 8 pages, 4 figures
* 摘要: 在线3D多对象跟踪(MOT)近年来见证了重要的研究兴趣,主要是由自治系统社区的需求驱动。但是,3D离线MOT相对较少探索。标记3D轨迹场景数据以大规模的规模标记,同时不依赖于高成本的人力专家仍然是一个开放的研究问题。在这项工作中,我们提出了遵循逐个检测范例的Batch3dmot,并表示根据诸如相机,激光雷达和雷达等各种模态归属的定向,无循环和类别不相交的跟踪图的现实世界场景。我们介绍了一个多模态图形神经网络,它使用横缘注意机制减轻模态间歇性,这转化为图域中的稀疏性。此外,我们将注意力加权卷曲呈现过帧智的K-NN邻域作为合适的手段,以允许在断开的图形组件上交换信息交换。我们使用各种传感器模式和模型配置对挑战NUSCENES和KITTI数据集进行评估我们的方法。广泛的实验表明,我们所提出的方法在NUSCENES的AMOTA评分中总体上提高了2.8%,从而为3D跟踪方法设置新的基准,并成功增强了误报过滤。

* Learning Occlusion-Aware Coarse-to-Fine Depth Map for Self-supervised Monocular Depth Estimation
* 链接: arxiv.org/abs/2203.1092
* 作者: Zhengming Zhou,Qiulei Dong
* 摘要: 自我监督的单眼深度估计,旨在以自我监督方式从单张图像中学习场景深度,最近受到了很多关注。尽管近期在这一领域的努力,如何学习准确的场景深度,缓解闭塞对自我监督深度估计的负面影响,仍然是一个公开问题。解决这个问题,我们首先经验经验分析了连续和离散深度限制的影响,这些效果广泛用于许多现有工作的培训过程中。然后通过上述实证分析启发,我们提出了一种新的网络来学习用于自我监督的单眼深度估计的遮挡感知粗对细深,称为OCFD-Net。给定一组任意训练立体图像对,所提出的OCFD-net不仅采用了用于学习粗级深度图的离散深度约束,而且还采用了用于学习场景深度残留的连续深度约束,从而罚款 - 灵深地图。此外,在所提出的OCFD-NET下设计了一个遮挡感知模块,该模块能够提高学习的细级深度图的能力来处理闭塞。在公共基准和Make3D数据集上的广泛实验结果表明,在大多数情况下,所提出的方法优于现有的现有最先进的方法。

[推荐] * Revisiting Domain Generalized Stereo Matching Networks from a Feature Consistency Perspective

* 链接: arxiv.org/abs/2203.1088
* 作者: Jiawei Zhang,Xiang Wang,Xiao Bai,Chen Wang,Lei Huang,Yimin Chen,Lin Gu,Jun Zhou,Tatsuya Harada,Edwin R. Hancock
* 其他: Accepted to CVPR2022
* 摘要: 尽管最近立体声匹配网络达到了足够的培训数据,但它们遭受了足够的培训数据,因此他们遭受域名转变并概括到看不见的域名。我们认为,维持匹配像素之间的特征一致性是用于促进立体声匹配网络的泛化能力的重要因素,这尚未得到充分考虑。在这里,我们通过提出跨视点的简单像素对比学习来解决这个问题。立体声对比特征损失函数明确约束了匹配像素对的学习特征之间的一致性,这是相同的3D点的观察。进一步引入立体声选择性美白损失以更好地保留跨域的立体声特征一致性,从立体声观点特定的样式信息中解除立体声特征。反直观地,同一场景中的两个观点之间的特征一致性的泛化转化为立体声匹配性能的概念对未经域域的泛化。我们的方法本质上是通用的,因为它可以很容易地嵌入到现有的立体网络中,并且不需要访问目标域中的样本。当培训合成数据并推广到四个现实世界检测集时,我们的方法在几种最先进的网络上实现了卓越的性能。

* Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance Fields
* 链接: arxiv.org/abs/2203.1082
* 作者: Yuedong Chen,Qianyi Wu,Chuanxia Zheng,Tat-Jen Cham,Jianfei Cai
* 其他: Project page: this https URL
* 摘要: 图像翻译和操纵随着深度生成型号的快速发展而导致越来越高。虽然现有方法带来了令人印象深刻的结果,但它们主要在2D空间中运作。鉴于基于NERF的3D感知生成模型的最新进展,我们介绍了一个新的任务,语义到NERF翻译,旨在重建NERF建模的3D场景,在一个单视图语义掩模上调节为输入。启动这项新颖任务,我们提出了SEM2NERF框架。特别是,SEM2NERF通过将语义掩码编码到控制掠夺解码器的3D场景表示的潜在代码中来解决高度具有挑战性的任务。为了进一步提高映射的准确性,我们将新的区域感知学习策略集成到编码器和解码器的设计中。我们验证了所提出的SEM2NERF的功效,并证明它在两个基准数据集中优于几个强大的基线。

* K-space and Image Domain Collaborative Energy based Model for Parallel MRI Reconstruction
* 链接: arxiv.org/abs/2203.1077
* 作者: Zongjiang Tu,Chen Jiang,Yu Guan,Shanshan Wang,Jijun Liu,Qiegen Liu,Dong Liang
* 其他: 10 pages,9 figures
* 摘要: 减少磁共振(MR)图像采集时间可能会使先生检查更可访问。在包括深度学习模型的现有技术中,已经致力于解决长MRI成像时间的问题。最近,深度生成模型在算法鲁棒性和使用灵活性方面表现出极大的潜力。然而,没有现有的这些方案可以直接学习或直接用于K空间测量。此外,在混合域中的深度生成模型如何运作良好的方式也值得调查。在这项工作中,通过利用基于深度的基于ERGY的模型,我们提出了一种k空间和图像域协同生成模型,以全面地估计来自欠采样测量的MR数据。与最先进的实验比较表明,所提出的杂种方法在不同的加速因子下重建误差较小,更稳定。

* Slice Imputation: Intermediate Slice Interpolation for Anisotropic 3D Medical Image Segmentation
* 链接: arxiv.org/abs/2203.1077
* 作者: Zhaotao Wu,Jia Wei,Jiabing Wang,Rui Li
* 摘要: 我们介绍了一种基于帧插值的切片局部方法,以提高各向异性3D医学图像的分割精度,其中切片的数量及其相应的分割标签可以在各向异性3D医学体积中的两个连续切片之间增加。与以前的切片间载体方法不同,这仅关注轴向方向的光滑度,这项研究旨在改善所有三个方向的内插3D医学体积的平滑度:轴向,矢状和冠状。所提出的多任务切片间载体方法,特别是平滑度损失功能,以评估通过平面方向(矢状和冠状)的内插3D医学体积的平滑度。它不仅改善了通过平面方向上的内插3D医学体积的分辨率,而且还将它们转化为各向同性表示,这导致更好的分割性能。大脑,肝肿瘤分割和前列腺分割中全肿瘤细分的实验表明,在大多数情况下,我们的方法在两种计算断层扫描和磁共振图像卷上占据了竞争对手的借调方法。

* Upsampling Autoencoder for Self-Supervised Point Cloud Learning
* 链接: arxiv.org/abs/2203.1076
* 作者: Cheng Zhang,Jian Shi,Xuan Deng,Zizhao Wu
* 其他: 13 pages
* 摘要: 在计算机辅助设计(CAD)社区中,点云数据普遍应用于逆向工程,点云分析起着重要作用。虽然已经提出了大量监督的学习方法来处理无序点云并证明了他们显着的成功,但它们的性能和适用性仅限于昂贵的数据注释。在这项工作中,我们提出了一种新颖的自我监督预测模型,用于没有人为注释的点云学习,这完全依赖于上采样操作,以有效的方式执行点云的特征学习。我们的方法的主要前提是,上采样操作鼓励网络捕获点云的高电平语义信息和低级几何信息,因此诸如分类和分割之类的下游任务将受益于预先训练的模型。具体地,我们的方法首先以低比例从输入点云进行随机分子相采样,例如,12.5%。然后,我们将它们馈入编码器 - 解码器架构中,其中设计编码器仅在附带点上操作,并且采用上采样解码器基于学习的特征来重建原始点云。最后,我们设计了一种新颖的联合损失功能,该功能强制执行上采样点,与原始点云相似并均匀地分布在底层形状表面上。通过采用预先训练的编码器重量作为下游任务模型的初始化,我们发现我们的阿联酋在形状分类,部分分割和点云上采样任务中以前的最先进方法。代码将在接受时公开提供。

* LocATe: End-to-end Localization of Actions in 3D with Transformers
* 链接: arxiv.org/abs/2203.1071
* 作者: Jiankai Sun,Bolei Zhou,Michael J. Black,Arjun Chandrasekaran
* 摘要: 了解一个人从他们的3D运动中的行为是计算机愿景的基本问题,许多应用程序。这个问题的一个重要组成部分是3D时间动作定位(3D-TAL),涉及识别人在执行的行动和何时。最先进的3D-TAL方法采用两级方法,其中动作跨度检测任务和动作识别任务被实现为级联。然而,这种方法限制了纠错的可能性。相比之下,我们提出找到一个端到端的方法,即共同定位并识别3D序列中的动作。此外,与现有的自回归模型,专注于在序列中建模本地上下文,所以定位的变压器模型能够在序列中捕获动作之间的长期相关性。与基于变压器的对象检测和分类模型不同,其考虑图像或贴片特征作为输入,3D-TAL中的输入是长序列的高度相关帧。为了处理高维输入,我们实现了有效的输入表示,并通过在模型中引入稀疏注意力来克服长时间视野的漫反射注意。找到优于现有PKU-MMD 3D-TAL基准(MAP = 93.2%)上的先前接近的方法。最后,我们认为基准数据集最有用的是,在有明确的绩效改进的房间里。为此,我们介绍了一个新的,具有挑战性和更现实的基准数据集,巴布尔 - 缩略20(BT20),最先进的方法的性能显着更糟。该方法的数据集和代码将可用于研究目的。

* Lateral Ego-Vehicle Control without Supervision using Point Clouds
* 链接: arxiv.org/abs/2203.1066
* 作者: Florian Müller,Qadeer Khan,Daniel Cremers
* 摘要: 基于横向车辆控制的现有视觉的监督方法能够将RGB图像直接映射到适当的转向命令。然而,由于训练数据中缺乏故障情况,它们易于在现实世界场景中遭受不足的鲁棒性。在本文中,提出了一种用于训练更强大和可扩展模型的横向车辆控制框架。该框架仅需要一个未标记的RGB图像序列。训练的模型将点云作为输入,并将横向偏移预测到后续帧被推断出来的转向角。框架姿势又从视觉管道中获得。通过将密集的深度映射投影到3D中,构思点云。可以在训练期间生成来自此点云的任意数量的额外轨迹。这是为了增加模型的稳健性。在线实验表明,我们的方法的性能优于监督模型的性能。

* FUTR3D: A Unified Sensor Fusion Framework for 3D Detection
* 链接: arxiv.org/abs/2203.1064
* 作者: Xuanyao Chen,Tianyuan Zhang,Yue Wang,Yilun Wang,Hang Zhao
* 摘要: 传感器融合是许多感知系统中的重要主题,例如自主驾驶和机器人。现有的多模态3D检测模型通常涉及根据传感器组合或设置的定制设计。在这项工作中,我们提出了用于3D检测的第一个统一的端到端传感器融合框架,名为Futr3d,可用于(几乎)任何传感器配置。 Futr3d采用基于查询的模型 - 无话量特征采样器(MAF),以及变压器解码器,具有用于3D检测的设定损耗,从而使用后期融合启发式和后处理技巧。我们验证了我们在各种相机,低分辨率Lidars,高分辨率亮度和雷达的各种组合的效果。在Nuscenes数据集上,Futr3D在不同传感器组合中的专门设计方法上实现了更好的性能。此外,Futr3d实现了不同传感器配置的极大灵活性,并实现了低成本的自主驾驶。例如,只有使用带有相机的4梁激光雷达,Futr3d(56.8地图)使用32梁利达的最先进的3D检测模型中心点(56.6 MAP)达到PAR性能。

* Multimodal learning-based inversion models for the space-time reconstruction of satellite-derived geophysical fields
* 链接: arxiv.org/abs/2203.1064
* 作者: Ronan Fablet,Bertrand Chapron
* 摘要: 对于许多地球观测应用,可以从各种卫星传感器中受益,以解决一些过程的重建或感兴趣的信息。各种卫星传感器通过卫星轨道和/或对大气条件的敏感性提供不同的采样模式,以及它们对大气条件的敏感性(例如,破雨,大雨,......)。除了考虑不规则采样的观察的能力之外,模型驱动的反转方法的定义通常限于特定的案例研究,其中可以明确地推导出物理模型来涉及不同观察源。在这里,我们调查端到端的学习计划如何提供新方法来解决多模式反演问题。该拟议方案将变分配方与培训观察运营商相结合,{\ EM先验}术语和求解器。通过应用到空间海洋学,我们展示了该方案如何成功从卫星衍生的海面温度图像中提取相关信息,并增强从卫星高度数据发出的海面电流的重建。

* Point3D: tracking actions as moving points with 3D CNNs
* 链接: arxiv.org/abs/2203.1058
* 作者: Shentong Mo,Jingfei Xia,Xiaoqing Tan,Bhiksha Raj
* 其他: Accepted by the 32nd British Machine Vision Conference (BMVC 2021)
* 摘要: 时空行动识别是一个具有挑战性的任务,涉及检测行动发生的位置和何时发生。目前最先进的动作探测器大多是基于锚的,由于计算大量锚箱,因此需要敏感的锚设计和巨大计算。通过Nascent Anchor的方法激励,我们提出Point3D,一种灵活和计算的高效网络,具有高精度的时空动作识别。我们的point3d由一个点头用于行动定位和用于动作分类的3D头。首先,Point Head用于跟踪人类的中心点和结关键点,以定位一个动作的边界框。然后将这些位置特征管道在跨越框架中学习远程依赖性的时间明智。稍后部署3D头部以用于最终动作分类。我们的Point3d在JHMDB,UCF101-24和AVA基准中实现了最先进的性能,而框架地图和视频映射。综合消融研究还展示了我们Point3D中提出的每个模块的有效性。

* Self-supervised Point Cloud Completion on Real Traffic Scenes via Scene-concerned Bottom-up Mechanism
* 链接: arxiv.org/abs/2203.1056
* 作者: Yiming Ren,Peishan Cong,Xinge Zhu,Yuexin Ma
* 摘要: 由于自闭塞,外部闭塞和有限的传感器分辨率,真正的扫描总是错过物体的部分几何形状。点云完成旨在引用对象的不完整3D扫描的完整形状。目前基于深度学习的方法依赖于训练过程中的大规模完整形状,通常从合成数据集获得。由于领域差距,它不适用于现实世界扫描。在本文中,我们提出了一种自我监督点云完成方法(TRAPCC),用于实际交通场景中的车辆,而无需任何完整的数据。基于车辆的对称性和相似性,我们利用连续点云帧来构建车辆存储体作为参考。我们设计了一个自下而上的机制,专注于局部几何细节和输入的全局形状特征。此外,我们在网络中设计一个场景图,通过邻近车辆来关注缺失的部分。实验表明,即使没有任何完整的培训数据,Trapcc也可以实现良好的实际扫描完成性能良好的实际扫描完成性能。我们还显示了3D检测的下游应用,从我们的完成方法中受益。

* 3D Human Pose Estimation Using Möbius Graph Convolutional Networks
* 链接: arxiv.org/abs/2203.1055
* 作者: Niloofar Azizi,Horst Possegger,Emanuele Rodolà,Horst Bischof
* 摘要: 3D人类姿势估计是理解人类行为的基础。最近,通过图表卷积网络(GCN)实现了有希望的结果,该网络实现了最先进的性能并提供了相当轻量级的架构。然而,GCN的主要限制是它们无法明确地编码关节之间的所有转换。为解决此问题,我们使用Möbius转换(MöbiusGCN)提出了一种新颖的光谱GCN。特别是,这允许我们直接和明确地编码关节之间的转换,从而产生更紧凑的表示。与迄今为止最轻的架构相比,我们的新方法较少的参数需要90-98%,即我们的最轻的Möbiusgcn使用0.042米的培训参数。除了剧烈的参数减少外,明确编码关节的转换还使我们能够实现最先进的结果。我们评估了我们对两个具有挑战性的姿势估算基准,Human3.6M和MPI-INF-3DHP的方法,展示了最先进的结果和Möbiusgcn的泛化能力。

* Towards 3D Scene Understanding by Referring Synthetic Models
* 链接: arxiv.org/abs/2203.1054
* 作者: Runnan Chen,Xinge Zhu,Nenglun Chen,Dawei Wang,Wei Li,Yuexin Ma,Ruigang Yang,Wenping Wang
* 摘要: 在点云上的视觉感知方面取得了有希望的表现。然而,目前的方法通常依赖于现场扫描的劳动广泛的注释。在本文中,我们探讨了综合模型如何缓解真实的空白注释负担,即采取标记的3D合成模型作为监督的参考,神经网络旨在识别实际场景扫描上的特定类别的对象(没有Scoonisting的场景注释)。问题研究如何将知识从合成3D模型转移到真实的3D场景,并命名为转介学习(RTL)。主要挑战是求解模型到场景(从单个模型到场景),合成 - 真实(从合成模型到实际场景的对象)之间的综合模型和真实场景之间的间隙。为此,我们提出了一个简单但有效的框架来执行两个对齐操作。首先,物理数据对齐旨在使合成模型涵盖现场对象的多样性,具有数据处理技术。然后,新颖\ textbf {convex-hull正常化功能对齐}介绍了学习原型,以将合成模型和实际场景的点特征投影到统一的特征空间,减轻了域间隙。这些操作简化了网络的模型与场景和合成对实际难度,以识别真正看不见的场景上的目标对象。实验表明,我们的方法通过从ModelNet数据集中学习Synet Impics来实现SCANNet和S3DIS数据集的平均映射为46.08 \%和55.49 \%。代码将公开。

[推荐] * Depth Estimation by Combining Binocular Stereo and Monocular Structured-Light

* 链接: arxiv.org/abs/2203.1049
* 作者: Yuhua Xu,Xiaoli Yang,Yushan Yu,Wei Jia,Zhaobi Chu,Yulan Guo
* 其他: CVPR 2022
* 摘要: 众所周知,被动立体声系统不能适应弱纹理物体,例如白色墙壁。然而,这些弱纹理目标在室内环境中非常常见。在本文中,我们提出了一种新型立体声系统,包括两个相机(RGB相机和IR相机)和IR散斑投影仪。 RGB相机用于深度估计和纹理采集。 IR相机和散斑投影仪可以形成单眼结构灯(MSL)子系统,而两个相机可以形成双目立体声子系统。 MSL子系统生成的深度图可以为立体声匹配网络提供外部指导,可以显着提高匹配精度。为了验证所提出的系统的有效性,我们建立了一个原型并在室内场景中收集测试数据集。评估结果表明,当使用网络筏时,所提出的系统的糟糕2.0误差是被动立体声系统的28.2%。该HTTPS URL提供数据集和培训的型号。

* Optimizing Camera Placements for Overlapped Coverage with 3D Camera Projections
* 链接: arxiv.org/abs/2203.1047
* 作者: Akshay Malhotra,Dhananjay Singh,Tushar Dadlani,Luis Yoichi Morales
* 其他: 8 pages, 3 figures, 2022 International Conference on Robotics and Automation
* 摘要: 本文提出了一种计算摄像机6dof姿势以实现用户定义覆盖的方法。相机放置问题被建模为组合优化,在给定相机的最大数量时,从更大的可能的相机姿势中选择相机组。我们建议最小化所需和实现的覆盖之间的平方误差,并将非线性成本函数标注为混合整数线性编程问题。相机镜头模型用于将相机视图投影在3D Voxel地图上,以计算覆盖率分数,这使得实际环境中的优化问题进行了易行的。与现有方法相比,两个实际零售店环境中的实验结果表明,在覆盖范围内提出的制定性能更好地表现,并且与现有方法相比,三角形的重叠。

[推荐] * Portrait Eyeglasses and Shadow Removal by Leveraging 3D Synthetic Data

* 链接: arxiv.org/abs/2203.1047
* 作者: Junfeng Lyu,Zhibo Wang,Feng Xu
* 其他: Accepted by CVPR 2022
* 摘要: 在肖像中,眼镜可能会遮挡面部区域并在面上产生铸造阴影,这降低了诸如面部验证和表达识别等许多技术的性能。肖像镜片删除对于处理这些问题至关重要。然而,完全移除眼镜是挑战的,因为由它们引起的照明效果(例如,铸造阴影)通常是复杂的。在本文中,我们提出了一种新颖的框架来从面部图像中删除眼镜以及它们的铸造阴影。该方法以检测 - 然后去除的方式工作,其中检测到眼镜和铸造阴影,然后从图像中移除。由于缺乏用于监督培训的配对数据,我们介绍了一个新的合成肖像数据集,具有中间和最终监督,用于检测和删除任务。此外,我们应用跨域技术来填补合成和实数据之间的差距。据我们所知,所提出的技术是首先删除眼镜和它们的铸造阴影的同时。代码和合成数据集可在此HTTPS URL上使用。

[推荐] * Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation

* 链接: arxiv.org/abs/2203.1033
* 作者: Gu Wang,Fabian Manhardt,Xingyu Liu,Xiangyang Ji,Federico Tombari
* 其他: Accepted to TPAMI 2021, in IEEE Transactions on Pattern Analysis and Machine Intelligence. arXiv admin note: text overlap with arXiv:2004.06468
* 摘要: 6D对象姿态估计是计算机愿景中的基本且挑战性问题。卷积神经网络(CNNS)最近被证明能够预测即使在单眼设置下也能够预测可靠的6D姿势估计。尽管如此,CNN被识别为极其数据驱动,并且获取适当的注释是非常耗时和劳动密集型的。为了克服这一限制,我们通过自我监督学习提出了一种新颖的6D姿势估计方法,从而消除了对真实注释的需求。在培训我们建议的网络完全通过合成RGB数据监督之后,我们利用当前的趋势在嘈杂的学生培训和可差异化的渲染中,以进一步自我监督这些无监督的真正RGB(-D)样本的模型,寻求视觉和几何上最佳的对准。此外,采用可见和散阳掩模信息,我们的自我监督变得非常坚固,旨在挑战遮挡等方案。广泛的评估表明,我们所提出的自我监督优于依赖于合成数据的所有其他方法或从域适应领域采用精心制作技术。值得注意的是,我们的自我监督方法始终如一地改善其综合训练的基线,并且通常几乎将差距缩小到其完全监督的对应物。代码和型号在此HTTPS URL上公开可用。

[推荐] * Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds

* 链接: arxiv.org/abs/2203.1031
* 作者: Chenhang He,Ruihuang Li,Shuai Li,Lei Zhang
* 其他: 11 pages, 4 figures, CVPR2022
* 摘要: 变压器在许多2D视觉任务中表现出有希望的表现。然而,在大规模点云数据上计算自我关注是麻烦的,因为点云是长序列,并且在3D空间中不均匀地分布。为了解决这个问题,现有方法通常通过将点分组成相同大小的簇来计算本地的自我关注,或者在离散化表示上执行卷积自我注意。然而,前者导致随机点辍学,而后者通常具有狭义的关注领域。在本文中,我们提出了一种基于voxel的架构,即Voxel集变换器(VoxSet),通过设置到设置转换来检测来自点云的3D对象。 VoxSet是基于体素的集体注意力(VSA)模块构建的,这通过两组潜在代码引起的隐藏空间中的两个交叉关注和模型特征减少了每个体素中的自我关注。使用VSA模块,VoxSet可以在宽范围内使用任意尺寸的虚拟尺寸管理Voxelized Point集群,并以线性复杂性并行处理它们。该提议的VoxSet通过基于体素的模型的效率集成了变压器的高性能,这可以用作卷积和基于点骨干的良好替代品。 VoxSet报告Kitti和Waymo检测基准上的竞争结果。可以在\ URL {此HTTPS URL}找到源代码。

* Volkit: A Performance-Portable Computer Vision Library for 3D Volumetric Data
* 链接: arxiv.org/abs/2203.1021
* 作者: Stefan Zellmann,Giovanni Aguirre,Jürgen P. Schulze
* 摘要: 我们展示了一个具有高性能实现的volkit,具有高性能实现的图像操作和计算机视觉算法,专注于3D容量表示。Volkit实现了一个跨平台的性能便携式API,其针对CPU和GPU,缺少数据和资源移动,并使用受管API从应用程序开发人员隐藏它们。我们使用volkit来处理在VR中呈现的医疗和模拟数据,并因此将库集成到C ++虚拟现实软件Calvr中。本文提出了案例研究和绩效结果,并通过这表明图书馆的效率和这种方法的效率。

* Unsupervised Learning of 3D Semantic Keypoints with Mutual Reconstruction
* 链接: arxiv.org/abs/2203.1021
* 作者: Haocheng Yuan,Chen Zhao,Shichao Fan,Jiaxi Jiang,Jiaqi Yang
* 摘要: 语义3D关键点是对3D对象的类别层次语义一致点。检测三维语义关键点是许多的3D视觉任务,但仍然为基础的挑战,由于语义信息的不确定性,特别是当对象由无序的三维点云表示。现有的无监督方法往往产生在隐式方式类别级关键点,使得难以提取的高级信息,诸如语义标签和拓扑。从一种新颖的相互重建的角度来看,我们提出了一种无监督方法来生成从点云明确一致的语义的关键点。为了实现这一目标,该模型预测的关键点,不仅重建对象本身,而且在同一类别重建等情况。据我们所知,所提出的方法是首先从矿相互重建视图三维语义一致的关键点。在各种评价指标的实验以及与国家的最艺术的比较表明了我们新的解决方案,以挖掘语义一致的关键点与互修复的功效。

* Conditional-Flow NeRF: Accurate 3D Modelling with Reliable Uncertainty Quantification
* 链接: arxiv.org/abs/2203.1019
* 作者: Jianxiong Shen,Antonio Agudo,Francesc Moreno-Noguer,Adria Ruiz
* 摘要: 基于神经辐射场(NERF)的当前方法的关键限制是它们不能量化与场景的学习外观和几何相关联的不确定性。此信息在实际应用中至关重要,例如医疗诊断或自主驾驶,从而减少潜在的灾难性失败,必须将模型输出的信心包含在决策过程中。在这种情况下,我们引入有条件流动的NERF(CF-NERF),这是一种新的概率框架,以将不确定性定量纳入基于NERF的方法。为此目的,我们的方法了解了所有可能的辐射字段建模的分布,用于量化与所建模场景相关联的不确定性。与先前的方法相比,通过耦合潜伏的变量建模和条件归一化流,CF-NERF通过耦合潜伏的变量建模和条件归一化流程来以灵活和完全数据驱动的方式学习它。该策略允许获得可靠的不确定性估计,同时保持模型表达性。与先前的现有技术相比,提出了NERF中的不确定定量,我们的实验表明,该方法实现了显着降低的预测误差和更可靠的合成新颖视野和深度图估计的不确定性值。

* ViewFormer: NeRF-free Neural Rendering from Few Images Using Transformers
* 链接: arxiv.org/abs/2203.1015
* 作者: Jonáš Kulhánek,Erik Derner,Torsten Sattler,Robert Babuška
* 摘要: 新型视图综合是一个长期存在的问题。在这项工作中,我们考虑一个问题的变体,我们只给出了一些稀疏地覆盖场景或对象的少数背景视图。目标是预测现场的新型观点,需要学习前提。本领域的当前状态基于神经辐射场(NERF),同时实现令人印象深刻的结果,该方法遭受长期训练时间,因为它们需要通过为每个图像的深神经网络评估数千个3D点样本。我们提出了一种仅映射多个上下文视图和查询对神经网络的单个通行证的新图像的2D方法。我们的模型使用由码本和变压器模型组成的两级架构。码本用于将单个图像嵌入到一个较小的潜在空间中,并且变压器在更紧凑的空间中解决了视图综合任务。为了有效地训练我们的模型,我们介绍了一种新的分支注意力机制,允许我们不仅用于神经渲染的相同模型,还可以使用相机姿势估计。实验结果对现实世界场景表明,与基于NERF的方法相比,我们的方法是竞争力的,而不是在3D推理的情况下,训练更快。

视频处理 8篇

* CLIP meets GamePhysics: Towards bug identification in gameplay videos using zero-shot transfer learning
* 链接: arxiv.org/abs/2203.1109
* 作者: Mohammad Reza Taesiri,Finlay Macklon,Cor-Paul Bezemer
* 其他: Accepted by MSR 2022 conference
* 摘要: 游戏玩法视频包含有关玩家如何与游戏交互以及游戏如何响应的信息。在社交媒体平台上共享游戏视频,例如Reddit,已成为许多玩家的常见做法。通常,玩家将共享展示视频游戏错误的游戏视频。此类游戏视频是可用于游戏测试的软件工件,因为它们提供了对错误分析的洞察力。虽然存在大型存储视频的游戏视频存在,但以有效且结构化的方式解析和挖掘它们仍然是一项重大挑战。在本文中,我们提出了一种搜索方法,该方法接受任何英语文本查询作为输入,以检索来自GamePlay视频的大型存储库的相关视频。我们的方法不依赖于任何外部信息(例如视频元数据);它仅基于视频的内容。通过利用对比语言图像预训练(剪辑)模型的零拍摄传递能力,我们的方法不需要任何数据标签或培训。为了评估我们的方法,我们介绍了由1,873场比赛中的26,954个视频组成的$ \ texttt {gamephysics} $ dataSet,该数据集从Reddit网站的Gamephysics部分收集。我们的方法显示我们对简单查询,复合查询和错误查询的广泛分析,表明我们的方法对于游戏视频中的对象和事件检测有用。我们的方法的示例应用是作为游戏视频搜索引擎,以帮助再现视频游戏错误。请访问以下代码和数据的链接:$ \ href {this https url} {\ text {this http url}} $

* Fourier Disentangled Space-Time Attention for Aerial Video Recognition
* 链接: arxiv.org/abs/2203.1069
* 作者: Divya Kothandaraman,Tianrui Guan,Xijun Wang,Sean Hu,Ming Lin,Dinesh Manocha
* 摘要: 我们提出了一种算法,傅立叶活动识别(远),用于UAV视频活动识别。我们的配方使用新颖的傅里叶物体解剖学方法,以从背景中自然地分离出人体代理(通常是小的)。我们的解致技术在频域中运行,以表征空间像素的时间变化的程度,并利用傅立叶变换的卷积乘法属性来将该表示映射到从网络获得的相应对象背景缠绕特征。为了封装上下文信息和远程时空依赖,我们提出了一种新颖的傅立叶关注算法,通过在频域中建模加权外部产品来模拟自我关注的益处。我们傅里叶的重视配方比自我关注使用的数量少得多。我们在包括无人机人RGB,无人机夜,无人机动作和NEC无人机的多个UAV数据集中评估了我们的方法。我们在前1个精度上表现出8.02% - 38.69%的相对提高,在现有作品上速度快3倍。

* End-to-End Video Text Spotting with Transformer
* 链接: arxiv.org/abs/2203.1053
* 作者: Weijia Wu,Debing Zhang,Ying Fu,Chunhua Shen,Hong Zhou,Yuanqiang Cai,Ping Luo
* 其他: 10 pages, 5 figures
* 摘要: 最近的视频文本发现方法通常需要三个阶段管道,即检测单个图像中的文本,识别本地化文本,跟踪与后处理的文本流以生成最终结果。这些方法通常遵循跟踪逐匹配范例并开发复杂的管道。在本文中,植根于变压器序列建模,我们提出了一种简单但有效的端到端视频文本检测,跟踪和识别框架(TransDetTr)。 TransDetr主要包括两个优点:1)与相邻帧中的显式匹配范例不同,转换转换轨道并通过不同的查询被称为长范围时间序列(超过7帧)的文本查询隐式识别每个文本。 2)TransDetr是第一端到端可训练的视频文本发现框架,同时解决三个子任务(例如,文本检测,跟踪,识别)。在四个视频文本数据集中进行了广泛的实验(即,ICDAR2013视频,ICDAR2015视频,MINETTO和YouTube视频文本),以证明TransDetr实现最先进的性能,可在视频文本识别任务上提高大约8.0% 。可以在此HTTPS URL找到TransDetr代码。

* Stochastic Video Prediction with Structure and Motion
* 链接: arxiv.org/abs/2203.1052
* 作者: Adil Kaan Akan,Sadra Safadoust,Erkut Erdem,Aykut Erdem,Fatma Güney
* 其他: Not under submission
* 摘要: 虽然随机视频预测模型使得在不确定性下可以实现未来的预测,但它们主要未能模拟现实世界场景的复杂动态。例如,它们不能为具有移动摄像机的场景提供可靠的预测,并且在驾驶场景中独立地移动前景对象。通过专注于像素的变化,现有方法未能完全捕捉结构化世界的动态。在本文中,我们假设存在潜在的过程在视频中创建观察,并建议将其分解成静态和动态组件。我们基于现场结构和车辆的自我运动来模拟静态部分,以及基于动态对象的剩余运动的动态部分。通过学习前景和背景中的更改的单独分布,我们可以将场景分解为静态和动态部分,并分别模拟每个变化。我们的实验表明,解开结构和运动有助于随机视频预测,导致复杂驾驶场景中的未来预测,在两个现实世界驾驶数据集,基蒂和城市景观。

[推荐] * Optical Flow for Video Super-Resolution: A Survey

* 链接: arxiv.org/abs/2203.1046
* 作者: Zhigang Tu,Hongyan Li,Wei Xie,Yuanzhong Liu,Shifu Zhang,Baoxin Li,Junsong Yuan
* 摘要: 视频超分辨率目前是计算机愿景中最活跃的研究主题之一,因为它在许多可视应用中发挥着重要作用。通常,视频超分辨率包含重要组成部分,即运动补偿,其用于估计连续视频帧之间的位移以进行时间对准。可以在连续帧之间提供密集和子像素运动的光流是此任务的最常见方法。为了良好地理解光学流动在视频超分辨率中的影响,在这项工作中,我们首次对这一主题进行全面的审查。本调查涵盖以下主要主题:超级分辨率的功能(即,为什么我们需要超级分辨率);视频超分辨率的概念(即,视频超分辨率是什么);评估度量的描述(即,如何(视频)超级化执行);基于光流的视频超分辨率引入;光流量捕获视频超分辨率的时间依赖性的研究。显着的是,我们对基于深度学习的视频超分辨率方法进行了深入研究,其中分析了一些代表性算法。此外,我们突出了一些有前途的研究方向和应进一步解决的开放问题。

* Exploring Motion Ambiguity and Alignment for High-Quality Video Frame Interpolation
* 链接: arxiv.org/abs/2203.1029
* 作者: Kun Zhou,Wenbo Li,Xiaoguang Han,Jiangbo Lu
* 其他: 14 pages. 15 figures, 12 tables
* 摘要: 对于视频帧插值(VFI),基于现有的基于深度学习的方法强烈地依赖于地面真实(GT)中间帧,这有时忽略来自给定相邻帧的运动判断的非独特性。结果,这些方法倾向于产生不够清晰的平均溶液。为了减轻这个问题,我们建议放宽尽可能靠近GT重建中间框架的要求。为此,我们在假设内插内容应该在给定帧中的对应物中保持相似的结构时,我们在假设具有相似的结构的假设时开发纹理一致性损失(TCL)。鼓励满足该约束的预测,但它们可能与预定义的GT不同。没有钟声和吹口哨,我们的即插即用TCL能够提高现有VFI框架的性能。另一方面,以前的方法通常采用成本量或相关图,以实现更准确的图像/功能翘曲。然而,O(n ^ 2)({n是指像素计数})计算复杂度使得高分辨率案例不可行。在这项工作中,我们设计了一个简单,高效的(O(n))但功能强大的串尺度对准(CSPA)模块,其中高尺度信息高度被利用。广泛的实验证明了拟议策略的效率和有效性。

* Adversarial Attacks on Deep Learning-based Video Compression and Classification Systems
* 链接: arxiv.org/abs/2203.1018
* 作者: Jung-Woo Chang,Mojan Javaheripi,Seira Hidano,Farinaz Koushanfar
* 摘要: 视频压缩在实现视频流和分类系统方面发挥着至关重要的作用,并在给定的带宽预算中最大化最终用户体验(QoE)的最终用户质量。在本文中,我们对基于深度学习的视频压缩和下游分类系统的对抗攻击进行了第一个系统研究。我们提出了一种自适应对抗攻击,可以操纵视频压缩模型的速率失真(R-D)关系,以实现两个对抗目标:(1)增加网络带宽或(2)降低最终用户的视频质量。我们进一步向下游视频分类服务进一步设计了针对目标和未标准攻击的新颖目标。最后,我们设计了一个输入不变的扰动,以实时普遍扰乱视频压缩和分类系统。与先前提出的视频分类攻击不同,我们的对抗扰动是第一个承受压缩的侵害。我们经验展示了我们对各种防御,即对抗培训,视频去噪和JPEG压缩的攻击的恢复力。我们对各种视频数据集的广泛实验结果展示了我们攻击的有效性。我们的视频质量和带宽攻击在标准视频压缩数据集中达到5.4dB的峰值信噪比,最高可达5.4dB,并且比特率高达2.4次,同时在下游分类器上实现超过90%的攻击成功率。

* Inferring Articulated Rigid Body Dynamics from RGBD Video
* 链接: arxiv.org/abs/2203.1048
* 作者: Eric Heiden,Ziang Liu,Vibhav Vineet,Erwin Coumans,Gaurav S. Sukhatme
* 其他: Submitted to IROS 2022
* 摘要: 能够再现物理现象范围从光相互作用以接触机械,模拟器在越来越多的应用域中变得越来越有用,其中难以获得现实世界互动或标记数据。尽管最近进展,但需要大量的人力努力来配置模拟器以准确地再现真实行为。我们介绍了一种管道,该管道将反向渲染与可微弱的模拟相结合,以创建从深度或RGB视频的真实铰接机制的数字双胞胎。我们的方法自动发现关节类型并估计其运动学参数,而整体机制的动态属性被调整以获得物理准确的模拟。正如我们在模拟系统上演示,我们在我们的衍生模拟转移中优化的控制策略成功回到了原始系统。此外,我们的方法精确地重建了由机器人操纵的铰接机构的运动树,以及真实耦合摆机构的高度非线性动态。网站:这个HTTPS URL

医学图像分析 14篇

* Improving anatomical plausibility in medical image segmentation via hybrid graph neural networks: applications to chest x-ray analysis
* 链接: arxiv.org/abs/2203.1097
* 作者: Nicolás Gaggion,Lucas Mansilla,Candelaria Mosquera,Diego H. Milone,Enzo Ferrante
* 其他: Source code at this https URL
* 摘要: 解剖分割是医学图像计算中的基本任务,通常用完全卷积神经网络,产生密集的分割掩模。

* TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation with Transformers
* 链接: arxiv.org/abs/2203.1072
* 作者: Di Liu,Yunhe Gao,Qilong Zhangli,Zhennan Yan,Mu Zhou,Dimitris Metaxas
* 摘要: 组合来自多视图图像的信息对于提高疾病诊断的自动化方法的性能和稳健性至关重要。然而,由于多视图图像的非对准特征,构建相关性和跨视图的数据融合在很大程度上仍然是开放问题。在这项研究中,我们目前输血,基于变压器的架构使用卷积层和强大的注意机制来合并发散的多视图成像信息。特别地,提出了发散的融合(DIFA)模块用于丰富的跨视图上下文建模和语义依赖挖掘,解决了从不同图像视图中捕获未对齐数据之间的远程相关性的关键问题。我们进一步提出了多种关注(MSA)来收集多尺度特征表示的全局对应。我们评估心脏MRI(M \和MS-2)挑战队伍中的多疾病,多视图\和多中心右心室细分的输血。输血表明,针对最先进的方法的主要性能,并开辟了对强大的医学图像分割的多视图成像集成的新视角。

* Breast Cancer Induced Bone Osteolysis Prediction Using Temporal Variational Auto-Encoders
* 链接: arxiv.org/abs/2203.1064
* 作者: Wei Xiong,Neil Yeung,Shubo Wang,Haofu Liao,Liyun Wang,Jiebo Luo
* 其他: 18 pages
* 摘要: 客观和影响声明。我们采用鼠断层扫描(CT)鼠乳腺癌骨转移的骨骨溶解预测深度学习模型。鉴于骨CT扫描在先前的时间步骤中,该模型包含从顺序图像中学到的骨癌相互作用,并产生未来的CT图像。它预测癌症入侵骨骼中骨病变发展的能力可以有助于评估即将发生骨折和在乳腺癌骨转移中选择适当治疗的风险。介绍。乳腺癌经常转移到骨骼,导致骨溶解的病变,导致骨骼相关事件(SRES),包括严重的疼痛甚至致命的骨折。尽管目前的成像技术可以检测宏观骨病变,但预测骨骼病变的发生和进展仍然是一个挑战。方法。我们采用时间变分自编码器(T-VAE)模型,该模型利用变形自动编码器和长短期存储网络的组合来预测含有鼠胫骨的连续图像的微型CT数据集的骨病变出现。鉴于幼鼠胫骨的CT扫描在初期,我们的模型可以从数据中学习未来国家的分布。结果。我们对骨骼病变进展预测任务的其他基于深度学习的预测模型进行测试。我们的模型比各种评估指标下的现有模型产生更准确的预测。结论。我们开发了一个深入的学习框架,可以准确地预测和可视化骨溶解骨病变的进展。它将有助于规划和评估治疗策略以防止乳腺癌患者的SRES。

* VinDr-PCXR: An open, large-scale chest radiograph dataset for interpretation of common thoracic diseases in children
* 链接: arxiv.org/abs/2203.1061
* 作者: Ngoc H. Nguyen,Hieu H. Pham,Thanh T. Tran,Tuan N.M. Nguyen,Ha Q. Nguyen
* 其他: The manuscript is under review by Nature Scientific Data. arXiv admin note: substantial text overlap with arXiv:2012.15029
* 摘要: 由于大规模,注释数据集的可用性和高性能监督学习算法的出现,计算机辅助胸部射线照相(CXR)的计算机辅助诊断系统最近取得了巨大的成功。然而,由于缺乏高质量的医生注释的数据集,开展了用于检测和诊断CXR扫描中儿科疾病的诊断模型的发展。为了克服这一挑战,我们介绍和发布VIND​​R-PCXR,这是一个新的儿科CXR数据集,9,125项研究,回顾了2020年至2021年的越南的主要儿科医院。每次扫描由十多年的儿科放射学家手动注释经验。数据集标记为36个关键结果和15个疾病的存在。特别地,通过图像上的矩形边界框识别每个异常发现。据我们所知,这是包含病变级注释和图像级标签的第一和最大的儿科CXR数据集,用于检测多种发现和疾病。对于算法开发,数据集分为7,728的培训集和1,397的测试集。为使用数据驱动方法鼓励小儿CXR解释的新进步,我们提供了VINDR-PCXR数据采样的详细描述,并在此HTTPS URL上公开可用的数据集。

* Learning from Multiple Expert Annotators for Enhancing Anomaly Detection in Medical Image Analysis
* 链接: arxiv.org/abs/2203.1061
* 作者: Khiem H. Le,Tuan V. Tran,Hieu H. Pham,Hieu T. Nguyen,Tung T. Le,Ha Q. Nguyen
* 其他: Under review by Neurocomputing
* 摘要: 构建基于数据驱动方法的精确的计算机辅助诊断系统需要大量的高质量标记数据。在医学成像分析中,多个专家注释器通常在注释过程中产生关于“地面真理标签”的主观估计,具体取决于其专业知识和经验。结果,标记的数据可能包含各种具有高度分歧率的人类偏差,这显着影响了监督机器学习算法的性能。为了解决这一挑战,我们提出了一种简单而有效的方法,可以将来自多个放射学专家的注释组合用于培训基于深度学习的探测器,旨在检测医疗扫描的异常。拟议的方法首先估计地面真理注释和培训例子的置信区分。然后使用估计的注释及其分数来培训具有重新加权损失功能的深度学习检测器,以定位异常发现。我们对模拟和现实世界医学成像数据集进行了广泛的实验评估。实验结果表明,我们的方法显着优于不考虑注册人员中的分歧的基线方法,包括所有嘈杂的注释被同样地处理的方法,以及由注释器分开提供的不同标签集培训的不同模型的集合。 。

* Soft-CP: A Credible and Effective Data Augmentation for Semantic Segmentation of Medical Lesions
* 链接: arxiv.org/abs/2203.1050
* 作者: Pingping Dai,Licong Dong,Ruihan Zhang,Haiming Zhu,Jie Wu,Kehong Yuan
* 其他: 9 pages, 6 figures, 1 table
* 摘要: 医疗数据集通常面临稀缺和数据不平衡的问题。此外,向医疗病变的语义分割注释大型数据集是域名知识和耗时。在本文中,我们提出了一种新的对象混合方法(软CP中的短路),将副本粘贴增强方法结合在线的医学病变的语义细分,确保围绕依赖的正确边缘信息来解决上述问题。我们证明了该方法在不同的成像方式中的多个数据集中的有效性。在我们对Kits19 [2]数据集的实验中,软CP优于现有的医疗病变综合方法。软CP引号在低数据制度(10%的数据)中提供+ 26.5%DSC的增益,在高数据制度(所有数据)中,在离线训练数据中,真实图像的比率为+ 10.2%DSC合成图像为3:1。

* Adversarial Mutual Leakage Network for Cell Image Segmentation
* 链接: arxiv.org/abs/2203.1045
* 作者: Hiroki Tsuda,Kazuhiro Hotta
* 摘要: 我们提出了使用GaN的三个分段方法和发电机和鉴别器之间的信息泄漏。首先,我们提出了一种对抗的攻击训练模块(ATA模块),其使用注意机制从鉴别器到发电机,以增强和泄漏鉴别器中的重要信息。 ATA模块将重要信息从鉴别器发送到发电机。其次,我们提出了一种自上而下的像素 - 明智的难以注意模块(自上而下的PDA模块),其基于发电机中的像素方向难以到鉴别器来泄漏注意力图。发电机列车专注于像素明智的难度,并且鉴别者使用从发电机泄漏的难度信息进行分类。最后,我们提出了一种对抗的互动互漏网络(AML-NET),其相互泄漏了发电机和鉴别器之间的信息。通过使用其他网络的信息,它能够比普通分段模型更有效地训练。已经在两个用于细胞图像分割的数据集上进行了评估了三种提出的方​​法。实验结果表明,与常规方法相比,AML-Net的分割精度大大改善。

* Attri-VAE: attribute-based, disentangled and interpretable representations of medical images with variational autoencoders
* 链接: arxiv.org/abs/2203.1041
* 作者: Irem Cetin,Oscar Camara,Miguel Angel Gonzalez Ballester
* 摘要: 深度学习(DL)方法,可解释性本质上被视为模型的一部分,以更好地了解与DL结果的基于临床和成像的属性的关系,从而促进其在推理医学决策时使用。使用变形AutiaceCoders(VAE)构建的潜在空间表示不会确保单独控制数据属性。基于属性的方法在基准数据中的古典计算机视觉任务中提出了在文献中提出了依据脱信。在本文中,我们提出了一种VAE方法,包括属性正则化术语,以将临床和医学成像属性与生成的潜在空间中不同的正则化尺寸相关联,从而能够更好地对属性解释该属性。此外,所生成的注意力映射解释了正则化潜空间维度中的属性编码。 attri-vae方法分析了健康和心肌梗死患者临床,心脏形态和辐射瘤属性。该拟议模型在重建保真度,解除缺陷和可解释性之间提供了出色的权衡,优于若干定量度量,表现出最先进的VAE方法。由此产生的潜在空间允许在两个不同的输入样本之间或沿着特定属性维度之间产生轨迹的现实合成数据,以更好地解释不同的心脏条件之间的变化。

* Domain Adaptation Meets Zero-Shot Learning: An Annotation-Efficient Approach to Multi-Modality Medical Image Segmentation
* 链接: arxiv.org/abs/2203.1033
* 作者: Cheng Bian,Chenglang Yuan,Kai Ma,Shuang Yu,Dong Wei,Yefeng Zheng
* 其他: IEEE TMI
* 摘要: 由于缺乏适当的注释医疗数据,探索深层模型的泛化能力正成为公众关注。近年来零拍学习(ZSL)出现了装备深层模型,以识别看不见的课程。然而,现有研究主要关注自然图像,利用语言模型提取ZSL的辅助信息。将天然图像ZSL解决方案直接应用于医学图像是不切实际的,因为医学术语是非常具体的,并且不容易获得医学术语的语言模型。在这项工作中,我们提出了一种新的ZSL范式,具体用于利用跨模式信息的医学图像。我们提出了三项主要贡献,提出了拟议的范例。首先,我们从先前模型提取关于分段目标的先前知识,称为关系原型,然后提出跨模型自适应模块以将原型继承到零拍摄模型。其次,我们提出了一个关系原型意识模块,使零射模意识到原型中包含的信息。最后但并非最不重要的是,我们开发了一个继承注意模块来重新校准关系原型以增强继承过程。在包括心脏数据集和腹部数据集的两个公共交叉模态数据集上评估所提出的框架。广泛的实验表明,拟议的框架显着优于现有技术。

* Closing the Generalization Gap of Cross-silo Federated Medical Image Segmentation
* 链接: arxiv.org/abs/2203.1014
* 作者: An Xu,Wenqi Li,Pengfei Guo,Dong Yang,Holger Roth,Ali Hatamizadeh,Can Zhao,Daguang Xu,Heng Huang,Ziyue Xu
* 摘要: 跨筒仓联邦学习(FL)在近年来与深度学习的医学影像学分析中引起了很多关注,因为它可以解决数据,数据隐私和培训效率不足的关键问题。然而,在从FL和集中式训练中培训的模型之间可能存在泛化差距。这一重要问题来自参与客户端中的本地数据的非IID数据分布,并且被称为客户端漂移。在这项工作中,我们提出了一个新颖的培训框架FEDSM,以避免客户漂移问题并成功地关闭了第一次医学图像分割任务的集中培训。我们还提出了一种新颖的个性化FL客观的制定和新方法SoftPull,在我们提出的框架FEDSM中解决了它。我们开展严格的理论分析,以保证其优化非凸光滑目标函数的收敛性。使用Deep FL的现实世界医学图像分割实验验证了我们提出的方法的动机和有效性。

[推荐] * Review of Disentanglement Approaches for Medical Applications -- Towards Solving the Gordian Knot of Generative Models in Healthcare

* 链接: arxiv.org/abs/2203.1113
* 作者: Jana Fragemann,Lynton Ardizzone,Jan Egger,Jens Kleesiek
* 其他: 43 pages
* 摘要: 深度神经网络通常用于医学目的,例如图像生成,分割或分类。除此之外,他们经常被批评为黑匣子,因为他们的决定过程往往不是人类的可解释。鼓励生成模型的潜在代表被解除不诚格提供了新的控制和解释性的新视角。理解数据生成过程可以有助于在不违反患者隐私的情况下创建人造医疗数据集,合成不同的数据模型,或发现数据生成特征。这些特征可以解开与遗传性状或患者结果有关的新的关系。在本文中,我们全面概述了流行的生成模型,如生成的对抗网络(GANS),变形自身额度(VAES)和基于流量的模型。此外,我们总结了解除不祥的不同概念,审查解除潜在空间表示和指标的审查方法,以评估解剖程度。在介绍理论框架之后,我们概述了最近的医学应用,并讨论了医疗应用脱位方法的影响和重要性。

* Longitudinal Self-Supervision for COVID-19 Pathology Quantification
* 链接: arxiv.org/abs/2203.1080
* 作者: Tobias Czempiel,Coco Rogers,Matthias Keicher,Magdalini Paschali,Rickmer Braren,Egon Burian,Marcus Makowski,Nassir Navab,Thomas Wendler,Seong Tae Kim
* 其他: 10 pages, 3 figures
* 摘要: 随着时间的推移量化Covid-19感染是在全球大流行期间管理患者住院的重要任务。最近,已经提出了基于深入的学习方法来帮助放射科医生在纵向CT扫描上自动量化Covid-19病理。然而,深度学习方法的学习过程需要广泛的培训数据,以了解在纵向扫描上的受感染区域的复杂特征。收集大型数据集是挑战,特别是对于纵向训练。在这项研究中,我们希望通过提出新的自我监督学习方法来有效培训纵向网络以进行Covid-19感染的量化。为此目的,临床纵向Covid-19 CT扫描探讨了纵向自我监督计划。实验结果表明,该方法有效,帮助模型更好地利用纵向数据的语义,提高了两个Covid-19量化任务。

* Towards Clinical Practice: Design and Implementation of Convolutional Neural Network-Based Assistive Diagnosis System for COVID-19 Case Detection from Chest X-Ray Images
* 链接: arxiv.org/abs/2203.1059
* 作者: Daniel Kvak,Marian Bendik,Anna Chromcova
* 其他: computer-aided detection, convolutional neural network, COVID-19, deep learning, image classification
* 摘要: 早期检测和随后评估肺病发生率的关键工具之一是胸部射线照相。本研究提出了基于卷积神经网络(CNN)的Carebot Covid应用的真实实现,以检测来自胸X射线(CXR)图像的Covid-19。我们所提出的模型采用简单而直观的应用形式。使用的CNN可以部署为STOW-RS预测端点,用于直接实现DICOM观看者。该研究的结果表明,基于DENSENET和RESET架构的深度学习模型可以从CXR图像检测SARS-COV-2,精度为0.981,召回0.962和0.993的AP。

* AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation
* 链接: arxiv.org/abs/2203.1009
* 作者: Di You,Fenglin Liu,Shen Ge,Xiaoxia Xie,Jing Zhang,Xian Wu
* 其他: Accepted by MICCAI 2021 (the 24th International Conference on Medical Image Computing and Computer Assisted Intervention)
* 摘要: 最近,旨在自动生成给定医学形象的长期和连贯的描述性段落的医学报告,已得到越来越多的研究兴趣。与一般图像标题任务不同,医疗报告生成对数据驱动的神经模型更具挑战性。这主要是由于1)严重的数据偏置:正常的视觉区域在异常视觉区域上占据数据集,2)非常长的序列。为了减轻超过两个问题,我们提出了一个对齐的转换形态器框架,包括对齐分层关注(AHA)和多粒变压器(MGT)模块:1)AHA模块首先从输入图像预测疾病标签,然后学习多个通过分层对齐视觉区域和疾病标签来实现视觉特征。获得的疾病接地的视觉特征可以更好地代表输入图像的异常区域,这可以缓解数据偏置问题; 2)MGT模块有效地使用多颗粒特性和变压器框架来生成长医疗报告。公共IU-X射线和模仿-CXR数据集上的实验表明,AlignTransformer可以在两个数据集上实现对竞争的结果。此外,专业放射科医生进行的人类评估进一步证明了我们方法的有效性。

Transformer 12篇

* Transformer-based HTR for Historical Documents
* 链接: arxiv.org/abs/2203.1100
* 作者: Phillip Benjamin Ströbel,Simon Clematide,Martin Volk,Tobias Hodel
* 其他: This is an abstract submitted and accepted at ComHum 2022 in Lausanne. We will be elaborating on these initial findings in the paper that we will submit after the conference
* 摘要: 我们将特区框架应用于现实世界,历史稿件,并表明特罗治本身是一个强大的模型,非常适合转移学习。特罗治仅接受了英语培训,但它可以适应其他语言,这些语言可以很容易地使用拉丁字母和几乎没有训练材料。我们比较特罗治反对Sota HTR框架(Transkribus)并表明它可以击败这样的系统。这一发现是必不可少的,因为Transkribus在可以访问基线信息时表现最佳,这根本不需要微调特区。

[推荐] * Hyperbolic Vision Transformers: Combining Improvements in Metric Learning

* 链接: arxiv.org/abs/2203.1083
* 作者: Aleksandr Ermolov,Leyla Mirvakhabova,Valentin Khrulkov,Nicu Sebe,Ivan Oseledets
* 其他: CVPR 2022
* 摘要: 度量学习旨在学习高度辨别的模型,鼓励类似课程的嵌入,以便在所选的指标中接近并被推动为不同的度量。常见配方是使用编码器来提取嵌入的嵌入和基于距离的损耗函数来匹配表示 - 通常,使用欧几里德距离。对学习双曲数据嵌入的新兴兴趣表明,双曲线几何可以对自然数据有益。在此工作中,我们提出了一种新的基于双曲线的度量学习模型。在我们的方法中,我们的方法是一个视觉变压器,输出嵌入式映射到双曲线空间。这些嵌入式通过改进的成对交叉熵损耗直接优化。我们评估了六种不同配方的提出模型,以实现新的最先进性能的四个数据集。源代码在此HTTPS URL上可用。

* AnoViT: Unsupervised Anomaly Detection and Localization with Vision Transformer-based Encoder-Decoder
* 链接: arxiv.org/abs/2203.1080
* 作者: Yunseung Lee,Pilsung Kang
* 摘要: 图像异常检测问题旨在确定图像是否异常,并检测异常区域。这些方法在诸如制造,医疗和智能信息之类的各种领域中积极使用。编码器 - 解码器结构已广泛用于异常检测领域,因为它们可以在无监督的学习环境中容易地学习正常模式,并通过重建误差计算指示输入和重建图像之间的差异的分数来识别异常。因此,当前图像异常检测方法具有常用的卷积编码器解码器来通过图像的本地特征提取正常信息。然而,它们是有限的,因为由于使用固定尺寸的滤波器构造了由于卷积操作的特性而构建正常表示时,可以利用图像的局部特征。因此,我们提出了一种名为Anovit的基于视觉变换器的编码器 - 解码器模型,该模型设计为反映正常信息,通过此外,还可以在另外学习图像修补程序之间的全局关系,这能够进行图像异常检测和本地化。所提出的方法构造了一个特征图,它通过使用通过多个​​自我注意层传递的所有斑块的嵌入来维护各个贴片的现有位置信息。所提出的ANOVIT模型比三个基准数据集更好地表现优于基于卷积的模型。在MVTECAD中,它是一个代表性的基准数据集,用于异常本地化,它与基线相比,在15个类中的10个中显示出改善的结果。此外,不管定位结果评估了定位结果时,所提出的方法显示出良好的性能,无论定位结果如何评估定位结果。

* ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer
* 链接: arxiv.org/abs/2203.1079
* 作者: Rui Yang,Hailong Ma,Jie Wu,Yansong Tang,Xuefeng Xiao,Min Zheng,Xiu Li
* 其他: The code will be released
* 摘要: 香草自我关注机制本身依赖于预定义和坚定的计算尺寸。这种不灵活性限制了它拥有面向上下文的概括,可以带来更多的内容线索和全球陈述。为缓解此问题,我们提出了一种可扩展的自我关注(SSA)机制,它利用两个缩放因子来释放查询,键和value矩阵的维度,同时使用输入来解除它们。这种可扩展性提取面向上下文的泛化并增强对象灵敏度,这将整个网络推动到准确性和成本之间更有效的权衡状态。此外,我们提出了一种基于窗口的自我关注(IWSA),其通过重新合并独立的值令牌并从相邻窗口聚合空间信息来建立非重叠区域之间的交互。通过交替堆叠SSA和IWSA,可伸缩视觉变压器(可扩展VIT)在通用视觉任务中实现最先进的性能。例如,可扩展的vit-s优于Twins-SVT-S在ImageNet-1K分类上的1.4%和Swin-T的1.8%。

* GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection
* 链接: arxiv.org/abs/2203.1078
* 作者: Xian Fang,Jinshao Zhu,Xiuli Shao,Hongpeng Wang
* 摘要: RGB-D图像上的突出对象检测是计算机视觉中的活动主题。虽然现有方法取得了明显的表现,但仍存在一些挑战。卷积神经网络的局部性要求该模型具有足够深的全球接收领域,这总能导致局部细节的丢失。为了解决挑战,我们提出了一个新的RGB-D突出对象检测的组织变压器网络(GroupTransnet)。这种方法擅长了解跨层功能的远程依赖性,以促进更完美的特征表达。在开始时,中间三级稍高的类别的特征和后三个级别是软分组,以吸收高级功能的优点。通过注意机制反复净化并增强输入特征,以净化颜色模态和深度模态的跨模型特征。中间过程的特征首先由不同层的特征融合,然后由多个组中的多个变压器处理,这不仅使每个规模统一和相互关联的特征的大小,而且还实现了共享的效果组内的功能的重量。由于电平差异,不同组中的输出功能将群集交错两个,并与低级别功能组合。广泛的实验表明,GroupTransnet优于比较模型并实现了新的最先进的性能。

* V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer
* 链接: arxiv.org/abs/2203.1063
* 作者: Runsheng Xu,Hao Xiang,Zhengzhong Tu,Xin Xia,Ming-Hsuan Yang,Jiaqi Ma
* 摘要: 在本文中,我们研究了车辆 - 所有(V2X)通信的应用,提高了自主车辆的感知性能。我们使用新颖的视觉变压器提出了一种具有V2X通信的强大合作感知框架。具体而言,我们建立整体注意模型,即V2X-VIT,以有效地融合在道路上的信息(即车辆和基础设施)。 V2X-VT由交替的异构多助手自我关注和多尺度窗口自我关注的层组成,可捕获代理间交互和每个代理空间关系。这些关键模块设计在统一的变压器体系结构中,以处理常见的V2X挑战,包括异步信息共享,姿势错误和V2X组件的异构性。为了验证我们的方法,我们使用Carla和OpenCDA创建一个大规模的V2X感知数据集。广泛的实验结果表明,V2X-VIT为3D对象检测奠定了新的最先进的性能,即使在恶劣,嘈杂的环境下也能实现强大的性能。数据集,源代码和培训型号将是开放的。

* Iwin: Human-Object Interaction Detection via Transformer with Irregular Windows
* 链接: arxiv.org/abs/2203.1053
* 作者: Danyang Tu,Xiongkuo Min,Huiyu Duan,Guodong Guo,Guangtao Zhai,Wei Shen
* 摘要: 本文介绍了一个名为IWIN变压器的新视觉变压器,专门为人类对象交互(HOI)检测设计,一个详细的场景了解任务,涉及人体/对象检测和交互识别的顺序过程。 IWIN变形金刚是一个分层变换器,逐渐执行不规则窗口中的令牌表示学习和令牌集群。通过增强具有学习偏移的常规网格位置来实现的不规则窗口,1)消除令牌表示学习中的冗余,这导致有效的人类/对象检测,2)使凝聚的令牌能够与具有不同形状的人/物体对齐促进收购互动识别的高度抽象的视觉语义。 IWIN变压器的有效性和效率在两个标准的HOI检测基准数据集,HICO-DET和V-COCO上验证。结果表明,我们的方法优于现有的基于变压器的方法,通过大幅度的大幅度(3.7地图增益,v-coco上的2.0次映射增益),培训​​时期减少($ 0.5 \ times $)。

* simCrossTrans: A Simple Cross-Modality Transfer Learning for Object Detection with ConvNets or Vision Transformers
* 链接: arxiv.org/abs/2203.1045
* 作者: Xiaoke Shen,Ioannis Stamos
* 摘要: 转移学习广泛用于计算机视觉(CV),自然语言处理(NLP)并取得了巨大的成功。大多数传输学习系统基于相同的模态(例如,在CV中的RGB图像和NLP中的文本)。但是,跨模式传输学习(CMTL)系统稀缺。在这项工作中,我们将CMTL从2D中研究到3D传感器,探索3D传感器的上限性,仅在机器人导航中发挥关键角色,在低光场景中表现良好。虽然来自2D到3D视觉的大多数CMTL管道复杂且基于卷积神经网络(Convnets),但我们易于实施,扩展并基于扫描和视觉变换器(VITS):1)通过将点云转换为伪图像,我们可以根据2D图像使用几乎相同的网络。这使我们的系统易于实现和扩展。 2)最近VITS对闭塞显示出良好的性能和鲁棒性,是3D视觉系统性能不佳的主要原因之一。我们探索了具有类似型号的VIT和ConvNET来调查性能差异。我们命名我们的方法simcrosstrans:简单的跨模型传输使用扫描或VITS学习。 Sun RGB-D数据集的实验显示:Simcrosstrans基于CoundNets基于Convernets和Vits的13.2 \%$ 16.1 \%$ 13.1%。我们还观察到基于VITS的VITS为9.7 \%$更好地比Convnetts One更好,显示Simcrosstrans与Vit的力量。辛克斯斯特拉斯与VITS超越了以前的最先进的(SOTA),以大量的$ + 15.4 \%$ MAP50。与以前的2D检测SOTA基于RGB图像相比,我们的深度图像仅具有1 000美元的$ 1 \%$ GAP。在此HTTPS URL上公开可用的代码,培训/推理日志和模型

* Vision Transformer with Convolutions Architecture Search
* 链接: arxiv.org/abs/2203.1043
* 作者: Haichao Zhang,Kuangrong Hao,Witold Pedrycz,Lei Gao,Xuesong Tang,Bing Wei
* 摘要: 变压器在处理计算机视觉任务方面表现出很大的优势。它们通过利用多针注意机制来处理由分裂图像组成的一系列补丁来模拟图像分类任务。然而,对于复杂的任务,计算机愿景中的变压器不仅需要继承一种动态关注和全局背景,还需要引入关于降噪,移位和对象的缩放不变性的特征。因此,在这里,我们向前迈出了研究变压器和卷积的结构特征,并提出了一种具有卷积架构搜索(VTCAS)的架构搜索方法 - 视觉变压器。 VTCAS搜索的高性能骨干网将卷积神经网络的理想特征引入了变压器体系结构,同时保持了多针注意机制的好处。搜索的基于块的骨干网络可以提取不同尺度的特征映射。这些功能与更广泛的视觉任务相容,例如图像分类(参数32米,Imagenet-1K上的82.0%的前1个精度)和对象检测(Coco2017上的50.4%地图)。基于多针注意机制和CNN的提出拓扑,自适应地将像素的关系特征与对象的多尺度特征相关联。它增强了神经网络对物体识别的鲁棒性,尤其是在低照明室内场景中。

* End-to-End Human-Gaze-Target Detection with Transformers
* 链接: arxiv.org/abs/2203.1043
* 作者: Danyang Tu,Xiongkuo Min,Huiyu Duan,Guodong Guo,Guangtao Zhai,Wei Shen
* 摘要: 在本文中,我们提出了一种有效且有效的人凝视靶(HGT)检测方法,即凝视。电流方法将HGT检测任务分离成单独的凸起对象检测和人凝视预测的分支,采用双级框架,其中必须首先检测人头位置,然后被馈送到下一个凝视目标预测子网中。相比之下,我们将HGT检测任务重新定义为检测人头位置及其凝视目标。通过这种方式,我们的方法,命名为人凝视目标检测变压器或HGTTR,通过消除所有其他附加组件来简化HGT检测管道。关于突出对象与人类凝视从全球图像背景关系的原因。此外,与需要人体头部位置的现有两级方法不同,并且可以一次只预测一个人的凝视目标,HGTTR可以直接预测所有人的位置和他们的凝视目标在最后到底方式。我们提出的方法的有效性和稳健性在两个标准的基准数据集,吉兹义和视频图案上进行了广泛的实验。没有钟声和吹口哨,HGTTR通过大幅度的大幅度超越现有的最先进的方法(6.4地图增益,并在VideoAttingtarget上的映射增益10.3映射),具有更简单的架构。

* HIPA: Hierarchical Patch Transformer for Single Image Super Resolution
* 链接: arxiv.org/abs/2203.1024
* 作者: Qing Cai,Yiming Qian,Jinxing Li,Jun Lv,Yee-Hong Yang,Feng Wu,David Zhang
* 摘要: 基于变压器的架构开始出现单个图像超分辨率(SISR)并取得了有希望的性能。大多数现有视觉变换器将图像分为相同数量的块,固定大小,这对于恢复具有不同纹理丰富度的曲线可能不是最佳的。本文呈现HIPA,一种新颖的变压器架构,其逐步使用分层补丁分区恢复高分辨率图像。具体地,我们构建一个级联模型,可以在多个阶段处理输入图像,其中我们从具有小补丁大小的令牌开始,逐渐合并到完整分辨率。这种层级补丁机制不仅明确地实现了多个分辨率的特征聚合,还可以自适应地学习不同图像区域的修补程序感知特征,例如,使用较小的修补程序,用于具有细节的细节和较大的修补程序。同时,提出了一种用于变压器的新关注位置编码方案,以便通过将不同的权重分配给不同的标记,让网络重点关注哪个令牌,这是我们最佳知识的第一次。此外,我们还提出了一种新的多接收领域注意力模块,以扩大来自不同分支的卷积接收场。几个公共数据集的实验结果证明了所提出的HIPA在以前的方法上定量和定性的优越性。

[推荐] * DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition

* 链接: arxiv.org/abs/2203.1023
* 作者: Thanh-Dat Truong,Quoc-Huy Bui,Chi Nhan Duong,Han-Seok Seo,Son Lam Phung,Xin Li,Khoa Luu
* 其他: Accepted to CVPR 2022
* 摘要: 人类行动认可最近成为计算机视觉社区中受欢迎的研究主题之一。已经提出了各种基于3D-CNN的方法来解决视频动作识别任务的空间和时间维度,具有竞争性结果。然而,这些方法遭受了一些基本限制,例如缺乏鲁棒性和泛化,例如,视频帧的时间顺序如何影响识别结果?这项工作介绍了一种新的基于端到端的变压器的指示注意力(Direcformer)框架,用于鲁棒动作识别。该方法采用简单但新颖的基于变压器的方法来了解序列动作的正确顺序。因此,这项工作的贡献是三倍。首先,我们向行动识别问题介绍有序时间学习问题的问题。其次,引入了新的指导注意力机制,以了解并以正确的顺序对人类行为的关注。第三,我们介绍了包括订单和类的动作序列建模的条件依赖性。与最近的行动识别方法相比,拟议的方法始终如一地实现了最先进的(SOTA)结果,在三个标准的大规模基准上,即Jester,Kinetics-400和某种东西-V2。

注意力机制 3篇

[推荐] * MixFormer: End-to-End Tracking with Iterative Mixed Attention

* 链接: arxiv.org/abs/2203.1108
* 作者: Yutao Cui,Jiang Cheng,Limin Wang,Gangshan Wu
* 其他: Accepted by CVPR2022
* 摘要: 跟踪通常使用特征提取,目标信息集成和边界框估计的多级流水线。为简化该管道并统一特征提取和目标信息集成的过程,我们介绍了一个紧凑的跟踪框架,称为{\ em mixformer},构建在变压器上。我们的核心设计是利用注意力的灵活性,并提出混合注意力模块(MAM),用于同时特征提取和目标信息集成。该同步建模方案允许提取目标特定的鉴别特征,并在目标和搜索区域之间进行广泛的通信。基于MAM,我们简单地通过将多个MAM堆叠嵌入多个MAM嵌入并将本地化头放在顶部,构建混合器跟踪框架。此外,在在线跟踪期间处理多个目标模板,我们在MAM中设计了不对称的注意方案,以降低计算成本,并提出了一种有效的评分预测模块来选择高质量模板。我们的混音器在五个跟踪基准上设置了新的最先进的性能,包括莱斯特,TrackingNet,Vot2020,Got-10K和UAV123。特别是,我们的MIXFormer-L在莱斯特达到79.9的NP得分,88.9在VOT2020上的TACKPETNET和0.555的EAO。我们还表演了深入的消融研究,以证明同时特征提取和信息集成的有效性。代码和培训的型号在\ href {这个https url} {这个https url}。

* DSRRTracker: Dynamic Search Region Refinement for Attention-based Siamese Multi-Object Tracking
* 链接: arxiv.org/abs/2203.1072
* 作者: JiaXu Wan,Hong Zhang,Jin Zhang,Yuan Ding,Yifan Yang,Yan Li,Xuliang Li
* 其他: 25 pages, 7 figures, 6 tables
* 摘要: 许多多目标跟踪(MOT)方法遵循“通过检测跟踪”的框架,这基于检测结果将目标物体的物体与目标物体相关联。然而,由于检测和关联的单独模型,跟踪结果不是最佳的。速度,速度受到一些繁琐的关联方法来实现高跟踪性能的限制。在这项工作中,我们提出了一种端到端的MOT方法,具有高斯滤波器启发的动态搜索区域细化模块,以通过考虑来自过去帧的模板信息和来自的检测结果来动态过滤和优化搜索区域电流框架具有很少的计算负担,以及基于轻量级的关注的跟踪头,实现了有效的细粒度实例关联。对MOT17和MOT20数据集的广泛实验和消融研究表明,我们的方法可以通过合理的速度实现最先进的性能。

* CNN Attention Guidance for Improved Orthopedics Radiographic Fracture Classification
* 链接: arxiv.org/abs/2203.1069
* 作者: Zhibin Liao,Kewen Liao,Haifeng Shen,Marouska F. van Boxel,Jasper Prijs,Ruurd L. Jaarsma,Job N. Doornberg,Anton van den Hengel,Johan W. Verjans
* 其他: 12 pages, Published in IEEE Journal of Biomedical and Health Informatics
* 摘要: 由于其解决骨折分类问题的能力,卷积神经网络(CNNS)在近年来近年来的骨科成像具有显着普及。对CNN的共同批评是他们不透明的学习和推理过程,使得难以信任机器诊断和随后在临床环境中采用这种算法。当CNN受到限制量的医疗数据训练时,这尤其如此,这是一种常见问题,因为策划足够大量的注释的医学成像数据是长且昂贵的过程。虽然兴趣通过可视化网络关注来解释CNN了解知识,但很少研究了可视化以改善网络学习的可视化。本文探讨了与人类的关注指导正常化CNN网络的有效性,网络应该寻找回答线索的图像。在两个骨科放射线摄影分类数据集上,通过广泛的实验,我们证明明确的人性引导的注意事项确实可以直接正确的网络关注,从而显着提高分类性能。拟议注意力指导的发展守则在GitHub上公开提供。

对抗生成学习 7篇

* Interpreting Class Conditional GANs with Channel Awareness
* 链接: arxiv.org/abs/2203.1117
* 作者: Yingqing He,Zhiyi Zhang,Jiapeng Zhu,Yujun Shen,Qifeng Chen
* 其他: Project page: this https URL
* 摘要: 了解生成的对抗性网络(GANS)的机制有助于我们更好地使用GAN进行下游应用。现有的努力主要是针对解释无条件模型的,否则探索了有条件的GaN如何学习如何呈现有关各种类别的图像。通过调查类条件发生器如何统一多个类的合成,这项工作填补了这个差距。为此目的,我们潜入广泛使用的类条件批量归一化(CCBN),并观察到每个特征通道在给定不同的分类嵌入时在不同程度上激活。为了描述这种现象,我们提出了频道意识,该频道意识定量表征了单一信道如何有助于最终合成。在想象中预培训的Biggan模型的广泛评估和分析显示,只有渠道的子集主要负责生成特定类别,类似类别(例如,CAT和Dog)通常与某些相同的频道相关联,以及一些频道已拒绝分享所有类的信息。对于良好的衡量标准,我们的算法使多种具有条件GAN的新颖应用。具体地说,我们通过简单地改变单个通道来实现(1)多功能图像编辑并管理到(2)和谐地杂交两种不同的类。我们进一步验证所提出的渠道意识显示(3)分割合成图像和(4)评估类别方面合成性能的有希望的潜力。

* High-fidelity GAN Inversion with Padding Space
* 链接: arxiv.org/abs/2203.1110
* 作者: Qingyan Bai,Yinghao Xu,Jiapeng Zhu,Weihao Xia,Yujiu Yang,Yujun Shen
* 其他: Project page: this https URL Code: this https URL
* 摘要: 反转生成的对抗性网络(GaN)促进使用预先训练的发生器的各种图像编辑任务。现有方法通常采用导致的潜在空间作为反转空间,但观察空间细节的不充分恢复。在这项工作中,我们建议涉及发电机的填充空间,以补充具有空间信息的潜在空间。具体地,我们用一些实例感知系数替换在卷积层中使用的恒定填充(例如,通常零)。以这种方式,预先训练模型中假设的感应偏差可以适当地适于适合每个单独的图像。通过学习精心设计的编码器,我们设法提高了定性和定量,优于现有替代品的反演质量。然后,我们证明这种太空延伸几乎没有影响原生GaN歧管,因此我们仍然可以重用由GAN学习的先前知识用于各种下游应用程序。除了现有技术中探索的编辑任务之外,我们的方法允许更灵活的图像操纵,例如面部轮廓和面部细节的单独控制,并且使得用户可以高效地定制自己的操纵的新颖编辑方式。

* An integrated Auto Encoder-Block Switching defense approach to prevent adversarial attacks
* 链接: arxiv.org/abs/2203.1093
* 作者: Anirudh Yadav,Ashutosh Upadhyay,S.Sharanya
* 摘要: 根据最近的研究,最先进的神经网络对对抗性输入样品的脆弱性急剧增加。神经网络是计算机学习使用机器学习算法执行任务的中间路径或技术。机器学习和人工智能模型已成为生活的基本方面,如自动驾驶汽车[1],智能家居设备,因此任何漏洞都是一个重要的问题。最小的输入偏差可以欺骗这些极其文字系统,并将其用户和管理员欺骗到不稳定的情况下。本文提出了一种用于自动编码器[3]和块切换架构的组合的防御算法。自动编码器旨在删除输入图像中发现的任何扰动,而块切换方法用于使其更加坚固地防止白盒攻击。攻击计划使用FGSM [9]模型,并将进行后续架构的反攻击,从而展示算法提供的可行性和安全性。

[推荐] * RGB-Depth Fusion GAN for Indoor Depth Completion

* 链接: arxiv.org/abs/2203.1085
* 作者: Haowen Wang,Mingyuan Wang,Zhengping Che,Zhiyuan Xu,Xiuquan Qiao,Mengshi Qi,Feifei Feng,Jian Tang
* 其他: CVPR 2022
* 摘要: 由室内深度传感器捕获的原始深度图像通常具有广泛的缺失深度值,因为固有的局限性,例如无法感知透明对象和有限的距离范围。不完整的深度映射负担许多下游视觉任务,并提出了一个上升的深度完成方法来缓解这个问题。虽然大多数现有方法可以从稀疏和均匀采样的深度图产生精确的密集深度映射,但它们不适合补充缺失深度值的大型连续区域,这是常见的和至关重要的。在本文中,我们设计了一种新的双分支端到端融合网络,它需要一对RGB和不完整的深度图像作为输入,以预测密集和完成的深度图。第一分支采用编码器 - 解码器结构来从RGB图像中提取的局部引导信息的帮助,从原始深度图中从原始深度图中重新拍摄局部密集深度值。在另一个分支中,我们提出了一个RGB深度融合GaN,将RGB图像转移到细粒纹理深度图。我们采用名为W-Adain的自适应融合模块传播两个分支机构的特征,并且我们附加置信融合头以使最终深度图的分支的两个输出融合。关于Nyu-Depth V2和Sun RGB-D的广泛实验证明我们所提出的方法清楚地提高了深度完成性能,特别是在伪深度图的帮助下在室内环境的更现实的环境中。

* A naive method to discover directions in the StyleGAN2 latent space
* 链接: arxiv.org/abs/2203.1037
* 作者: Andrea Giardina,Soumya Subhra Paria,Adhikari Kaustubh
* 摘要: 几个研究组已经表明,生成的对抗性网络(GANS)近年来可以产生照片逼真的图像。使用GANS,在潜在代码和照片逼真图像之间创建地图。该过程也可以颠倒:给出照片作为输入,可以获得相应的潜像。在本文中,我们将展示如何轻松利用反转过程来解释潜在空间并控制能够生成照片逼真面的GAN架构的样式创建的输出。从生物学的角度来看,诸如鼻部大小的面部特征取决于重要的遗传因素,我们探讨了与这种生物学特征相对应的潜在空间,包括男性气质和眼睛颜色。我们通过将所提出的方法应用于从Celeba-HQ数据库中提取的一组照片来显示通过应用所提出的方法获得的结果。我们通过利用两个地标协议来量化其中一些措施,并通过统计分析评估其鲁棒性。最后,我们将这些措施与用于沿着那些可解释的方向扰乱潜伏空间的输入参数相关联。我们的结果有助于建立在法医中使用此类GaN架构的基础,以产生满足某些生物属性的照片 - 现实面。

* Compression of Generative Pre-trained Language Models via Quantization
* 链接: arxiv.org/abs/2203.1070
* 作者: Chaofan Tao,Lu Hou,Wei Zhang,Lifeng Shang,Xin Jiang,Qun Liu,Ping Luo,Ngai Wong
* 其他: ACL 2022
* 摘要: 生成的预先训练的语言模型(PLMS)的增加大大增加了模型压缩的需求。尽管采用了各种方法来压缩伯特或其变体,但仍有很少的尝试压缩生成PLM,并且潜在的难度仍不清楚。在本文中,我们通过量化压缩生成PLM。我们发现,由于通过减小的容量引起的\ exceit {同质字嵌入},之前的量化方法失败了生成任务,以及\ extentit {权重分布}。相应地,我们提出了一种令牌级对比蒸馏来学习可区分的单词嵌入,以及模块 - 明智的动态缩放,以使量化器适应不同的模块。各种任务的经验结果表明,我们所提出的方法优于通过清晰的余量在生成PLM上形成最先进的压缩方法。采用全精度型号的可比性,PPT-2和BART分别实现了14.4倍和13.4倍的压缩率。

* Concept-based Adversarial Attacks: Tricking Humans and Classifiers Alike
* 链接: arxiv.org/abs/2203.1016
* 作者: Johannes Schneider,Giovanni Apruzzese
* 其他: Accepted at IEEE Symposium on Security and Privacy (S&P) Workshop on Deep Learning and Security, 2022
* 摘要: 我们建议通过修改编码语义有意义的概念的上层的激活来产生对抗性样本。原始样品通过使用修饰的激活来重建原始样品,朝向靶样品移往靶样品,产生对抗性样品。人类可能(并且可能应该)注意到原始和对抗样本之间的差异。根据攻击者提供的约束,对抗性样本可以表现出微妙的差异,或者看起来像来自另一个类的“伪造”样本。我们的方法和目标与涉及人类无法识别的单个像素扰动的常见攻击鲜明对比。我们的方法是相关的,例如,对投入的多级处理,人类和机器都参与了决策,因为隐形扰动不会欺骗人类。我们的评价重点是深度神经网络。我们还显示了网络之间的对抗示例的可转移性。

非强监督学习 12篇

* Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via Cross-modal Distillation
* 链接: arxiv.org/abs/2203.1116
* 作者: Antonin Vobecky,David Hurych,Oriane Siméoni,Spyros Gidaris,Andrei Bursuc,Patrick Pérez,Josef Sivic
* 其他: See project webpage this https URL for the code and more
* 摘要: 这项工作在没有任何手动注释的情况下调查城市场景中的学习像素 - 明智的语义图像分割,只能从由汽车收集的原始非策划数据,配备相机和激光器传感器,在城市周围开车。我们的贡献是三倍。首先,我们提出了一种通过利用同步的激光雷达和图像数据来提出一种用于语义图像分割的跨模式无监督学习的新方法。我们的方法的关键成分是使用对象提案模块,该模块分析LIDAR点云以获得空间一致对象的提案。其次,我们表明,这些3D对象提案可以与输入图像对齐,并可将其可靠地聚集在语义上有意义的伪类中。最后,我们开发了一种跨模型蒸馏方法,其利用部分注释的图像数据与所产生的伪类进行训练以训练基于变压器的图像语义分割模型。我们通过在没有任何FineTuning的情况下测试四种不同的测试数据集(CityCAPES,DAMAGE,DISTIME DIVERT和ACDC)来测试我们的方法的泛化能力,并展示与当前最新技术相比的显着改进。请参阅项目网页这个HTTPS URL的代码和更多。

* Self-Supervised Road Layout Parsing with Graph Auto-Encoding
* 链接: arxiv.org/abs/2203.1100
* 作者: Chenyang Lu,Gijs Dubbelman
* 摘要: 针对更高级别的场景理解,这项工作提出了一种神经网络方法,它在鸟瞰图中占据了道路布局地图作为输入,并预测了代表道路拓扑布局的人可解释的图表。我们的方法提升了从像素级别到图形水平的道路布局的理解。为实现此目标,使用图像图形图像自动编码器。该网络旨在学习在其自动编码器瓶颈处回归图形表示。该学习是通过图像重建损失自我监督,而无需任何外部手动注释。我们创建一个包含常用道路布局模式的合成数据集,并使用它除了真实的协会数据集之外还将其用于培训自动编码器。通过使用这一额外的合成数据集,这些数据集概念性地捕获了道路布局的人类知识并使其可供网络培训,我们能够稳定和进一步提高对现实世界协会数据集的拓扑道路布局的表现。评估表明,我们的方法对强大的全监督基线表现出相当的性能。

* Towards Self-Supervised Gaze Estimation
* 链接: arxiv.org/abs/2203.1097
* 作者: Arya Farkhondeh,Cristina Palmero,Simone Scardapane,Sergio Escalera
* 摘要: 最近的基于联合嵌入的自我监督方法已经超过了各种图像识别任务等标准监督方法,例如图像分类。这些自我监督的方法旨在最大化从相同图像的两个不同变换的视图中提取的特征之间的协议,这导致了关于外观和几何图像变换的不变表示。然而,在凝视估计的背景下,这些方法的有效性仍不清楚,这是一个结构化回归任务,其需要在几何变换下(例如,旋转,水平翻转)。在这项工作中,我们提出了SWAT,这是基于在线聚类的自我监督方法SWAV的一种等价版,以了解凝视估计的更多信息陈述。我们确定了用于自我监督预测的最有效的图像转换,并证明了RESET-50的SWAT并支持未标记的未标记面部图像,优于各种实验中的最先进的凝视估计方法和监督基线。特别是,我们在现有基准上的交叉数据集和数据集内部评估任务中获得高达57%和25%的改进(Eth-XGaze,Gaze360和MPIIFaceGaze)。

* Semantic Segmentation with Active Semi-Supervised Learning
* 链接: arxiv.org/abs/2203.1073
* 作者: Aneesh Rangnekar,Christopher Kanan,Matthew Hoffman
* 摘要: 使用深度学习,我们现在有能力创建异常良好的语义细分系统;然而,收集用于训练图像的先决条件像素的注释仍然昂贵且耗时。因此,可以最大限度地减少创建新数据集时所需的人类注释数量是理想的选择。在这里,我们通过提出一种结合主动学习和半监督学习的新算法来解决这个问题。主动学习是一种识别最佳未标记样本的方法来注释。虽然在积极学习进行分割时,大多数方法都需要在每个图像中注释所有像素对象,而不是仅提供最佳信息区域。我们认为这是效率低下。相反,我们的主动学习方法旨在最大限度地减少每张图像的注释数量。我们的方法丰富了半监督学习,我们使用与教师学生框架生成的伪标签来识别帮助消除歧义的图像区域。我们还集成了能够在不平衡标签分布上实现更好的性能的机制,这尚未在语义细分中进行主动学习。在Camvid和CityCAPES数据集的实验中,我们的方法使用不到19%的培训数据获得了在全培训集中获得了超过95%的网络性能,而以前的技术技术要求40%的培训数据。

[推荐] * HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule Network

* 链接: arxiv.org/abs/2203.1069
* 作者: Chang Yu,Xiangyu Zhu,Xiaomei Zhang,Zidu Wang,Zhaoxiang Zhang,Zhen Lei
* 其他: Accepted by CVPR2022
* 摘要: 胶囊网络旨在通过一组零件及其关系呈现对象,这提供了对视觉感知程序的洞察力。尽管最近的作品已经表现出胶囊网络的成功,如数字等简单物体,但是具有适合胶囊的同源结构的人面尚未探讨。在本文中,我们提出了一种用于无监督面子子部分发现的分层解析胶囊网络(HP-Capsule)。在没有标签的情况下浏览大规模面部图像时,网络首先用一组可说明的子部分胶囊编码经常观察的图案。然后,将子地图胶囊通过基于变压器的解析模块(TPM)组装成部分级胶囊,以学习它们之间的组成关系。在训练期间,由于逐步构建和精制面部层次,部分胶囊可自适应地用语义一致性编码面部部件。 HP-Capsule扩展了胶囊网络从数字到人面的应用,并迈出了一步,以展示神经网络如何理解没有人为干预的同源物体。此外,HP-Capsule通过部分胶囊的覆盖区域提供了无监督的面部分割结果,从而实现了定性和定量评估。 BP4D和多派数据集的实验显示了我们方法的有效性。

[推荐] * Unsupervised Domain Adaptation for Nighttime Aerial Tracking

* 链接: arxiv.org/abs/2203.1054
* 作者: Junjie Ye,Changhong Fu,Guangze Zheng,Danda Pani Paudel,Guang Chen
* 其他: accepted by CVPR2022
* 摘要: 以前的对象追踪的进步主要报告了有利的照明环境,同时忽略了夜间性能,这显着阻碍了相关的空中机器人应用的发展。这项工作改为为夜间空中跟踪(命名为UDAT)开发一种新型无监督域适应框架。具体地,提供了一种唯一的对象发现方法来从生根夜间跟踪视频生成训练补丁。为了解决域差异,我们使用基于变压器的桥接层发布到特征提取器,以对准两个域的图像特征。通过变压器日/夜特征鉴别器,白天跟踪模型在夜间训练训练训练。此外,我们构建一个开创性的基准即NAT2021,用于无监督域自适应夜间跟踪,包括180个手动注释的跟踪序列和一组超过276K未标记的夜间跟踪帧的列车组。详尽的实验证明了夜间空中跟踪中提出的框架的鲁棒性和域适应性。此HTTPS URL可提供代码和基准。

[推荐] * SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization

* 链接: arxiv.org/abs/2203.1049
* 作者: Canjie Luo,Lianwen Jin,Jingdong Chen
* 其他: Accepted to appear in CVPR 2022
* 摘要: 最近自我监督的代表学习从现场文本识别社区中汲取了相当大的关注。与以前的研究不同,使用对比学习,我们通过以生成方式制定表示学习方案,从替代角度来解决问题。通常,一个文本线之间的相邻图像曲线倾向于具有类似的样式,包括由这种常识激励的笔划,纹理,颜色等,我们增强了一个图像修补程序并使用其相邻补丁作为恢复自身的指导。具体地,我们提出了相似性感知标准化(Siman)模块来识别不同的模式并从引导补丁对应对应的样式。以这种方式,网络获得了区分复杂的模式,例如凌乱的冲程和杂乱的背景的复杂模式的表示能力。实验表明,拟议的西南显着提高了代表性质量,实现了有希望的性能。此外,我们令人惊讶地发现,我们的自我监督生成网络具有令人印象深刻的数据综合,文本图像编辑和字体插值的潜力,这表明建议的Siman具有广泛的实际应用。

* No Shifted Augmentations (NSA): compact distributions for robust self-supervised Anomaly Detection
* 链接: arxiv.org/abs/2203.1034
* 作者: Mohamed Yousef,Marcel Ackermann,Unmesh Kurup,Tom Bishop
* 摘要: 无监督的异常检测(AD)需要使用仅可用ID样本构建正常的概念,区分分配(ID)和分布外(OOD)数据。最近,在使用自我监督对比特征学习作为第一步之后的自然图像域的这项任务对这项任务进行了大的收益,其次是用于特色评分的knn或传统的单级分类器。已经显示出在单位过度的非均匀分布的学习者对此任务有利。进一步进一步研究,并调查ID特征分布的\ emph {几何紧凑性}如何更容易地隔离和检测异常值,尤其是在污染ID培训数据时的现实情况(即ID数据包含用于用于的某些EOD数据学习特征提取器参数)。我们提出了对自我监督特征学习步骤的新颖架构修改,使得能够学习的ID数据如此紧凑的分布。我们表明,建议的修改可以有效地应用于大多数现有的自我监督目标,性能大的收益。此外,可以获得这种改进的性能,而不诉诸诸如使用强大增强的ID图像(例如,旋转90度旋转)作为看不见的OOD数据的代理,因为这些施加了关于ID数据及其修正的过度规范性假设。我们对基准数据集进行广泛的研究,以便在ID数据的污染情况下显示一类ood检测的基准数据集,并在污染情况下显示最先进的性能,以及相当的性能。我们还提出并广泛地评估了基于角毛板距离的新颖特征评分技术,并提出了一种简单而新颖的技术在评估期间的特征合并,这使得能够以几乎零的运行时间成本进行大幅提升。

[推荐] * Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and Semi-Supervised Semantic Segmentation

* 链接: arxiv.org/abs/2203.1027
* 作者: Junwen Pan,Pengfei Zhu,Kaihua Zhang,Bing Cao,Yu Wang,Dingwen Zhang,Junwei Han,Qinghua Hu
* 其他: Accepted to IJCV 2022
* 摘要: 具有有限注释的语义分割,例如弱监督的语义细分(WSSS)和半监督语义分割(SSSS)是一项挑战性的任务,最近引起了很多关注。大多数领先的WSSS方法采用复杂的多阶段培训策略,以尽可能精确地估计伪标签,但它们遭受高模型复杂性。相比之下,存在另一个研究线,其中在一个训练周期中培训具有图像级标签的单个网络。然而,这种单阶段策略通常由于不准确的伪标记估计而造成的复杂效应,通常表现不佳。要解决此问题,本文为单级WSSS和SSSS提供了一个自我监督的低级网络(SLRNet)。 SLRNET使用跨视图自我监督,即,它同时从图像的不同视图中预测几个互补的细节LR表示,以学习精确的伪标签。具体而言,我们将LR表示学习重构为集体矩阵分解问题,并以端到端的方式与网络学习共同优化它。生成的LR表示在跨越不同视图捕获稳定语义的同时弥补嘈杂的信息,使其对输入变化稳健,从而减少了对自我监督错误的过度拟合。 SLRNET可以为各种标签有效的语义分割设置提供统一的单级框架:1)具有图像级标记的数据,2)SSSS,具有几个像素级标记数据,以及具有几个像素的SSSS - 级别标记数据和许多图像级标记数据。在Pascal VOC 2012,Coco和L2ID数据集上的广泛实验表明,我们的SLRNet优于所有最先进的WSSS和SSSS方法,具有各种不同的设置,证明了其良好的普遍性和功效。

* Learning Morphological Feature Perturbations for Calibrated Semi-Supervised Segmentation
* 链接: arxiv.org/abs/2203.1019
* 作者: Mou-Cheng Xu,Yu-Kun Zhou,Chen Jin,Stefano B Blumberg,Frederick J Wilson,Marius deGroot,Daniel C. Alexander,Neil P. Oxtoby,Joseph Jacob
* 其他: Accepted at Conference on Medical Imaging with Deep Learning (MIDL) 2022. arXiv admin note: text overlap with arXiv:2110.12179
* 摘要: 我们提出了不匹配,这是一种新的一致性驱动的半监督分段框架,它产生了不变学习功能扰动的预测。不匹配由编码器和双头解码器组成。一个解码器学会对未破坏的图像上的感兴趣的前景区域(ROI)的积极关注,从而产生扩张的特征。另一个解码器学会对同一未标记图像上的前景的负面关注,从而产生腐蚀的特征。然后,我们在配对的预测上应用一致性正则化。不匹配在基于CT的肺血管分割任务和基于MRI的脑肿瘤分割任务上的最先进的半监督方法。此外,我们表明,不匹配的有效性来自更好的模型校准而不是监督的学习对应。

* FaceMap: Towards Unsupervised Face Clustering via Map Equation
* 链接: arxiv.org/abs/2203.1009
* 作者: Xiaotian Yu,Yifan Yang,Aibo Wang,Ling Xing,Hanling Yi,Guangming Lu,Xiaoyu Wang
* 摘要: 面部聚类是计算机愿景中的基本任务,因为诸如增强现实或相册管理等相关应用程序的爆炸。这项任务的主要挑战在于图像特征表示中相似性的不完美性。鉴于现有特征提取模型,它仍然是一个未解决的问题,即如何利用未标记图像的相似性的固有特性来提高聚类性能。通过回答问题,我们通过将脸部聚类作为非重叠社区检测的过程制定了一个有效的无人监督方法,并将脸部聚类制定为一个非重叠的社区检测过程,并最大限度地减少图像网络网络上的信息流的熵。熵由地图方程表示,其最小值表示期望图像中的图像之间的最小描述。灵感来自观察来自面部图像构造的亲和图中的排名过渡概率,我们开发了一个异常值的检测策略,以便自适应地调整图像之间的转换概率。消融研究的实验表明,Facemap显着优于现有方法,并在三个流行的大型数据集中实现了用于面部聚类的新型,例如,超过10亿美元的绝对改善和4 \%$比较在成对F分的平均值方面分别与先前无监督的方法。我们的代码在GitHub上公开提供。

* Inferring topological transitions in pattern-forming processes with self-supervised learning
* 链接: arxiv.org/abs/2203.1020
* 作者: Marcin Abram,Keith Burghardt,Greg Ver Steeg,Aram Galstyan,Remi Dingreville
* 其他: 15 pages, 5 figures
* 摘要: 模式形成过程中拓扑和微观结构制度的过渡的识别和分类对于在许多应用结构域中理解和制造微观结构上精确的新材料至关重要。遗憾的是,相关的微观结构转换可能取决于未被相位转换的经典理论捕获的微妙和复杂方式的过程参数。虽然监督机器学习方法对于识别转换制度可能是有用的,但它们需要需要先验的订单参数或相关结构知识的标签。通过动态系统的普遍性原理,我们使用自我监督方法来解决使用神经网络从观察到的微观结构预测过程参数的逆问题。该方法不需要标记数据关于预测微观结构转换的目标任务的数据。我们表明,执行该预测任务的难度与发现微观结构制度的目标有关,因为微观结构模式的定性变化对应于我们自我监督预测问题的不确定性的变化。我们通过在两个不同的图案形成过程中自动发现微观结构制度的转变来证明我们的方法的价值:两相混合物的旋趾分解和在薄膜物理气相沉积期间二元合金的浓度调制的形成。这种方法打开了一个有希望的道路,用于发现和理解看不见或难以检测的过渡方案,最终用于控制复杂的模式形成过程。

小样本学习 3篇

* VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning
* 链接: arxiv.org/abs/2203.1044
* 作者: Wenjia Xu,Yongqin Xian,Jiuniu Wang,Bernt Schiele,Zeynep Akata
* 摘要: 人类注释的属性作为零射击学习中的强大语义嵌入品。然而,他们的注释过程是劳动密集型和需要专家监督。目前无监督的语义嵌入,即Word Embeddings,在类之间启用知识传输。但是,Word Embeddings并不总是反映视觉相似性并导致零射击性能。我们建议发现包含零射击学习的鉴别视觉特性的语义嵌入,而不需要任何人类注释。我们的模型根据其视觉相似性,从看视觉划分一组从看的类到本地图像区域的集群中,进一步施加了他们的课堂歧视和语义相关性。要将这些集群与以前的未看不见的类相关联,我们使用外部知识,例如,Word Embeddings并提出一个新颖的类关系发现模块。通过定量和定性评估,我们展示了我们的模型发现语义嵌入,模拟了所看到和看不见的课程的视觉属性。此外,我们在三个基准上展示了我们视觉上接地的语义嵌入的基准,通过大边距,进一步提高了各种ZSL模型的单词嵌入的性能。

* CLIP on Wheels: Zero-Shot Object Navigation as Object Localization and Exploration
* 链接: arxiv.org/abs/2203.1042
* 作者: Samir Yitzhak Gadre,Mitchell Wortsman,Gabriel Ilharco,Ludwig Schmidt,Shuran Song
* 摘要: 世界各地的家庭都包含任意物体:从伴侣葫芦和咖啡杯到Sitar和吉他。考虑到这种多样性,机器人感知必须处理大量的语义对象,而无需额外的微调即可广泛适用于房屋。最近,零拍模型在Armatrary对象的图像分类中表现出令人印象深刻的性能(即,在推理的图像中分类图像,在训练期间未明确地看出)。在本文中,我们将零拍视觉模型(例如,剪辑)的成功转换为对象导航的流行体现AI任务。在我们的设置中,代理必须找到通过文本指定的任意目标对象,来自来自不同数据集的未遵守环境。我们的关键洞察力是将任务模块化为零拍摄对象本地化和探索。采用这种哲学,我们在车轮(牛)基线上设计夹子,为任务进行评估,并在栖息地和罗伯尔模拟器中评估每个零射频模型。我们发现一个简单的母牛,具有基于剪辑的对象本地化加上经典探索,而且没有额外的培训,通常在成功,效率和鲁棒性方面优于数据集分配转移的鲁莽地。当所有类别上测试零击时,这款牛在栖息地和10.0%SPL中达到6.3%的SPL。在现有工作中考虑的四个罗伯伦类的子集上,同样的牛在学习最先进的基线上取得了16.1个百分点的成功。

[推荐] * Incremental Few-Shot Learning via Implanting and Compressing

* 链接: arxiv.org/abs/2203.1029
* 作者: Yiting Li,Haiyue Zhu,Xijia Feng,Zilong Cheng,Jun Ma,Cheng Xiang,Prahlad Vadakkepat,Tong Heng Lee
* 其他: This work has been submitted to the ECCV for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible
* 摘要: 这项工作侧重于解决增量少量学习(IFSL)的具有挑战性,但逼真的视觉任务,这需要一个模型,只能在几个例子中不断地学习小说类,同时不会忘记预先训练的基本类。我们的研究表明,IFSL的挑战位于阶级间分离和新型阶级代表中。 DUR到课外变体,新颖的类可以隐含地利用来自多个基类的知识来构建其特征表示。因此,简单地重用预先训练的嵌入空间可能导致分散的特征分布并导致类别混淆。要解决此类问题,我们提出了一种转入As \ TextBF {IM}种植和\ TextBF {Co} MuSting(\ TextBF {IMCO})的两步学习策略,该策略在系统中优化了特征空间分区和新型类重建方式。具体而言,在\ textBF {植入}步骤中,我们建议使用数据丰富的基础集的帮助模仿新颖类的数据分布,因此模型可以学习具有有利于歧视基础和基础之间的语义富有的功能其他看不见的课程。在\ textBF {compressing}步骤中,我们调整特征提取器以精确地表示用于增强类内紧凑性的每个新型类,以及用于防止攻击模型更新的正则化参数更新规则。最后,我们展示了IMCO优于竞争基线,具有重要边缘,无论是图像分类任务还是更具挑战性的对象检测任务。

图学习 1篇

* Online Skeleton-based Action Recognition with Continual Spatio-Temporal Graph Convolutional Networks
* 链接: arxiv.org/abs/2203.1100
* 作者: Lukas Hedegaard,Negar Heidari,Alexandros Iosifidis
* 其他: 11 pages, 6 figures, 5 tables
* 摘要: 基于图形的推理,骨架数据被出现为人类行动识别的有希望的方法。然而,基于图形的方法的应用主要采用整个时间序列作为其输入,以设置在线推理的设置需要相当大的计算冗余。在本文中,我们通过将时空图卷积神经网络重新制定为持续推理网络来解决这个问题,这可以在没有重复帧处理的情况下及时执行逐步执行的逐步预测。为了评估我们的方法,我们创建了ST-GCN,成本-GCN的持续版本,以及具有不同自我关注机制,COAGCN和COS-TR的两个推导方法。我们调查了对推理加速的权重传输策略和架构修改,并对NTU RGB + D 60,NTU RGB + D 120和动力学骨架400数据集进行实验。保留类似的预测精度,我们观察到时间复杂程度高达109倍,硬件加速度为26倍,在在线推理期间在52%的最大分配内存中减少。

跟踪 2篇

[推荐] * Transforming Model Prediction for Tracking

* 链接: arxiv.org/abs/2203.1119
* 作者: Christoph Mayer,Martin Danelljan,Goutam Bhat,Matthieu Paul,Danda Pani Paudel,Fisher Yu,Luc Van Gool
* 其他: Accepted at CVPR 2022. The code and trained models are available at this https URL
* 摘要: 基于优化的跟踪方法通过集成目标模型预测模块,通过最小化目标函数来提供有效的全局推理,从而广泛成功。虽然这种归纳偏差集成了有价值的域知识,但它限制了跟踪网络的表现。因此,我们提出了一种采用基于变换器的模型预测模块的跟踪器架构。变形金刚捕捉到具有很小感应偏差的全球关系,从而允许它学习对更强大的目标模型的预测。我们进一步扩展了模型预测器以估计用于准确边界框回归的第二组权重。所得到的跟踪器依赖于训练和测试帧信息,以便预测转换地的所有重量。我们通过在多个跟踪数据集上进行全面的实验,培训拟议的跟踪器端到端并验证其性能。我们的跟踪器在三个基准上设置了新的最新状态,在挑战吊放数据集中实现了68.5%的AUC。

* Robust Visual Tracking by Segmentation
* 链接: arxiv.org/abs/2203.1119
* 作者: Matthieu Paul,Martin Danelljan,Christoph Mayer,Luc Van Gool
* 其他: 24 pages, 8 figures
* 摘要: 估计目标范围在视觉对象跟踪中提出了一个根本的挑战。通常,跟踪器以框为中心,完全依赖边界框以定义场景中的目标。在实践中,对象通常具有复杂的形状并且不与图像轴对齐。在这些情况下,边界框不提供目标的准确描述,并且通常包含大多数背景像素。我们提出了一个以分割为中心的跟踪管道,不仅产生高精度的分割掩码,而且还使用分段掩码而不是边界框。因此,我们的跟踪器能够更好地学习目标表示,该目标表示从背景内容中清楚地区分了场景中的目标。为了实现具有挑战性的跟踪方案的必要稳健性,我们提出了一个单独的实例定位组件,用于在产生输出掩模时调整分段解码器。我们从分割掩码中推断有限框,并在挑战的跟踪数据集上验证我们的跟踪器,并在莱卡斯成功的成功率为69.7%的艺术状态。由于由于缺少的掩码注释而无法完全评估跟踪数据集的预测掩模,因此我们进一步验证了两个流行的视频对象分段数据集上的分段质量。

分割 3篇

[推荐] * Tree Energy Loss: Towards Sparsely Annotated Semantic Segmentation

* 链接: arxiv.org/abs/2203.1073
* 作者: Zhiyuan Liang,Tiancai Wang,Xiangyu Zhang,Jian Sun,Jianbing Shen
* 其他: Accepted by CVPR2022
* 摘要: 稀疏地注释的语义分割(SASS)旨在用粗粒(即点,涂鸦和块和块)监督进行分割网络,其中仅在每个图像中标记小比例的像素。在本文中,我们通过为未标记像素提供语义指导,为SAS提出新的树木能量损失。树能量损失将图像表示为模拟低级和高级对性亲和力的最小跨越树。通过顺序地将这些亲和力应用于网络预测,以粗略的方式产生用于未标记像素的软伪标签,实现动态在线自我训练。通过将其与传统的分割损失相结合,树能量损失是有效且易于结合到现有框架中。与以前的SASS方法相比,我们的方法不需要多级培训策略,交替优化程序,额外的监督数据,或耗时的后处理,同时在所有SASS设置中表达它们。代码可在此HTTPS URL中获得。

* Towards Robust Semantic Segmentation of Accident Scenes via Multi-Source Mixed Sampling and Meta-Learning
* 链接: arxiv.org/abs/2203.1039
* 作者: Xinyu Luo,Jiaming Zhang,Kailun Yang,Alina Roitberg,Kunyu Peng,Rainer Stiefelhagen
* 其他: Code will be made publicly available at this https URL
* 摘要: 自治车辆利用城市场景细分来理解真实世界,如人类,并相应地反应。正常场景的语义细分在传统基准测试中经历了显着的准确性。然而,实际事故的重要部分具有异常场景,例如具有物体变形的异常场景,倾覆和意外的交通行为。由于驾驶场景的小小的错误分割可能导致对人类生命的严重威胁,但事故情景中这些模型的稳健性是确保智能运输系统安全的极其重要的因素。在本文中,我们提出了一种多源元学习无监督域适应(MMUDA)框架,以改善分段变压器的概括到极端事故场景。在MMUDA中,我们利用多域混合采样来增强多个源域(正常场景)的图像与目标数据出现(异常场景)。要培训我们的模型,我们在多源设置中跨越并研究了元学习策略,以强调分段结果。我们通过Hybridaspp解码器设计进一步增强了分割骨干(SEGFormer),具有大窗口注意空​​间金字塔池和剥离池,以有效地聚集远程上下文依赖项。我们的方法在DADA-SEG基准测试中实现了46.97%的MIOU分数,超过了以前的最先进的模型超过7.50%。代码将在此HTTPS URL上公开提供。

* Label conditioned segmentation
* 链接: arxiv.org/abs/2203.1009
* 作者: Tianyu Ma,Benjamin C. Lee,Mert R. Sabuncu
* 其他: MIDL 2022
* 摘要: 语义分割是计算机视觉中的重要任务,这些任务通常与卷积神经网络(CNNS)进行解决。 CNN学习通过在一对图像及其相应的地基分割标签上进行训练产生像素级预测。对于具有多个类的分割任务,标准方法是使用计算多通道概率分割映射的网络,每个通道表示一个类。在图像网格尺寸(例如,当3D音量时)和/或标签数相对较大的应用中,标准(基线)方法对于我们的计算资源可能会对昂贵。在本文中,我们提出了一种简单但有效的方法来解决这一挑战。在我们的方法中,分割网络产生单通道输出,同时在单个类标签上调节,该标签确定网络的输出类。我们的方法称为标签条件分割(LCS),可用于划分具有大量类别的图像,这可能对于基线方法可能是不可行的。我们还证明了标签调节可以提高给定骨干架构的准确性,这归功于其参数效率。最后,正如我们所展示的结果,当在训练期间只有粗标签时,LCS模型就会在推理时间内产生先前看不见的细粒度标签。我们在此提供所有代码:这个https url

检测 6篇

* EAutoDet: Efficient Architecture Search for Object Detection
* 链接: arxiv.org/abs/2203.1074
* 作者: Xiaoxing Wang,Jiale Lin,Junchi Yan,Juanping Zhao,Xiaokang Yang
* 摘要: 由于大型数据集和复杂的网络模块,检测训练CNN是耗时的,这使得难以直接搜索架构上的架构,这通常需要大量的搜索成本(通常是数百个GPU-Days)。相比之下,本文介绍了一个名为eautodet的有效框架,可以发现实用的骨干和FPN架构,以便在1.4 GPU-天中进行对象检测。具体而言,我们为两个骨干和FPN模块构建一个超值,并采用可分辨率的方法。为了降低GPU内存要求和计算成本,我们通过将候选操作的权重分享在一个边缘并将它们巩固到一个卷积中来提出内核重用技术。还引入了动态信道改进策略以搜索频道号。广泛的实验表现出我们方法的显着功效和效率。特别是,发现的架构超越了最先进的对象检测NAS方法,实现了120 fps和49.2映射的40.1映射,在Coco测试开发装置上具有41.3 fps。我们还将发现的体系结构转移到旋转检测任务,实现了21.1亿参数的Dota-V1.0测试集上的77.05 Map $ {\ text {50}} $。

* Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation
* 链接: arxiv.org/abs/2203.1059
* 作者: Zongyang Ma,Guan Luo,Jin Gao,Liang Li,Yuxin Chen,Shaoru Wang,Congxuan Zhang,Weiming Hu
* 摘要: 开放词汇对象检测旨在检测培训集外的新型对象类别。先进的开放词汇双级探测器采用实例级视觉上的知识蒸馏,以将检测器的视觉空间与预训练的视觉语言模型(PVLM)的语义保持一致。然而,在更有效的单级探测器中,没有类别不可知的物体提案阻碍了看不见物体的知识蒸馏,导致严重的性能下降。在本文中,我们提出了一种分层视觉语言知识蒸馏方法,即HIERKD,用于开放词汇单级检测。具体而言,探讨了全球级知识蒸馏,以将观察类别与PVLM的知识转移到探测器。此外,我们结合了拟议的全球级知识蒸馏和常见的案例级知识蒸馏,以同时学习所看到和看不见的类别的知识。关于MS-Coco的广泛实验表明,我们的方法在零拍摄检测和广义零拍摄检测设置下具有11.9 \%和6.7 \%$ 5.7 \%$ 5.7 \%$ ap {5.7 \ 5.7 \%$ 5.7 \%$ 5.7 \%$ 5.7 \%$ 5.7 \%$ 5.7 \%。与最佳两级检测器相比,$ AP_ {50} $性能差距从14 \%到7.3 \%。

[推荐] * CLRNet: Cross Layer Refinement Network for Lane Detection

* 链接: arxiv.org/abs/2203.1035
* 作者: Tu Zheng,Yifei Huang,Yang Liu,Wenjian Tang,Zheng Yang,Deng Cai,Xiaofei He
* 其他: CVPR2022 Acceptance
* 摘要: 车道在智能车辆的视觉导航系统中至关重要。当然,Lane是具有高级别语义的交通标志,而它拥有特定的本地模式,需要详细的低级功能以准确定位。使用不同的特征级别对于准确的车道检测非常重要,但仍探索。在这项工作中,我们呈现横梁细化网络(CLRNET),旨在充分利用车道检测中的高级和低级功能。特别是,它首先通过高电平语义特征检测车道,然后根据低级功能进行细化。通过这种方式,我们可以利用本地详细车道特征来利用更加内容信息来检测车道,以提高本地化精度。我们呈现羊酸以收集全球背景,进一步增强了车道的特征表示。除了我们的新型网络设计外,我们还介绍了Line IOU丢失,将车道线作为整体单位退回,以提高本地化精度。实验表明,所提出的方法极大地优于最先进的车道检测方法。

[推荐] * SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition

* 链接: arxiv.org/abs/2203.1020
* 作者: Mingxin Huang,Yuliang Liu,Zhenghao Peng,Chongyu Liu,Dahua Lin,Shenggao Zhu,Nicholas Yuan,Kai Ding,Lianwen Jin
* 其他: Accepted to be appeared in CVPR 2022
* 摘要: 由于挖掘现场文本检测和识别的内在协同作用,近年来,端到端的场景文本斑点引起了极大的关注。然而,最近的最先进的方法通常通过共享骨干来纳入检测和识别,这不直接利用两个任务之间的特征交互。在本文中,我们提出了一个新的端到端场景文本拍摄框架,被称为SwintextSpotter。使用具有动态头作为探测器的变压器编码器,我们通过新颖的识别转换机制统一两个任务,以通过识别损耗明确指导文本本地化。直接的设计导致简洁的框架,该框架既不需要额外的整流模块和任意形状文本的字符级注​​释。在多面向数据集ROIC13和ICDAR 2015上的定性和定量实验,任意形状的数据集总文本和CTW1500,以及多语言数据集矩阵(中文)和VINTELE(越南语)展示了SWintextSpotter显着优于现有方法。代码可在此HTTPS URL中获得。

* Analysis and Adaptation of YOLOv4 for Object Detection in Aerial Images
* 链接: arxiv.org/abs/2203.1019
* 作者: Aryaman Singh Samyal,Akshatha K R,Soham Hans,Karunakar A K,Satish Shenoy B
* 摘要: 对于各种计算机愿景任务的无人航空车辆(无人机)部署的最近和快速增长已经为许多机会铺平了路径,使其更有效和更有价值。由于外观,姿势和规模的变化,空中图像中的对象检测是挑战。自动空中飞行系统具有其继承的记忆和计算功率需求准确和计算的实时应用的检测算法。我们的工作表明,具有高精度和推广速度的空中图像中的热门YOLOV4框架的适应性,可在空中图像中预测对象及其位置。我们利用转移学习,以便更快地收敛vistone DetSial对象检测数据集。培训的模型导致平均平均精度(MAP)为45.64%,推理速度在TESLA K80 GPU上达到8.7FPS,在检测截短和闭塞物体时高度准确。我们通过实验评估了不同网络分辨率大小和培训时代对性能的影响。具有若干当代空中物体探测器的比较研究证明了yolov4更好地表现更好,暗示了更合适的检测算法,可以包含在空中平台上。

* Automated Detection of Acute Promyelocytic Leukemia in Blood Films and Bone Marrow Aspirates with Annotation-free Deep Learning
* 链接: arxiv.org/abs/2203.1062
* 作者: Petru Manescu,Priya Narayanan,Christopher Bendkowski,Muna Elmi,Remy Claveau,Vijay Pawar,Biobele J. Brown,Mike Shaw,Anupama Rao,Delmiro Fernandez-Reyes
* 其他: 13 pages, 2 tables, 5 figures
* 摘要: 虽然血液薄膜和骨髓骨髓吸食的光学显微镜检查是建立急性白血病诊断的关键步骤,尤其是在低资源环境中,其中其他诊断方式可能无法使用,任务仍然耗时和易于人类不一致。这对需要紧急治疗的急性早幼粒细胞白血病(APL)的情况产生了影响。将自动计算造血病理学整合到临床工作流程可以提高这些服务的吞吐量,并降低认知人体错误。然而,部署此类系统的主要瓶颈是缺乏足够的细胞形态对象 - 标签注释来培训深入学习模型。我们通过利用患者诊断标签来培养培训检测不同类型的急性白血病的弱监督模型来克服这一点。我们介绍了一种深入的学习方法,对白细胞识别的多实例学习(Millie),能够以最小的监督对血膜进行自动可靠的分析。没有培训以分类个体细胞,米利在血膜中区分急性淋巴细胞和髓性白血病之间。更重要的是,Millie检测血膜中的APL(AUC 0.94 +/- 0.04)和骨髓抽吸物(AUC 0.99 +/- 0.01)。米利是一种可行的解决方案,可以增强需要评估血膜显微镜的临床途径的吞吐量。

分类 & 检索 6篇

* Multispectral Satellite Data Classification using Soft Computing Approach
* 链接: arxiv.org/abs/2203.1114
* 作者: Purbarag Pathak Choudhury,Ujjal Kr Dutta,Dhruba Kr Bhattacharyya
* 其他: Proc. of International Conference on Advances in Communication, Network, and Computing (CNC), 2014
* 摘要: 卫星图像是远程感测的图像数据,其中每个像素表示地球上的特定位置。记录的像素值是来自该位置的地球表面的反射辐射。与对所有波长的Panchromic图像相比,多光谱图像是捕获电磁谱的特定频率的图像数据。由于这些图像的高分辨率和高尺寸,它们为聚类技术产生了困难,以便有效地检测不同尺寸,形状和密度的簇作为快速处理时间的折衷。在本文中,我们提出了一种基于网格密度的聚类技术,用于识别物体。我们还介绍一种方法来使用基于规则的基于机器学习算法对卫星图像数据进行分类。使用若干合成和基准数据集已验证对象识别和分类方法。

* Image Classification on Accelerated Neural Networks
* 链接: arxiv.org/abs/2203.1108
* 作者: Ilkay Sikdokur,Inci Baytas,Arda Yurdakul
* 其他: Presented at Basarim 2020 conference
* 摘要: 对于图像分类问题,由于它们的成功产生了高精度,通常使用各种神经网络模型。卷积神经网络(CNN)是用于图像分类应用的最常用的深度学习方法之一。它可能会在其复杂性方面产生异常准确的结果。然而,模型越复杂的是训练所需的时间越长。在本文中,给出了使用FPGA的功率的加速设计,用于基本的CNN模型,该模型包括一个卷积层和一个完全连接层的训练阶段的一个完全连接层。尽管如此,由于训练阶段包括推断,推理阶段也会自动加速。在这种设计中,卷积层由主计算机计算,并且通过FPGA板计算完全连接的层。应该指出的是,在这种设计中没有考虑卷积层的培训,并留下了未来的研究。结果非常令人鼓舞,因为这种FPGA设计在训练和推理中大约2次,诸如主机计算机上的一些最先进的深度学习平台的性能。

* Transparency strategy-based data augmentation for BI-RADS classification of mammograms
* 链接: arxiv.org/abs/2203.1060
* 作者: Sam B. Tran,Huyen T. X. Nguyen,Hieu H. Pham,Ha Q. Nguyen
* 摘要: 已普遍研究了图像增强技术,以提高深度学习(DL)算法对乳房X线摄影分类任务的性能。最近的方法证明了图像增强对数据缺陷或数据不平衡问题的效率。在本文中,我们提出了一种新的透明度策略来提高乳房成像报告和数据系统(Bi-Rads)分数的乳房X线照片分类器。该方法利用利益区域(ROI)信息从原始图像产生更高风险的训练示例。我们的广泛实验是在我们的基准乳房数据键口数据集上进行的。实验结果表明,所提出的方法超越了当前最先进的数据增强技术,如上采样或削减。该研究突出显示透明度方法比Bi-RADS分类的其他增强策略更有效,并且可以广泛应用于计算机视觉任务。

* Computational ergonomics for task delegation in Human-Robot Collaboration: spatiotemporal adaptation of the robot to the human through contactless gesture recognition
* 链接: arxiv.org/abs/2203.1100
* 作者: Brenda Elizabeth Olivas-Padilla,Dimitris Papanagiotou,Gavriela Senteri,Sotiris Manitsaris,Alina Glushkova
* 其他: Under review in IEEE Robotics and Automation Letters
* 摘要: 通过优化用于制造应用的人机机器人协作(HRC)框架,可以解决工作相关肌肉骨骼障碍(WMSD)的高患病率。在这方面,本文提出了两项​​假设符合人体工程学有效的任务代表团和HRC。第一假设表明,可以使用来自减少的传感器的运动数据量化符合人体工程学的专业任务。然后,可以将最危险的任务委托给协作机器人。第二个假设是通过包括手势识别和空间适应,可以通过避免可能将运营商暴露于符合人体工程学风险的不必要的动作来改善HRC情景的人体工程学,并通过降低运营商所需的物理努力。用于电视制造过程的HRC场景经过优化以测试两个假设。对于符合人体工程学评估,具有已知人体工程学风险的运动原语被建模用于他们在专业任务中的检测,并估计基于欧洲装配工作表(EAW)的风险分数。使用Enocentric电视组件数据训练的深层学习手势识别模块用于补充人类操作员和机器人之间的协作。另外,骨架跟踪算法提供了有关操作员姿势的信息的机器人,允许其在空间上适应其对操作者的人体计量器的动作。进行了三个实验,以确定手势识别和空间适应对操作者的运动范围的影响。空间适应速率用作关键性能指标(KPI),本文提出了一种用于测量操作员运动的减少的新KPI。

* Classifications of Skull Fractures using CT Scan Images via CNN with Lazy Learning Approach
* 链接: arxiv.org/abs/2203.1078
* 作者: Md Moniruzzaman Emon,Tareque Rahman Ornob,Moqsadur Rahman
* 摘要: 颅骨骨折的分类是放射科学家和研究人员的一项挑战任务。颅骨骨折导致破碎的骨片,这可以切入大脑并引起出血和其他伤害类型。因此,早期检测和分类骨折至关重要。在现实世界中,经常在多个地点发生骨折。这使得越来越难以检测许多骨折类型可以总结颅骨骨折的骨折类型。不幸的是,手动检测颅骨骨折和分类过程是耗时的,威胁患者的生命。由于深入学习的出现,这一过程可以自动化。卷积神经网络(CNNS)是应用程序分类最广泛使用的深度学习模型,因为与其他模型相比,它们提供了高精度和出色的结果。我们提出了一种称为SkullNetv1的新模型,通过利用CNN用于特征提取和懒惰学习方法的CNN,其充当来自脑CT图像的颅骨骨折分类的分类器,以分类五种裂缝类型。我们建议的模型实现了88%的子集准确度,F1得分为93%,曲线下的区域(AUC)为0.89至0.98,汉明评分为92%,初中损失为0.04的七级多级标记分类。

* Multi-Modal Learning Using Physicians Diagnostics for Optical Coherence Tomography Classification
* 链接: arxiv.org/abs/2203.1062
* 作者: Y. Logan,K. Kokilepersaud,G. Kwon,G. AlRegib,C. Wykoff,H. Yu
* 摘要: 在本文中,我们提出了一个框架,该框架将专家诊断和见解融合到使用多模态学习的光学相干断层扫描(OCT)的分析。为了证明这种方法的有效性,我们创建了一个医学诊断属性数据集,可以使用OCT改善疾病分类。虽然已经成功地试图在OCT部署机器学习的疾病分类,但这些方法缺乏专家见解。我们认为将眼科评估注入学习框架中的另一个监督对于机器学习过程具有重要的重要性,以执行准确和可解释的分类。我们通过综合实验展示了拟议的框架,该综合实验比较了将诊断属性特征与潜在视觉表示的效果相结合并表明它们超出了最先进的方法。最后,我们分析了所提出的双流架构,并提供了一种确定为分类性能贡献的组件的洞察力。

超分辨率 1篇

* ARM: Any-Time Super-Resolution Method
* 链接: arxiv.org/abs/2203.1081
* 作者: Bohong Chen,Mingbao Lin,Kekai Sheng,Mengdan Zhang,Peixian Chen,Ke Li,Liujuan Cao,Rongrong Ji
* 摘要: 本文提出了一种随时的超分辨率方法(ARM)来解决过度参数化的单图像超分辨率(SISR)模型。我们的手臂具有三次观察的动机:(1)不同图像斑块的性能随不同尺寸的SISR网络而异。 (2)计算开销和重建图像的性能之间存在权衡。 (3)给定输入图像,其边缘信息可以是估计其PSNR的有效选项。随后,我们培训包含不同尺寸的SISR子网的ARM超值,以处理各种复杂性的图像斑块。为此,我们构建一个边缘到PSNR查找表,将图像修补程序的边缘得分映射到每个子网的PSNR性能,以及子网的一组计算成本。在推断中,图像修补程序单独分发到不同的子网,以获得更好的计算性能权衡。此外,每个SISR子网共享ARM超符的权重,因此没有介绍额外的参数。多个子网的设置可以很好地使SISR模型的计算成本调整到动态可用的硬件资源,允许在任何时间进行SISR任务。随着流行SISR网络的不同大小的分辨率数据集的大量实验,作为骨干网验证了我们手臂的有效性和多功能性。源代码可用于\ URL {此HTTPS URL}。

其他 48篇

* Operator Sketching for Deep Unrolling Networks
* 链接: arxiv.org/abs/2203.1115
* 作者: Junqi Tang
* 摘要: 在这项工作中,我们提出了一种使用操作员素描设计高效的深度展开网络的新范式。深度展开网络目前是用于成像反向问题的最先进的解决方案。然而,对于高维成像任务,特别是3D锥形光束X射线CT和4D MRI成像,由于需要多次高度的计算,深度展开方案通常在内存和计算方面变得低效维向前和伴随运算符。最近的研究人员发现,通过与运营商的子集的随机展开,可以部分地解决这些限制,其受到随机一阶优化成功的启发。在这项工作中,我们提出了在随机展开时进一步加速,使用草图技术来近似高维图像空间中的产品。操作员素描可以用随机展开的随机展开,以获得最佳加速度和压缩性能。我们对X射线CT图像重建的数值实验表明了我们草图展开方案的显着效果。

* Facial Expression Analysis Using Decomposed Multiscale Spatiotemporal Networks
* 链接: arxiv.org/abs/2203.1111
* 作者: Wheidima Carneiro de Melo,Eric Granger,Miguel Bordallo Lopez
* 摘要: 基于视频的面部表情分析越来越多地应用于推断个人的健康状况,例如抑郁和痛苦。在现有方法中,由多尺度时空处理结构组成的深度学习模型表明了编码面部动态的强大潜力。然而,这种模型具有高的计算复杂性,使这些解决方案的艰难部署。为了解决这个问题,我们介绍了一种新的技术来分解多尺度时空特征的提取。特别地,称为分解的多尺度时空网络(DMSN)的构建块结构以及三个变体:DMSN-A,DMSN-B和DMSN-C块。 DMSN-A块通过在多个时间范围内分析时空特征来生成多尺度表示,而DMSN-B块在多个范围内分析时空特征,并且DMSN-C块以多个空间尺寸分析时空特征。使用这些变体,我们设计了我们的DMSN架构,能够探索各种多尺度的时空特征,并有利于适应不同的面部行为。我们对挑战数据集的广泛实验表明,DMSN-C块对抑郁检测有效,而DMSN-A块对于疼痛估计是有效的。结果还表明,我们的DMSN架构为表达提供了成本效益的解决方案,该表达式范围从时间较少的面部变化,如抑郁检测到更大的变化,如疼痛估计。

* Dense Siamese Network
* 链接: arxiv.org/abs/2203.1107
* 作者: Wenwei Zhang,Jiangmiao Pang,Kai Chen,Chen Change Loy
* 其他: Technical Report
* 摘要: 本文呈现了密集的暹罗网络(Desersiam),是一种致密预测任务的简单无监督的学习框架。它通过最大化具有两种类型的一张图像的两个视图之间的相似性来了解视觉表示,即,例如,像素一致性和区域一致性。具体地说,Desersiam首先根据重叠区域中的确切位置对应最大化像素级空间一致性。它还提取了一批区域嵌入,其对应于重叠区域中的一些子区域,以与区域一致性形成对比。与以前需要负像素对,动量编码器或启发式掩码的先前方法相反,Desersiam来自简单的暹罗网络的ensesiam好处,并优化不同粒度的一致性。它还证明了简单的位置对应关系和互动区域嵌入是足以学习相似性的有效性。我们在想象中心上申请亏损,并获得各种下游任务的竞争改进。我们还表明,只有一些额外的特定任务损失,简单的框架可以直接进行密集的预测任务。在现有的无监督的语义分割基准测试中,它超越了最先进的分段方法,将2.1 Miou,培训成本28%。

* Learning Enriched Illuminants for Cross and Single Sensor Color Constancy
* 链接: arxiv.org/abs/2203.1106
* 作者: Xiaodong Cun,Zhendong Wang,Chi-Man Pun,Jianzhuang Liu,Wengang Zhou,Xu Jia,Houqiang Li
* 其他: Tech report
* 摘要: 色彩恒定旨在恢复不同光源下场景的常量颜色。然而,由于相机谱灵敏度的存在,网络在某个传感器上培训的网络不能很好地在其他传感器上工作。而且,由于在某些环境中收集了训练数据集,因此光感性的多样性有限,适用于复杂的真实世界预测。在本文中,我们通过两个方面解决这些问题。首先,我们提出跨传感器自我监督培训来培训网络。详细地,我们考虑一般的SRGB图像和来自当前可用数据集的白色平衡原始图像作为白色平衡代理。然后,我们通过以传感器的方式随机抽样人工光照来培训网络以进行场景致辞和监督。其次,我们通过专门分析先前的级联框架并通过专门与学习注意共享骨干参数来提出更紧凑和准确的模型。实验表明,我们的交叉传感器模型和单传感器模型分别在交叉和单个传感器评估上的大幅度优于其他最先进的方法,仅具有前一个最佳模型的16%参数。

* Underwater Light Field Retention : Neural Rendering for Underwater Imaging
* 链接: arxiv.org/abs/2203.1100
* 作者: Tian Ye,Sixiang Chen,Yun Liu,Erkang Chen,Yi Ye,Yuche Li
* 摘要: 水下图像渲染旨在从给定的清洁器中产生真正的水下图像,这可以应用于各种实际应用,例如水下图像增强,相机过滤器和虚拟游戏。我们探讨了水下图像渲染中的两个触摸但具有挑战性的问题,即i)如何通过单个神经网络呈现不同的水下场景? ii)如何自然的样本,\ Textit {i,e。}自适应地学习水下光场,现实水下图像?为此,我们提出了一种用于水下成像的神经渲染方法,被称为UWNR(水下神经渲染)。具体地,UWNR是一种数据驱动的神经网络,其隐含地从真实水下图像中学习自然退化模型,避免通过手工制造成像模型引入错误偏差。与现有的水下图像生成方法相比,UWNR利用自然光场来模拟水下场景的主要特征。因此,它能够将来自一个清洁图像的各种水下图像与各种现实水下图像合成。广泛的实验表明,我们的方法通过先前的方法实现了更好的视觉效果和定量度量。此外,我们采用UWNR建造一个开放的大型神经渲染水下数据集,其中包含各种类型的水质,称为Lnrud。

* SOLIS: Autonomous Solubility Screening using Deep Neural Networks
* 链接: arxiv.org/abs/2203.1097
* 作者: Gabriella Pizzuto,Jacopo de Berardinis,Louis Longley,Hatem Fakhruldeen,Andrew I. Cooper
* 其他: 7 pages, 4 figures
* 摘要: 加速材料发现具有巨大的社会和产业影响,特别是药品和清洁能源生产。许多实验仪器具有一定程度的自动化,促进连续运行和更高的吞吐量。然而,仍然是手动进行样品制备。这可能导致研究人员在重复任务中花费大量时间,这引入了错误,并可以禁止产生统计相关数据。结晶实验在许多化学领域中是常见的,用于纯化和多晶型筛选实验。初始步骤通常涉及分子的溶解度筛选;也就是说,了解分子化合物是否已溶解在特定溶剂中。这通常可能是耗时和工作密集的。此外,通常不需要对分子精确溶解度极限的准确知识,并且简单地测量每个溶剂中的溶解度阈值将是这个HTTP URL地址,我们提出了一种新的级联深层模型,它受到人类化学家的启发的启发可视地评估样品以确定固体是否完全溶解在溶液中。在本文中,我们设计,开发和评估了第一个完全自主溶解性筛选框架,它利用了用于图像的图像分割和卷积神经网络的最先进的方法,这是该HTTP URL意识到,我们首先创建一个包括的数据集不同的分子和溶剂,其被收集在真实的化学实验室。然后,我们在通过安装在七个自由度机器人机器人上的手中摄像机记录的数据上评估了我们的方法,并表明我们的模型可以通过各种设置达到99.13%的测试精度。

[推荐] * Deep Learning Serves Traffic Safety Analysis: A Forward-looking Review

* 链接: arxiv.org/abs/2203.1093
* 作者: Abolfazl Razi,Xiwen Chen,Huayu Li,Brendan Russo,Yan Chen,Hongbin Yu
* 摘要: 本文探讨了使用的深度学习(DL)方法或具有用于交通视频分析的可能性,强调自动车辆(AVS)和人工车辆的驾驶安全性。我们展示了一个典型的处理管道,可以通过提取操作安全指标并提供一般提示和指南来了解和解释交通视频,以改善交通安全。该处理框架包括几个步骤,包括视频增强,视频稳定,语义和入射分割,对象检测和分类,轨迹提取,速度估计,事件分析,建模和异常检测。我们的主要目标是通过为每个步骤选择最佳选择并通过提供所提出的最成功的传统和基于DL的算法来提供缺少模块的最佳选择来引导流量分析师开发自己的自定义处理框架。每一步。我们还查看现有的开源工具和公共数据集,可以帮助培训DL模型。更具体地,我们审查示例性交通问题,并提到需要每个问题的步骤。此外,我们调查了与司机认知评估,人群采购的监控系统,路边基础设施的边缘计算,配备广告的AVS的密切相关研究领域的联系,并突出缺失的空白。最后,我们审查了交通监测系统的商业实施,其未来的前景和开放问题,以及广泛使用此类系统的持续挑战。

* Geolocation estimation of target vehicles using image processing and geometric computation
* 链接: arxiv.org/abs/2203.1093
* 作者: Elnaz Namazi,Rudolf Mester,Chaoru Lu,Jingyue Li
* 摘要: 估算车辆的位置是智能流量管理系统(ITMSS)中的关键组件之一,用于增加交通场景意识。传统上,在这方面采用了固定式传感器。在现代车辆(MVS)上的高级传感和通信技术的开发使得使用这种车辆作为移动传感器来估计观察车辆的交通数据。本研究旨在探讨安装在MV上的单眼摄像机的能力,以便在全球定位系统(GPS)坐标系中估计观察到的车辆的地理位置。我们通过集成深度学习,图像处理和几何计算来提出一种新的方法来解决观察到的车辆本地化问题。为了评估我们所提出的方法,我们开发了新的算法并使用现实世界的交通数据测试了它们。结果表明,我们提出的方法和算法可以有效地估计了动态估计了观察到的车辆的纬度和经度。

* Depth Completion using Geometry-Aware Embedding
* 链接: arxiv.org/abs/2203.1091
* 作者: Wenchao Du,Hu Chen,Hongyu Yang,Yi Zhang
* 其他: Acceptted by ICRA22
* 摘要: 利用稀疏楣的内部空间几何约束有利于深度完成,但未探讨。本文提出了一种学习几何感知嵌入的有效方法,该方法从3D点,例如场景布局,对象的大小和形状中编码本地和全局几何结构信息,以引导密集深度估计。具体地,我们利用动态图形表示以灵活有效的方式从不规则点云模拟广义几何关系。此外,我们将此嵌入和相应的RGB外观信息联系起来,以推断出现良好的结构保存的细节的场景深度。我们方法的关键是将隐式的3D几何表示集成到2D学习架构中,这导致性能和效率之间的更好的权衡。广泛的实验表明,所提出的方法优于以前的作用,可以在整个过度平滑的区域中重建具有清晰的边界的细深。消融研究对我们的方法提供了更大的洞察力,这可以通过简单的设计实现显着提升,同时具有更好的泛化能力和稳定性。该代码可在此HTTPS URL上获得。

[推荐] * Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression

* 链接: arxiv.org/abs/2203.1089
* 作者: Xiaosu Zhu,Jingkuan Song,Lianli Gao,Feng Zheng,Heng Tao Shen
* 其他: Accepted to CVPR 2022
* 摘要: 使用前导和高度模拟潜伏变量是变分图像压缩中的重要问题。正式地,如果Priors和Hypergriors精确描述潜在变量,则处理速率和失真之间的权衡。目前的实践只采用单变量的前沿并单独处理每个变量。然而,当在矢量化视角下观察潜在变量时,我们发现相关性和相关内存。这些发现揭示了视觉冗余,以提高率失真性能和加速压缩的并行处理能力。这鼓励我们提出了一种新的传感器。具体地,提出了一种估计的手段和协方差的多变量高斯混合物。然后,利用新颖的概率矢量量化来有效地近似手段,并且还将剩余的考码感到进一步引起统一的混合物并通过级联估计来解决而不涉及上下文模型。此外,涉及量化涉及的码本扩展到多码本,用于复杂性降低,其配制了有效的压缩过程。关于最先进的基准数据集的广泛实验表明我们的模型具有更好的速率 - 失真性能和令人印象深刻的3.18美元\时代$压缩加速,让我们能够执行实时,高质量的变分图像压缩实践。我们的源代码在\ url {此https url}上公开使用。

[推荐] * ELIC: Efficient Learned Image Compression with Unevenly Grouped Space-Channel Contextual Adaptive Coding

* 链接: arxiv.org/abs/2203.1088
* 作者: Dailan He,Ziming Yang,Weikun Peng,Rui Ma,Hongwei Qin,Yan Wang
* 其他: accepted by CVPR 2022
* 摘要: 最近,学习的图像压缩技术已经取得了显着的性能,甚至超越了最佳手动设计的有损图像编码器。他们承诺是大规模采用的。为了实用性,对学习图像压缩的架构设计的彻底调查,关于压缩性能和运行速度,是必不可少的。在本文中,我们首先提出了不均匀的通道条件自适应编码,通过观察学习图像压缩中的能量压缩的动机。将建议的不均匀分组模型与现有的上下文模型组合,我们获得了空间通道上下文自适应模型,以提高编码性能而不会损坏运行速度。然后我们研究了主要变换的结构,并提出了一种有效的模型,Elic,实现最先进的速度和压缩能力。具有卓越的性能,所提出的模型还支持极快的预览解码和渐进式解码,这使得基于学习的图像压缩更加有前景。

* Efficient Remote Photoplethysmography with Temporal Derivative Modules and Time-Shift Invariant Loss
* 链接: arxiv.org/abs/2203.1088
* 作者: Joaquim Comas,Adria Ruiz,Federico Sukno
* 摘要: 我们为远程心率估计提供了一种轻质神经模型,其专注于基于I)通过多卷积衍生物的组合模拟PPG动力学的高效时空学习(PPG)的高效时空学习,并增加了模型的灵活性视频面部PPG和地面真相之间可能的偏移。 PPG动态由由多个卷积衍生物的增量聚集构成的时间衍生物模块(TDM)建模,模拟泰勒序列扩展到所需的顺序。地面真理抵消的鲁棒性通过引入Talos(时间自适应位置换档),是一种新的时间丢失来训练基于学习的模型。我们通过报告公共纯净和UBFC-RPPG数据集上的准确性和效率指标来验证我们模型的有效性。与现有模型相比,我们的方法显示了具有远低数量的参数和较低的计算成本竞争性心率估计精度。

* Boost Test-Time Performance with Closed-Loop Inference
* 链接: arxiv.org/abs/2203.1085
* 作者: Shuaicheng Niu,Jiaxiang Wu,Yifan Zhang,Guanghui Xu,Haokun Li,Junzhou Huang,Yaowei Wang,Mingkui Tan
* 其他: 10 pages, 10 figures, conference
* 摘要: 常规的深模型预测具有单向传播的测试样本,但是,这可能不足以预测硬分类样本。相反,在进行最终决定之前,我们人类可能需要多次仔细检查样品。在重新检查过程中,可以通过参考相关样品来细化/调整预测。由此激励,我们建议以环路方式预测那些硬分类的测试样本,以提高模型性能。然而,这个想法可能会造成一个关键挑战:如何构建循环推断,从而可以通过很少的额外努力来校正这些硬测试样本上的原始错误预测。要解决此问题,我们提出了一般闭环推理(CLI)方法。具体地,我们首先设计过滤标准,以识别需要额外推断回路的那些硬分类的测试样本。对于每个硬样本,我们根据其原始的顶级k $预测构建额外的辅助学习任务以校准模型,然后使用校准模型获得最终预测。有希望的成果(分布试验样品)和Imagenet-C(分布外试验样品)的结果证明了CLI在提高任何预先训练模型的性能方面的有效性。

* Multi-modal learning for predicting the genotype of glioma
* 链接: arxiv.org/abs/2203.1085
* 作者: Yiran Wei,Xi Chen,Lei Zhu,Lipei Zhang,Carola-Bibiane Schönlieb,Stephen J. Price,Chao Li
* 其他: Under review
* 摘要: 异柠檬酸脱氢酶(IDH)基因突变是胶质瘤诊断和预后的必要生物标志物。通过将焦肿瘤图像和几何特征与源自MRI的脑网络特征集成来更好地预测胶质瘤基因型。卷积神经网络在预测IDH突变方面表现出合理的性能,但是,不能从非欧几里德数据中学习,例如,几何和网络数据。在这项研究中,我们提出了一种使用三种单独的编码器提出了多模态学习框架,以提取焦距肿瘤图像,肿瘤地理学和全球脑网络的特征。为了减轻扩散MRI的有限可用性,我们开发了一种自我监督的方法,从解剖多序MRI产生脑网络。此外,要从大脑网络中提取肿瘤相关的特征,我们设计了大脑网络编码器的分层关注模块。此外,我们设计了双层多模态对比损失,以对准多模态特征,并在焦点肿瘤和全球大脑处解决域间隙。最后,我们提出了一种加权人口图来集成基因型预测的多模态特征。测试集上的实验结果表明,所提出的模型优于基线深度学习模型。消融实验验证了框架的不同组件的性能。可视化解释对应于进一步验证的临床知识。总之,所提出的学习框架提供了一种预测胶质瘤基因型的新方法。

[推荐] * ViM: Out-Of-Distribution with Virtual-logit Matching

* 链接: arxiv.org/abs/2203.1080
* 作者: Haoqi Wang,Zhizhong Li,Litong Feng,Wayne Zhang
* 其他: CVPR 2022
* 摘要: 大多数现有的分配超出(OOD)检测算法取决于单个输入源:功能,Logit或SoftMax概率。然而,OOD示例的巨大多样性使得这种方法易碎。存在易于在特征空间中识别的OOD样本,同时难以区分Logit Space,反之亦然。通过此观察,我们提出了一种名为Virtual-Logit匹配(Vim)的新颖的评分方法,该方法将来自特征空间的类无话量分数与分布式(ID)类相关的登录组合。具体地,从特征的残差对主体空间生成表示虚拟OOC类的附加记录,然后通过常量缩放与原始登录匹配。 SoftMax后这个虚拟登录的概率是OOD-NESS的指标。为了促进在学术界的大规模OOD检测的评估,我们为Imagenet-1K创建了一个新的OOD数据集,这是人为注释的,并且是现有数据集的大小8.8x。我们进行了广泛的实验,包括CNNS和视觉变压器,以证明所提出的VIM得分的有效性。特别是,使用比特-S模型,我们的方法在四个困难的ood基准上获得了90.91%的平均Auroc,这是最佳基线的4%。此HTTPS URL可提供代码和数据集。

* Adaptive and Cascaded Compressive Sensing
* 链接: arxiv.org/abs/2203.1077
* 作者: Chenxi Qiu,Tao Yue,Xuemei Hu
* 摘要: 场景依赖性自适应压缩感应(CS)是一个漫长的追求目标,其具有显着提高CS性能的巨大潜力。但是,在不访问地面真理图像的情况下,如何设计现场依赖的自适应策略仍然是一个开放问题,采样效率的提高仍然相当有限。在本文中,提出了一种受限制的等距特性(RIP)条件基于误差钳位,其可以直接预测重建误差,即当前阶段重建图像和地面真理图像之间的差异,并将样本自适应地将样本分配给不同的区域连续的抽样阶段。此外,我们提出了一种级联特征融合重建网络,其可以有效地利用来自不同自适应采样阶段的信息。与最先进的CS算法相比,所提出的自适应和级联CS方法的有效性并具有广泛的定量和定性结果。

[推荐] * Delving into the Estimation Shift of Batch Normalization in a Network

* 链接: arxiv.org/abs/2203.1077
* 作者: Lei Huang,Yi Zhou,Tian Wang,Jie Luo,Xianglong Liu
* 其他: Accepted to CVPR 2022. The Code is available at: this https URL
* 摘要: 批量标准化(BN)是深度学习中的里程碑技术。在培训期间使用迷你批次统计数据规范激活,但在推理期间估计的人口统计数据。本文侧重于调查人口统计数据的估计。我们定义了BN的估计变动幅度,以定量测量其估计的人口统计和预期的差异。我们的初步观察是由于网络中的BN堆叠,可以累积估计转变,这具有对测试性能的损害影响。我们进一步找到了无批量标准化(BFN)可以阻挡这种累积估计偏移。这些观察结果激励了我们的Xbnblock设计,该Xbnblock将一个BF在剩余式网络的瓶颈块中替换一个BFN。 ImageNet和Coco基准测试的实验表明,Xbnblock始终如一地提高了不同架构的性能,包括Reset和Resnext,通过显着的余量,似乎对分发班次更加强大。

* An Intermediate-level Attack Framework on The Basis of Linear Regression
* 链接: arxiv.org/abs/2203.1072
* 作者: Yiwen Guo,Qizhang Li,Wangmeng Zuo,Hao Chen
* 摘要: 本文显着扩展了我们在ECCV的作品,其中提出了中间水平攻击以改善一些基线对抗性实例的可转移性。我们主张建立从中间级差异(对抗性特征和良性特征之间)的直接线性映射,以对对抗示例的分类预测丧失。在本文中,我们通过进行综合研究和广泛的实验深入进入这种框架的核心组成部分。我们展示了1)各种线性回归模型都可以考虑才能建立映射,2)最终获得的中间级差异的幅度与对抗的转移性线性相关,3)进一步提升性能可以是通过使用随机初始化执行多次基线攻击来实现。通过利用这些调查结果,我们在基于转移的$ \ ell_ indty $和$ \ ell_2 $攻击中实现了新的最先进的最先进的。

* What Makes RAFT Better Than PWC-Net?
* 链接: arxiv.org/abs/2203.1071
* 作者: Deqing Sun,Charles Herrmann,Fitsum Reda,Michael Rubinstein,David Fleet,William T. Freeman
* 摘要: 培训细节和数据集是多么重要的是筏子的最近光流模型?他们概括了吗?为了探索这些问题,而不是开发一个新模式,我们重新审视了三种突出的模型,PWC-Net,Irr-PWC和RAFT,具有一套常见的现代培训技术和数据集,并观察重大的性能收益,展示了重要性和一般性这些培训细节。我们新培训的PWC-NET和IRR-PWC模型略有改进,高达30%,而原始发​​布结果在Sintel和Kitti 2015年基准测试中。它们优于最近在凯蒂2015上的Flow1d,而在推理期间比3倍更快。我们的新训练有素的筏子在KITTI 2015上实现了4.31%的FL-All得分,比写作时的所有公布的光学流动方法更准确。我们的结果表明,在分析光学流动方法的性能收益时分离模型,训练技术和数据集的贡献的好处。我们的源代码将公开提供。

* Monocular Vision-based Prediction of Cut-in Maneuvers with LSTM Networks
* 链接: arxiv.org/abs/2203.1070
* 作者: Yagiz Nalcakan,Yalin Bastanlar
* 摘要: 高级驾驶辅助和自动化驾驶系统应能够预测和避免危险情况。本研究提出了一种预测EGO Lane中发生的潜在危险的切割的方法。我们遵循基于计算机视觉的方法,只使用单个车载RGB相机,并且我们根据最近的视频帧对目标车辆的机动进行分类。我们的算法包括基于CNN的车辆检测和跟踪步骤和基于LSTM的操纵分类步骤。它比其他基于视觉的方法更加计算,因为它利用分类步骤的少量特征而不是用RGB帧馈送CNN。我们在公开的驾驶数据集和车道更改检测数据集中评估了我们的方法。我们获得了0.9585的准确性,与侧视感知两类(剪裁与车道通行证)分类模型。实验结果还表明,当用于车道变化检测时,我们的方法优于最先进的方法。

[推荐] * Transform your Smartphone into a DSLR Camera: Learning the ISP in the Wild

* 链接: arxiv.org/abs/2203.1063
* 作者: Ardhendu Shekhar Tripathi,Martin Danelljan,Samarth Shukla,Radu Timofte,Luc Van Gool
* 其他: Submitted to ECCV 2022
* 摘要: 我们提出了一种可训练的图像信号处理(ISP)框架,其产生由智能手机捕获的原始图像的DSLR质量图像。为了解决训练图像对之间的颜色错位,我们使用颜色条件ISP网络,并在每个输入原始和参考DSLR图像之间优化新的参数颜色映射。在推理期间,我们通过使用有效的全局上下文变压器模块设计颜色预测网络来预测目标彩色图像。后者有效地利用全球信息来学习一致的颜色和色调映射。我们进一步提出了一种强大的掩蔽对准损耗,以在训练期间识别和丢弃具有不准确的运动估计的区域。最后,我们在Wild(ISPW)数据集中介绍了ISP,包括弱配对的手机原始和DSLR SRGB图像。我们广泛评估我们的方法,在两个数据集中设置新的最先进。

* CRISPnet: Color Rendition ISP Net
* 链接: arxiv.org/abs/2203.1056
* 作者: Matheus Souza,Wolfgang Heidrich
* 摘要: 图像信号处理器(ISP)是从嘈杂的原始传感器测量中重建彩色图像的历史上生长的遗留软件系统。它们通常是由许多启发式块进行了用于去噪,脱签和颜色恢复。在这种情况下颜色再现特别重要,因为原色往往严重扭曲,并且每个智能手机制造商都开发了他们自己的特征启发式,以改善颜色再现,例如肤色和其他视觉上的颜色。近年来,替代具有深入了解的管道的历史上增长的ISP系统一直很兴趣。在近似传统ISP与这种学习模型中的近似方面取得了很大进展。然而,到目前为止,这些努力的重点是在再现图像的结构特征,较少关注颜色再现。在这里,我们呈现CRISPNET,首先学习的ISP模型专门针对一个复杂的旧智能手机ISP专门针对颜色迭代精度。我们通过利用图像元数据(如遗留ISP)来实现这一目标,以及根据图像分类学习简单的全局语义 - 类似于遗留ISP来确定场景类型的简单全局语义。我们还贡献了一个新的ISP图像数据集,包括高动态范围监视数据,以及真实世界数据,都在各种照明条件下使用实际的手机ISP管道捕获,曝光时间和增益设置。

* Document Dewarping with Control Points
* 链接: arxiv.org/abs/2203.1054
* 作者: Guo-Wang Xie,Fei Yin,Xu-Yao Zhang,Cheng-Lin Liu
* 其他: International Conference on Document Analysis and Recognition, ICDAR 2021, Oral
* 摘要: 文件图像现在被手持设备(如手机)广泛捕获。由于文档纸张,不同的相机位置和复杂背景的几何失真,这些图像上的OCR性能很大程度上受到影响。在本文中,我们提出了一种简单但有效的方法来通过估计控制点和参考点来纠正失真的文档图像。之后,我们使用控制点和参考点之间的插值方法将稀疏映射转换为向后映射,并将原始失真的文档图像重新映射到整流图像。此外,控制点是可控的,以便于相互作用或随后的调整。我们可以灵活地选择根据不同的应用方案的后处理方法和顶点数。实验表明,我们的方法可以纠正具有各种失真类型的文档图像,并在真实世界数据集中产生最先进的性能。本文还提供了一种基于Dewarping文档的控制点的训练数据集。代码和数据集都在此HTTPS URL上释放。

* Single-image Human-body Reshaping with Deep Neural Networks
* 链接: arxiv.org/abs/2203.1049
* 作者: Beijia Chen,Hongbo Fu,Xiang Chen,Kun Zhou,Youyi Zheng
* 摘要: 在本文中,我们使用深生成网络呈现NeuralReshaper,一种新的单个图像中人体语义重塑的新方法。为了实现全局相干的重塑效果,我们的方法遵循适合于重塑的管道,该管道首先将参数3D人体模型拟合到源人类图像,然后相对于用户指定的语义属性重新加注拟合的3D模型。以前的方法依赖于图像扭曲将3D重塑效果转移到整个图像域,因此通常会导致前景和背景中的扭曲。相反,为了实现更现实的重塑结果,我们求助于在源图像上调节的生成对抗性网和被重塑的3D模型引起的2D翘曲场。具体地,我们使用双向U-Net的发电机分别在源图像中对源图像中的前景和背景信息进行单独编码,并通过特征空间翘曲引导从前景分支到背景分支的信息流。此外,为了处理没有配对数据的缺乏数据问题(即,不同形状的人体相同的人体),我们介绍了一种新的弱监督策略来培训我们的网络。此外,与以前的方法不同,通常需要手动努力纠正由不正确的身体到图像配件引起的不期望的伪像,我们的方法是全自动的。在室内和室外数据集上的广泛实验证明了我们对先前方法的方法的优势。

[推荐] * TVConv: Efficient Translation Variant Convolution for Layout-aware Visual Processing

* 链接: arxiv.org/abs/2203.1048
* 作者: Jierun Chen,Tianlang He,Weipeng Zhuo,Li Ma,Sangtae Ha,S.-H. Gary Chan
* 其他: Accepted to CVPR 2022
* 摘要: 随着卷积效率强大的许多智能应用,动态卷积进一步配备了适应不同输入的能力。但是,静态和动态卷曲是布局 - 不可知或计算重,使其不适合布局特定的应用,例如面部识别和医学图像分割。我们观察到这些应用自然地表现出大量图像内(空间)方差和小交叉图像方差的特征。此观察结果激励了我们有效的翻译变体卷积(TVConv),用于布局感知视觉处理。从技术上讲,TVCONV由Authinity Maps和权力生成块组成。虽然关联地图地描绘了优雅的像素对关系,但是可以在保持有效推理的同时明确地显式地过分地显式地过分训练。虽然概念上简单,TVConv显着提高了卷积的效率,可以容易地插入各种网络架构。对人脸识别的广泛实验表明,TVCONV将计算成本降低至3.1倍,并通过与深度卷积相比,在保持高精度的同时提高2.3倍的相应吞吐量。此外,对于相同的计算成本,我们将平均准确性提升至4.21%。我们还对视光盘/杯分割任务进行实验,获取更好的泛化性能,这有助于减轻关键数据稀缺问题。代码可在此HTTPS URL中获得。

* {Unidirectional Thin Adapter for Efficient Adaptation of Deep Neural Networks
* 链接: arxiv.org/abs/2203.1046
* 作者: Han Gyel Sun,Hyunjae Ahn,HyunGyu Lee,Injung Kim
* 其他: 9 pages and 7 figures
* 摘要: 在本文中,我们提出了一种新的适配器网络,用于将预先训练的深神经网络适应目标域,以最小计算。所提出的模型,单向瘦适配器(UDTA),通过提供补充骨干网络的辅助功能来帮助分类器适应新数据。UDTA从骨干的多个图层作为输入特征进行输出,但不会将任何功能传输到骨干。因此,UDTA可以在不计算骨干的梯度的情况下学习,从而节省了显着的训练的计算。此外,由于UDTA在不修改骨干的情况下学习目标任务,因此单个骨干声音可以通过单独学习UDTAS来适应多个任务。在实验中,在五个细粒分类数据集中由少量样品组成,UDTA显着降低了背部衰退所需的计算和训练时间,同时与传统适配器模型相比显示相当或甚至改善的精度。

* Partitioning Image Representation in Contrastive Learning
* 链接: arxiv.org/abs/2203.1045
* 作者: Hyunsub Lee,Heeyoul Choi
* 其他: 6 pages, 8 figures, 2 tables
* 摘要: 在图像域中的对比学习中,锚和正样品被迫具有尽可能靠近的表示。但是,强制两个具有相同表示的样本可能是误导性,因为数据增强技术使两个样本不同。在本文中,我们介绍了一个新的代表,分区表示,可以在对比学习中学习锚和正样品的常见和独特特征。分区表示由两部分组成:内容部分和样式部分。内容部分表示类的公共功能,并且样式部分表示每个样本的自己的特征,这可能导致数据增强方法的表示。我们可以通过分解两个单独的表示分别在两个单独的表示中分解对比学习的损失函数来实现分区表示。为了评估两部分的代表,我们采取了两个框架模型:变形AutoEncoder(VAE)和Bootstrapyour自己的潜在(Byol),以显示内容和风格的可分离性,并分别确认分类的泛化能力。基于实验,我们表明我们的方法可以将VAE框架中的两种类型的信息分开,并以线性可分离性和几次学习任务为下游任务的传统拜尔。

* PressureVision: Estimating Hand Pressure from a Single RGB Image
* 链接: arxiv.org/abs/2203.1038
* 作者: Patrick Grady,Chengcheng Tang,Samarth Brahmbhatt,Christopher D. Twigg,Chengde Wan,James Hays,Charles C. Kemp
* 摘要: 人们经常通过用手施加压力与周围环境进行互动。机器对手压的感知受到在手和接触表面之间放置传感器的挑战的限制。我们探讨使用传统的RGB相机推断出手压的可能性。中央见解是,通过手施加压力会导致信息性的外观变化。双手共享生物力学性质,导致类似可观察现象,如软组织变形,血液分布,手姿势和铸造阴影。我们收集了36名参与者的视频,对仪表平面表面施加压力各种肤色。然后,我们训练了深度模型(MultifeVisionNet)来推断来自单个RGB图像的压力图像。我们的模型为培训数据之外的参与者提供了压力,并且优于基线。我们还表明,我们的模型的输出取决于手的外观和靠近接触区域的铸造阴影。总体而言,我们的结果表明,先前未观察的人手的外观可用于精确推断施加压力。

* ALAP-AE: As-Lite-as-Possible Auto-Encoder
* 链接: arxiv.org/abs/2203.1036
* 作者: Nisarg A. Shah,Gaurav Bharaj
* 摘要: 我们介绍了一种新颖的算法,可以减少条件图像生成自动化器所需的张量计算,并尽可能地使其尽可能地使得不牺牲照片逼真图像的质量。我们的方法是设备不可知论图,并且可以在大约正常时间内优化仅用于给定CPU的GPU计算设备的AutoEncoder,它需要在通用工作站上培训AutoEncoder。我们通过两级新颖策略实现这一点,首先,我们将频道重量冷凝,从而尽可能少地使用频道。然后,我们修剪近似归零的重量激活,并微调这款Lite AutoEncoder。为了维护图像质量,通过学生 - 教师培训进行微调,我们将浓缩的autoencoder作为老师重用。我们显示各种条件图像生成任务的性能提升:分割掩码要面对图像,面部图像到卡通化,以及最终在多个计算设备上传输到Zebra DataSet上的Crycan基础的模型。我们执行各种消融研究,以证明索赔和设计选择,并在维持图像质量的同时实现仅CPU的设备上的各种AutoEncoders的实时版本,从而实现此类自动码的尺度部署。

* Multi-Domain Multi-Definition Landmark Localization for Small Datasets
* 链接: arxiv.org/abs/2203.1035
* 作者: David Ferman,Gaurav Bharaj
* 其他: 16
* 摘要: 我们为小型数据集面部定位提供了一种新的多像域和多地标定义学习方法。培训一个小型数据集,在大型(r)数据集中有助于前者的强大学习,并为新的和/或更小的标准数据集提供了面部地标定位的通用机制。为此,我们提出了一个具有新颖解码器的视觉变压器编码器,其中具有先前的定义共享共享的地标语义组,这些内标在彼此同时培训多个数据集时。由于我们的小说定义无关基团,并且数据集可能因地标定义和域而异。在解码器阶段,我们使用交叉和自我关注,其输出后来送入域/定义特定头部,最小化Laplacian-log-oillihie丢失。我们在用更大的数据集接受培训时,我们在标准地标定位数据集中实现了最先进的地图定位数据集,例如COFW和WFLW。我们还在几种不同的图像域小型数据集上显示了最先进的绩效,用于动物,漫画和面部肖像绘画。此外,我们贡献了Pareidolias的小型数据集(150图像)以显示我们方法的功效。最后,我们提供了一些分析和消融研究,以证明我们的索赔。

* Font Generation with Missing Impression Labels
* 链接: arxiv.org/abs/2203.1034
* 作者: Seiya Matsuda,Akisato Kimura,Seiichi Uchida
* 其他: submitted ICPR2022
* 摘要: 我们的目标是通过使用带有印象标签的字体数据集培训生成的对抗性网络来生成具有特定印象的字体。主要困难是,字体印象是模糊的,并且没有印象标签并不总是意味着字体没有印象。本文提出了一种对缺失印象标签的强大的字体生成模型。所提出的方法的关键思路是(1)基于共同发生的缺失标签估计器,(2)印模标签空间压缩机。首先是基于数据集中的标签的共同发生,以将缺失的印象标签插入并使用它们作为已完成的标签条件培训模型。第二是编码器 - 解码器模块,用于将高维印象空间压缩成低维度。我们证明,通过定性和定量评估,所提出的模型使用多标签数据使用多标签数据产生高质量的字体图像。

* TO-FLOW: Efficient Continuous Normalizing Flows with Temporal Optimization adjoint with Moving Speed
* 链接: arxiv.org/abs/2203.1033
* 作者: Shian Du,Yihong Luo,Wei Chen,Jian Xu,Delu Zeng
* 摘要: 连续标准化流(CNF)使用神经常微分方程(神经杂物)构建任意复合分布和各向同性高斯分布之间的可逆映射。由于神经竞争培训的增量复杂性,它在大型数据集上尚未在大型数据集上进行易行。最佳运输理论已应用于规范颂歌的动态,以加速近期作品的培训。在本文中,通过优化神经颂训练的前向传播的进化时间来提出时间优化。在这种宽慰中,我们通过坐标血统交替地使用进化时间来优化CNF的网络权重。此外,通过时间正则化,确保了进化的稳定性。这种方法可以与原始正则化方法结合使用。我们已经通过实验证明了所提出的方法可以显着加速培训,而不会牺牲基线模型的绩效。

* Modelling nonlinear dependencies in the latent space of inverse scattering
* 链接: arxiv.org/abs/2203.1030
* 作者: Juliusz Ziomek,Katayoun Farrahi
* 摘要: 2018年角度和Mallat提出的逆散射问题,涉及训练深度神经网络来反转应用于图像的散射变换。在训练这种网络之后,它可以用作给定的生成模型,因为我们可以从散射系数的主要组成部分的分布来样。为此目的,Angles和Mallat只是使用独立高斯的样本。然而,如本文所示,感兴趣的分布实际上可以远离正常的并且在不同系数之间可能存在不可忽略的依赖关系。这激励了使用该分布的模型,该模型允许变量之间的非线性依赖性。在本文中,探索了两种这样的模型,即变形式自身阳极和生成的对抗网络。我们展示了所获得的结果在某些数据集上可以非常逼真,看起来比角度和马利拉所生产的结果更好。所进行的Meta分析还示出了与训练过程的效率相比,与图像的现有图像相比,这种构建的生成模型的明确实际优点。

[推荐] * Representation-Agnostic Shape Fields

* 链接: arxiv.org/abs/2203.1025
* 作者: Xiaoyang Huang,Jiancheng Yang,Yanjun Wang,Ziyu Chen,Linguo Li,Teng Li,Bingbing Ni,Wenjun Zhang
* 其他: The Tenth International Conference on Learning Representations (ICLR 2022). Code is available at this https URL
* 摘要: 3D形状分析已在深度学习时代得到广泛探索。已经为各种3D数据表示格式开发了许多模型,例如,用于网格的Meshcnn,用于体素的点云和Voxnet的PiaTNet。在这项研究中,我们呈现了代表性 - 不可知的形状字段(RASF),一种用于3D深度学习的概括和计算有效的形状嵌入模块。 RASF使用具有多个通道的学习3D网格实现,用于存储本地几何体。基于RASF,通过坐标索引检索各种3D形状表示(点云,网格和体素)的形状嵌入。虽然有多种方法可以优化RASF的学习参数,但我们在本文中提供了两个有效的方案,用于RASF预训练:形状重建和正常估计。曾经接受过培训,RASF成为一种可忽略的成本即插即用的性能助推器。对不同3D表示格式,网络和应用的广泛实验,验证了建议RASF的普遍效率。代码和预先训练的型号可公开使用此HTTPS URL

* Relationformer: A Unified Framework for Image-to-Graph Generation
* 链接: arxiv.org/abs/2203.1020
* 作者: Suprosanna Shit,Rajat Koner,Bastian Wittmann,Johannes Paetzold,Ivan Ezhov,Hongwei Li,Jiazhen Pan,Sahand Sharifzadeh,Georgios Kaissis,Volker Tresp,Bjoern Menze
* 摘要: 图像的全面表示需要了解对象及其相互关系,特别是在图像到图形生成中,例如,道路网络提取,血管网络提取或场景图生成。传统上,通过由对象检测组成的两阶段方法来解决图像到图形生成,其次是单独的关系预测,其防止同时对象相互作用。这项工作提出了一个统一的一阶段变压器的框架,即关系中心,共同预测对象及其关系。我们利用基于直接的对象预测,并在一起地结合对象之间的交互来学习对象关系。除了现有的[obj] -tokens之外,我们提出了一种新颖的学习令牌,即[rln] - oton。与[obj] -tokens一起,[rln] - 通过一系列相互关联的图像在图像中挖掘本地和全局语义推理。与配对的[obj] - otoken结合,[rln] - ototoken贡献到计算上有效的关系预测。我们在展示我们方法的有效性和概括性的多个多样化和多域数据集中实现最先进的性能。

* Evaluation of April Tag and WhyCode Fiducial Systems for Autonomous Precision Drone Landing with a Gimbal-Mounted Camera
* 链接: arxiv.org/abs/2203.1018
* 作者: Joshua Springer,Marcel Kyas
* 摘要: 基准标记为无人机提供了一种廉价的方式,以确定它们相对于着陆垫的位置并执行精密着陆。然而,该领域的大多数现有工作都使用固定的向下朝向的相机,该相机不会利用许多无人机上发现的公共万向安装的相机设置。这种刚性系统不能容易地跟踪检测到的标记,并且可能在非理想条件下丢失标记(例如风阵风)。本文评估了APRIL标签和Whycode FiDUIAL系统,用于使用Gimbal安装的单眼摄像机的无人机降落,具有随着时间的推移可以跟踪标记的优势。但是,由于相机的方向发生变化,我们必须知道标记的方向,在单色基准系统中是不可靠的。此外,系统必须快速。我们提出了2种方法,用于减轻为什么幂的方向模糊性,以及增加4月牌标签运行时检测率的方法。我们根据标记方向模糊和检测速率评估我们的3个系统对2个默认系统。我们在覆盆子PI 4上的ROS框架中测试标记检测率,我们在其性能方面排列系统。我们首先,为什么显着降低了检测率微不足道的方向模糊性。我们的第二个Whodode Variant不会从默认为什么ob码系统中显示出显着不同的取向模糊,但是在多标记为什么派代码捆绑包方面提供了附加功能。我们的4月标签变体不会显示覆盆子PI 4上的性能改进。

[推荐] * Discovering Objects that Can Move

* 链接: arxiv.org/abs/2203.1015
* 作者: Zhipeng Bao,Pavel Tokmakov,Allan Jabri,Yu-Xiong Wang,Adrien Gaidon,Martial Hebert
* 其他: Accepted to CVPR 2022
* 摘要: 本文研究了物体发现的问题 - 在没有手动标签的情况下从背景中分离物体。现有方法利用外观提示,例如颜色,纹理和位置,将像素分组成对象区域。然而,通过单独依赖外观,这些方法无法将物体与杂乱的场景中的背景分开。这是一个基本限制,因为对象的定义是固有的模糊和上下文相关的。为了解决这种歧义,我们选择专注于动态对象 - 可以在世界上独立移动的实体。然后,我们将最近的基于自动编码器的框架缩放了从玩具合成图像到复杂的现实场景的无监督对象发现。为此,我们简化了它们的体系结构,并通过来自一般运动分段算法的弱学习信号来增强所产生的模型。我们的实验表明,尽管只捕获了移动的对象的小子集,但该信号足以概括地段段的动态对象的移动和静态实例。我们表明,我们的模型可扩展到新收集的照片 - 现实的合成数据集,街道驾驶场景。此外,我们在该数据集中利用地面真相分割和流量注释进行彻底消融和评估。最后,我们对现实世界基蒂基准的实验表明,所提出的方法通过资本化运动提示来占据启发式和基于学习的方法。

* PACS: A Dataset for Physical Audiovisual CommonSense Reasoning
* 链接: arxiv.org/abs/2203.1113
* 作者: Samuel Yu,Peter Wu,Paul Pu Liang,Ruslan Salakhutdinov,Louis-Philippe Morency
* 其他: 38 pages, 22 figures
* 摘要: 为了使AI安全部署在现实世界的情景中,如医院,学校和工作场所,他们应该能够通过了解可用物体的物理性质和可取性,如何操纵地理世界,以及它们如何与其他物理对象互动。该研究领域的物理致辞推理基本上是一种多感官任务,因为物理属性通过多种方式表现出,其中两个是视力和声学。我们的论文通过贡献PACS来实现现实世界的物理型号推理:第一个用于物理致辞属性的视听基准。 PACS包含共有13,400个问题答案对,涉及1,377个独特的物理致辞问题和1,526个视频。我们的数据集通过将音频作为这种多模态问题的核心组成部分提供了新的机会来推进体力学推理的研究领域。使用PACS,我们在这个新的具有挑战性的任务上评估多种最先进的模型。虽然某些型号显示出现有前途的结果(精度70%),但它们都缺乏人类性能(精度为95%)。我们通过展示多式联版推理的重要性和为未来研究提供可能的途径来结束本文。

* MTBF-33: A multi-temporal building footprint dataset for 33 counties in the United States (1900-2015)
* 链接: arxiv.org/abs/2203.1107
* 作者: Johannes H. Uhl,Stefan Leyk
* 其他: 9 pages, 3 figures
* 摘要: 尽管关于当代人类住区的空间分布的丰富数据,但在精细空间和时间粒度下人类住区长期演变的历史数据稀缺,这限制了我们对建筑区域长期变化的定量理解。这是近几十年仅提供的常用映射方法(例如,图像分类)和合适的数据源(即,空中图像,多光谱遥感数据,LIDAR)。然而,存在诸如数字可用的替代数据来源,例如数据可用,其中包含相关信息,例如建筑年龄信息,允许过去建筑物分布的近似数字重建。我们对美国行政机构的公开和公开的数据资源进行了非详尽的搜索,并收集了33个县的税收评估数据和建立了33个县的足迹数据,无论是建造足迹几何形状和建筑施工年度信息可用。这项工作的结果是一个唯一的数据集,我们称之为33 U.S.县(MTBF-33)的多时间建筑占用数据集。 MTBF-33包含超过620万的建筑占地面积,包括其建设年度,可用于从细空间和时间谷物的1900〜2015年从1900到2015年的内置区域的回顾性描绘,并且可以用于数据验证目的,或培训旨在提取关于遥感数据,历史地图或类似数据源的人类定居点历史信息的统计学习方法。 MTBF-33可在此HTTP URL中使用。

* Domain Generalization by Mutual-Information Regularization with Pre-trained Models
* 链接: arxiv.org/abs/2203.1078
* 作者: Junbum Cha,Kyungjae Lee,Sungrae Park,Sanghyuk Chun
* 摘要: 域泛化(DG)旨在仅使用有限的源极域将广义模型学习到看不见的目标域。由于培训和测试域之间的重要域移位,之前对DG的尝试无法从源域中学习域不变的表示。相反,我们使用与Oracle模型的相互信息重新制定DG目标,模型概括为任何可能的域。通过预先训练的模型,我们通过近似训练的模型来派生的变分变分数,称为oracle模型,与Oracle(Miro)称为相互信息正则化。我们广泛的实验表明,MIRO显着提高了分发的出现性能。此外,我们的缩放实验表明,训练有素的模型的规模越大,Miro的性能提高越大。此HTTPS URL可用源代码。

* Decoupled Mixup for Data-efficient Learning
* 链接: arxiv.org/abs/2203.1076
* 作者: Zicheng Liu,Siyuan Li,Ge Wang,Cheng Tan,Lirong Wu,Stan Z. Li
* 其他: The first preprint version, 21 pages. The source code is available at this https URL
* 摘要: 混合是一种有效的数据增强方法,通过使用混合数据平滑决策边界来提高神经网络的泛化。最近,动态混合方法通过最大化识别区域或保持混合样品中的突出物体来改善先前的静态策略(例如,线性插值)。我们注意到,来自动态政策的混合样品比静态策略更可分离,同时防止模型过度装备。灵感来自这一发现,我们首先争辩说,混合目标存在过平滑问题,其侧重于回归混合比而不是识别歧视特征。因此,提示我们提出了一种解耦混合(DM)损失,可以自适应地挖掘歧视特征而不会失去平滑度。 DM使静态混合方法能够实现具有动态方法的可比性,同时避免重大计算开销。这也导致了一个有趣的客观设计问题,用于混合培训,我们不仅需要关注判定界限,而且还要识别识别歧视特征。在七分类数据集中进行了广泛的监督和半监督学习基准测试,通过配备各种混合方法来验证DM的有效性。

* A direct geometry processing cartilage generation method using segmented bone models from datasets with poor cartilage visibility
* 链接: arxiv.org/abs/2203.1066
* 作者: Faezeh Moshfeghifar,Max Kragballe Nielsen,José D. Tascón-Vidarte,Sune Darkner,Kenny Erleben
* 摘要: 我们提出了一种用于为髋关节产生特异性软骨的方法。给定骨几何形状,我们的方法是不可知的图像模态,创建符合性接口,非常适合有限元分析。我们在十个髋关节上展示了我们的方法,显示了解剖结构一致性和表现良好的应力模式。我们的方法快速,可以帮助当手动分割或培训数据不可行时恢复髋关节的大规模生物力学人口研究。

* Accelerating Integrated Task and Motion Planning with Neural Feasibility Checking
* 链接: arxiv.org/abs/2203.1056
* 作者: Lei Xu,Tianyu Ren,Georgia Chalvatzaki,Jan Peters
* 其他: 6 pages, 6 figures,
* 摘要: 随着机器人在工业中发挥越来越重要的作用,对日常生活任务的应用越来越高。机器人需要执行长期的任务,该任务由需要完成的多个子任务组成。任务和运动计划(TAMP)提供了一个分层框架,通过交织生成可能的动作序列的符号任务计划程序来处理操纵任务的顺序性质,该运动计划程序检查几何世界中的运动范围,如果满足几个约束,例如,从一个状态到另一个状态的碰撞轨迹。因此,关于任务计划的几何接地的推理是由运动计划员接管的。然而,运动规划是计算上强烈的,并且可用性是可行性检查器对现实世界方案不适当的夯实方法。在本文中,我们介绍了神经可行性分类器(NFC),这是一个简单而有效的视觉启发式,用于分类夯实中提出的行动的可行性。即,在无需昂贵的运动计划的情况下,NFC将确定任务计划者的不可行行动,从而减少了在多步操纵任务中的规划时间。由于卷积神经网络(CNN),NFC将机器人工作空间的图像进行编码为特征图。我们使用来自夯实问题的模拟数据训练NFC,并根据IK可行性检查标记该实例。我们在不同模拟操作任务中的经验结果表明,我们的NFC概括了整个机器人工作区,并且即使在具有多种障碍物的场景中也具有高预测精度。当与最先进的集成夯合时,我们的NFC增强了其性能,同时降低了计划时间。

* Learning Whole Heart Mesh Generation From Patient Images For Computational Simulations
* 链接: arxiv.org/abs/2203.1051
* 作者: Fanwei Kong,Shawn Shadden
* 摘要: 患者特异性心脏建模结合了来自医学图像和生物物理模拟的心脏几何形状,以预测心脏功能的各个方面。然而,从患者图像数据产生仿真的型号的型号通常需要复杂的程序和显着的人类努力。我们提出了一种快速自动化的深度学习方法,可以从医学图像构建仿真的仿真模型。该方法通过学习在整个心脏模板上变形一小组变形手柄来构造来自3D患者图像的网格。对于3D CT和MR数据,这种方法实现了全心脏重建的有希望的准确性,始终如一地优于构建心脏模拟 - 合适网格的现有方法。当在时间序列CT数据上进行评估时,该方法比以前的方法产生更多的解剖学和时间一致的几何形状,并且能够产生更好地满足心脏流动模拟的建模要求的几何形状。我们的源代码将在GitHub上提供。

* A Closer Look at Knowledge Distillation with Features, Logits, and Gradients
* 链接: arxiv.org/abs/2203.1016
* 作者: Yen-Chang Hsu,James Smith,Yilin Shen,Zsolt Kira,Hongxia Jin
* 摘要: 知识蒸馏(KD)是将学习知识从一个神经网络模型转移到另一个神经网络模型的实质策略。已经为此策略制定了广泛的方法。虽然大多数方法设计一种更有效的方式来促进知识转移,但在比较了知识来源(如功能,登录和梯度)的效果上的注意力较少。这项工作提供了一种新的视角,可以通过近似具有不同知识来源的古典kl次数标准来激励一组知识蒸馏策略,从而在模型压缩和增量学习中进行系统的比较。我们的分析表明,Logits通常是一种更有效的知识源,并表明具有足够的特征尺寸对于模型设计至关重要,为有效的KD基转移学习提供实用的指导。

* AI system for fetal ultrasound in low-resource settings
* 链接: arxiv.org/abs/2203.1013
* 作者: Ryan G. Gomes,Bellington Vwalika,Chace Lee,Angelica Willis,Marcin Sieniek,Joan T. Price,Christina Chen,Margaret P. Kasaro,James A. Taylor,Elizabeth M. Stringer,Scott Mayer McKinney,Ntazana Sindano,George E. Dahl,William Goodnight III,Justin Gilmer,Benjamin H. Chi,Charles Lau,Terry Spitz,T Saensuksopa,Kris Liu,Jonny Wong,Rory Pilgrim,Akib Uddin,Greg Corrado,Lily Peng,Katherine Chou,Daniel Tse,Jeffrey S. A. Stringer,Shravya Shetty
* 摘要: 尽管母体医疗保健进展相当大,但母亲和围产期死亡在低到中收入国家仍然很高。胎儿超声是产前护理的重要组成部分,但足够培训的医疗保健工人的短缺限制了其采用。我们开发并验证了一种人工智能(AI)系统,使用新手获得的“盲目扫描”超声视频来估计胎龄(GA)和胎儿错误化。我们进一步解决了可能在低资源设置中遇到的障碍。使用简化的扫描协议具有扫描质量的实时AI反馈,我们已经展示了模型性能的泛化,以利用具有设备的低成本超声设备的低成本超声设备的微量培训的新手超声波运算符。 GA模型与标准胎儿生物学生估算不逊色于两个扫描,胎儿错误模型在运营商和设备上具有高AUC-ROC。我们的AI型号有可能在低资源设置中有助于upleveling轻微的超声波运算符的功能。

* Towards a Perceptual Model for Estimating the Quality of Visual Speech
* 链接: arxiv.org/abs/2203.1011
* 作者: Zakaria Aldeneh,Masha Fedzechkina,Skyler Seto,Katherine Metcalf,Miguel Sarabia,Nicholas Apostoloff,Barry-John Theobald
* 其他: Submitted to Interspeech 2022
* 摘要: 为模拟语音生产产生现实的唇部运动是从音频驱动自然角色动画的关键。以前的研究表明,用于优化和评估来自言语的唇部运动的传统指标不是动画质量的主观观点的良好指标。然而,运行重复的主观研究评估动画质量可能是耗时且难以复制的。在这项工作中,我们寻求了解扰动唇部运动与唇观运动质量的主观观点之间的关系。具体地,我们调整唇部运动序列的铰接程度,并运行用户研究以检查该调整如何影响唇部运动的感知质量。然后,我们使用从我们的用户研究中收集的分数培训模型,以自动预测动画序列的主观质量。我们的结果表明,(1)用户在感知品质方面,用户评分具有轻微过度关注的唇部运动; (2)与过度关注的效果相比,阐述对唇部运动质量的更有害影响; (3)我们可以自动估计具有低误差速率的给定唇部运动序列的主观感知分数。

* Selection of entropy based features for the analysis of the Archimedes' spiral applied to essential tremor
* 链接: arxiv.org/abs/2203.1009
* 作者: Karmele López-De-Ipiña,Alberto Bergareche,Patricia De La Riva,Jordi Sole-Casals,Marcos Faundez-Zanuy,Jose Felix Marti-Masso,Mikel Iturrate,Blanca Beitia,Pilar Calvo,Enric Sesa-Nogueras,Josep Roure,Itziar Gurrutxaga,Joseba Garcia-Melero
* 其他: 5 pages, published in 2015 4th International Work Conference on Bioinspired Intelligence ,IWOBI, 2015, pp. 157-162
* 摘要: 通过在多个空间和时间尺度上操作的相互作用机制来调节生物医学系统,并在内部具有线性和非线性信息产生生物信息。在这意义上,熵可以提供关于系统中的紊乱的有用措施,在时序和/或信号的不规则性中缺乏信息。基本震颤(ET)是最常见的运动障碍,比帕金森病了20倍,估计该病例的50-70%估计是原产地的遗传。Archimedes螺旋绘图是临床诊断最常用的标准测试之一。这项工作是从图纸和手写中选择非线性生物标志物的作品,是生物玄死研究所基本震颤诊断的广泛交叉研究的一部分。几种熵算法用于产生非线性配合。自动分析系统由多种机器学习范例组成。

编辑于 2022-03-22 14:19

文章被以下专栏收录