Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

最新推荐文章于 2022-12-17 00:09:42 发布
最新推荐文章于 2022-12-17 00:09:42 发布

HorNet:使用递归门控卷积构建高阶空间交互

这篇文章旨在使用卷积结构设计一种更加有效的空间交互模块。作者们通过递归门控策略设计了递归门控卷积操作,从而在特征内部构建了更高阶的空间交互过程。这种结构可以作者为一种即插即用的模块来提升视觉Transformer或者卷积模型。除了构建backbone,也可以用于解码器来提升密集预测任务的性能。

本文将Vision Transformer成功背后的关键因素总结为三点:

  1. 输入自适应
  2. 长距离依赖关系
  3. 高阶空间交互

这三点主要由Self Attention操作实现。

Recursive Gated Convolution

这是本文的核心结构。其完全围绕卷积操作构建。其主要包含三点好处:

  1. 有效性(efficient):卷积实现避免了Self Attention的平方复杂度。
  2. 可扩展性(extendable):可以通过调整参数实现更高阶的空间交互,从而进一步提升模型的建模能力。而且结构中可以兼容不同的卷积核大小以及空间混合策略,像是更大卷积核的深度分离卷积或者是基于傅里叶变换的Global Filter。
  3. 平移等变性:由于核心操作仍然基于卷积,所以整体也继承了卷积的平移等变性。这为模型引入了有益的归纳偏置,避免由于局部注意力带来的非对称性。

结构具体操作流程延续了递归的思想,对输入构造不同的分支,各分支渐进式的实现了一种递归的形式。

模块具体运算流程 如下:

  1. 整体模型基础构建block仍然延续Vision Transformer的形式,且遵循pre-norm策略。其中的Self Attention被替换为gnconv。
  2. 经过一个独立的卷积层后通道数被调整为输入通道数C的两倍,即2C。
  3. 对于指定的阶数n,对2C依此除以n次2获得n个不同通道数的组和。
  4. 将n个通道数从小到大排序后表示为 p n 进行1x1卷积即可,通道数不变,因为此时的通道数恰好等于输入通道。

其他架构细节

  • stem使用4x4且步长为4的跨步卷积+LN实现。
  • stage里的下采样通过LN+2x2且步长为2的跨步卷积实现。
  • 使用了layer scale;
  • 使用了stochastic depth;
  • 分类头使用Global Average Pooling+LN+Linear实现。
Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions 这篇文章旨在使用卷积结构设计一种更加有效的空间交互模块。作者们通过递归门控策略设计了递归门控卷积操作,从而在特征内部构建了更高阶的空间交互过程。这种结构可以作者为一种即插即用的模块来提升视觉Transformer或者卷积模型。除了构建backbone,也可以用于解码器来提升密集预测任务的性能。... Hornet -dock er 提供 Hornet 的dock er 化, Hornet 是最初为构建的实时引擎。 您可以在其找到有关 Hornet 的所有信息。 该映像基于,并由以控制Redis和 Hornet 的进程。 通过以下方式构建此dock er file: $ dock er build -t hornet . 通过以下方式运行构建的大WaSP映像: $ dock er run --name some- hornet -p 8187:8187 -d hornet 您还可以从获取图像: $ dock er run --name some- hornet -p 8187:8187 -d nectify/ hornet 从您的应用程序连接 Hornet 容器: $ dock er run --name some-app --link some- hornet : hornet -
HorNet : E ffi cient High - Order Spatial Interaction s with Re cursive Gated Convolution s ECCV2022 视觉 Transform er s 的最新进展在基于点积 self-attention 的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,我们展示了视觉 Transform er 背后的关键要素,即输入自适应、远程和高阶空间交互,也可以通过基于卷积的框架有效实现。我们提出了递归门控卷积(gnConv),它通过门控卷
""" Effective Squeeze-Excitation From `Cent er Mask : Real-Time Anchor-Free Instance Segmentation` - https:// arxiv .org/abs/1911.06667 """
这篇论文提出了一种名为“Effective Squeeze-Excitation”的技术,用于增强 神经网络 的特征表示能力。这种技术基于“Squeeze-and-Excitation(SE)”模块,该模块旨在对输入特征进行适当的缩放和重新加权,以使网络能够更好地学习和表示有用的特征。 SE模块包括两个步骤。首先,通过应用全局池化来获得输入特征的全局信息。然后,使用两个完全连接的层来学习如何对这些信息进行重新加权。这些重新加权的特征被称为“Squeeze-Excitation(SE)”特征,并被用于下一层的特征表示。 本文的“Effective Squeeze-Excitation”技术通过增加并行的卷积分支来改进SE模块的性能。这些卷积分支不仅可以对原始特征进行卷积操作,还可以对SE特征进行卷积。结果,在一系列视觉任务中,使用“Effective Squeeze-Excitation”技术的模型都比使用SE模块的模型表现更好。
ECCV 2022 | Learning Implicit Feature Alignment Function for Semantic Segmentation概述与代码分析 CVPR 2023 | ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Arxiv 2307 | Retentive Network: A Successor to Transformer for Large Language Models