#今日论文推荐#ECCV 2022 | 清华&字节提出ScalableViT：重新思考视觉Transformer面向上下文的泛化

#今日论文推荐#ECCV 2022 | 清华&字节提出scalableViT：重新思考视觉Transformer面向上下文的泛化

近年来，卷积神经网络(cnn)在计算机视觉领域占据主导地位，这归功于其建模逼真图像的能力，从局部感知到全局感知。虽然它们已被广泛应用于各种视觉任务，但在整体视觉感知方面仍存在不足。
transformer 的全局感知需要一个昂贵的计算，因为自我关注是在整个序列上的二次计算。
为了减轻这种开销，典型的Swin Transformer 采用了基于windows的Self-Attention (WSA)，它将特征映射划分为许多不重叠的子区域，并使其能够处理线性复杂度的大规模图像。还提出了一种新颖的基于移动窗口的自我注意(SWSA)，以弥补潜在的长期依赖的损失。
为了深入了解WSA，本文在第二个块之后可视化特征图。如图1所示，WSA捕捉到的特征是分散的，其响应倾向于局部，而不是面向对象。

由于总是固定的维数，导致学习能力有限，因此模型的最终性能在很大程度上取决于输入数据的难度。
为了缓解这一问题，作者提出了一种新的自我注意机制，称为可伸缩自我注意(scalable self-attention, SSA)，它同时在空间和通道维度引入两个尺度因子(rn和rc)。
在图1的第三行中，可以观察到，空间的可扩展性可以为对象带来几乎连续的可视化建模，但仍然丢失了一些上下文线索。
因此，作者扩展通道维度来学习更图形化的表示。如图1最后一行所示，通过通道可扩展性，SSA在保持面向上下文泛化的同时，成功地获得了完整的对象激活。
此外，还提出了一个基于窗口的交互式自注意(IWSA)，它由一个常规WSA和一个本地交互模块(LIM)组成。IWSA通过重新合并独立的值标记和聚合相邻窗口的空间信息来建立信息连接。
这种特性增强了期望的全局接收域，并充分利用了transformer在单一层中的最显著优势。
为了实现更高效的通用视觉任务骨干，本文采用分层设计，并提出了一种新的vision Transformer架构，称为scalable ViT，它在每个阶段交替排列IWSA和SSA块。

论文题目：ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer
详细解读：https://www.aminer.cn/research_report/6304cbd77cb68b460f0a2193

https://www.aminer.cn/research_report/6304cbd77cb68b460f0a2193
Aminer链接：https://www.aminer.cn/?f=cs

原文地址：https://www.jb51.cc/wenti/3287417.html

#今日论文推荐#ECCV 2022 | 清华&字节提出ScalableViT：重新思考视觉Transformer面向上下文的泛化

相关推荐