Swin Transformer论文精读

论文研读自我提升 ViT

发布日期: 2023-11-24

作者: xhsioi

文章字数: 580

阅读时长: 2 分

阅读次数:

Swin Transformer

论文：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

相关知识

FPN(特征金字塔)

基本原理：生成不同尺寸的图片，每张图片生成不同的特征，分别进行预测，最后统计所有尺寸的预测结果。

作用：把高层的特征传下来，同时保证底层特征也能被记录，最终提取多尺度的特征图。通过这种操作可以获得高分辨率、强语义的特征，有利于小目标的检测。

Abstract

相当于ViT的延伸，背景：

视觉实体的尺度变换很大；
图像中像素的分辨率较高；

实现方法：提出了一种分层变换器，移位窗口实现，移动的窗口保证了相邻的自注意力计算存在重叠部分，从而提高了效率。最终的模型在图像分类和密集预测任务中表现较好。

Introduction

和ViT那篇差不多，讲了一下当前cv的两种方式，即传统的CNN和引入NLP的transformer。在本文中作者希望将ViT改进成适合所有图像任务的通用骨干网络。

相较于之前的架构，构建分层特征图，并且具有与图像大小线性的计算复杂度。如图 1(a) 所示，Swin Transformer 通过从小尺寸补丁（灰色轮廓）开始并逐渐合并更深 Transformer 层中的相邻补丁来构建分层表示。借助这些分层特征图，Swin Transformer 模型可以方便地利用先进技术进行密集预测，例如特征金字塔网络 (FPN)或 U-Net。

滑动窗口的设计不仅能够使相邻patch之间的注意力计算成为可能，同时利用空间局限性提高了内存使用效率。

Method

整体架构，即层次transformer

局部自注意力的滑动窗口实现

在滑动窗口的实现过程中，需要注意非相邻的自注意力计算问题，这时候就需要对包含不同部分的位移后patch进行masked操作。

Conclusion

该方法能获得更多层次的特征和更小的计算复杂度，取得了很好的成果。但是对于多模态领域而言，想要实现视觉和语言的统一，还需要探索Swin Transformer在NLP领域的可行性（即滑动窗口的方法）

转载规则

《Swin Transformer论文精读》由 xhsioi 采用知识共享署名 4.0 国际许可协议进行许可。

上一篇

PBE论文阅读

PBE论文阅读

Progressive Backdoor Erasing via connecting Backdoor and Adversarial Attacks 相关知识整体框架 Abstract 背景：深度学习网络容易受到两种攻击：后门

2023-11-26 论文

论文研读自我提升后门攻击对抗样本生成

下一篇

AlaphaFold2论文精读

AlaphaFold2论文精读

2023-11-24