Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

#34

summarized by : Akihiro FUJII

Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo

TransformerベースのモデルでCNNのように階層的に視野を広げつつ、層毎にパッチ化する部分をずらす機構を使ったSwinを提案。画像分類で精度が向上し、物体検知、セグメンテーションでSotA性能を達成した。ICCV2021のベストペーパー

CNNのように徐々に視野を広げる機構を導入したことがポイント。また、層毎にパッチ化する部分をずらしていくShifted window approachを提案。パディングをすると計算量が増えるので、masked attentionを使う

画像分類、物体検知、セグメンテーションで効果を確認した。MS COCOとADE20KでSotA

このページで利用されている画像は論文から引用しています．