#34
summarized by : Akihiro FUJII
Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

どんな論文か?

TransformerベースのモデルでCNNのように階層的に視野を広げつつ、層毎にパッチ化する部分をずらす機構を使ったSwinを提案。画像分類で精度が向上し、物体検知、セグメンテーションでSotA性能を達成した。ICCV2021のベストペーパー
placeholder

新規性

CNNのように徐々に視野を広げる機構を導入したことがポイント。 また、層毎にパッチ化する部分をずらしていくShifted window approachを提案。パディングをすると計算量が増えるので、masked attentionを使う

結果

画像分類、物体検知、セグメンテーションで効果を確認した。MS COCOとADE20KでSotA

その他(なぜ通ったか?等)