- …
- …
#34
summarized by : Akihiro FUJII
どんな論文か?
TransformerベースのモデルでCNNのように階層的に視野を広げつつ、層毎にパッチ化する部分をずらす機構を使ったSwinを提案。画像分類で精度が向上し、物体検知、セグメンテーションでSotA性能を達成した。ICCV2021のベストペーパー
新規性
CNNのように徐々に視野を広げる機構を導入したことがポイント。
また、層毎にパッチ化する部分をずらしていくShifted window approachを提案。パディングをすると計算量が増えるので、masked attentionを使う
結果
画像分類、物体検知、セグメンテーションで効果を確認した。MS COCOとADE20KでSotA
その他(なぜ通ったか?等)
- …
- …