#20
summarized by : SY
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

どんな論文か?

Vision Transformer(ViT)では,最初にパッチを区切った際の解像度で固定されてしまうためセグメンテーションなどのタスクには適さなかった.そこで,複数スケールの特徴を抽出可能とする新たなモデルVision Longformer(ViL)を提案した.
placeholder

新規性

CNNのように高解像度からスタートして,次第に解像度を下げていくという構造を採用.その際,計算効率の観点から特徴量の次元は層が深くなるにつれて大きくしている.また,計算コストを削減するために,系列長が長い入力を扱うために計算コストを削減したモデルLongformerを2次元に拡張することで,画像において取り扱いを可能とした.

結果

Longformer以外の計算コスト削減手法(LinformerやSpatial Reduction Attentionなど)と比較し,Longformerが最も有効であることを確認.実験は画像分類と物体検出で行い,同時期に登場したPVTを含むベースライン手法を上回る性能を確認.

その他(なぜ通ったか?等)

LongformerのようにNLPで提案されたTransformerの発展系を他にもCVに導入することが可能かが気になる.Swin TransformerやPVTなど,ViTをマルチスケールに拡張する手法が今回のICCVだけでいくつも発表されているため,どのモデルが生き残るかを注目したい.