Vision Transformers for Dense Prediction

#35

summarized by : Akihiro FUJII

Rene Ranftl, Alexey Bochkovskiy, Vladlen Koltun

どんな論文か？

意味領域区分や深度推定など予測マップを算出するタスクでTransformerベースのモデルViTを使用した研究。CNNと異なりViTは解像度を落さず伝播するのでこれらのタスクに有利という考えより適用した。深度推定や意味領域区分でSotA性能達成。

新規性

TransformerベースのモデルのViTは解像度を落とさずに順伝播することに着目し、意味領域区分や深度推定など密な予測が必要なタスクで活用するという着眼点。基本はViTを踏襲している(DPT-Base, DPT-Large)が、パッチ分割の特徴量をそのままRGBを並べるのではなく、ResNet50による特徴量抽出を行うモデルもある(DPT-Hybrid)。

結果

深度推定や意味領域区分で検証している。深度推定に関しては、CNNもモデル(MiDaS)より、解像度が高く推定できていることがわかる。zero-shot転移ではスコアもかなり改善できていることがわかる。

その他（なぜ通ったか？等）

CNNと混ぜる思想は、Incorporating Convolution Designs into Visual Transformers(https://arxiv.org/abs/2103.11816) と似ている。

このページで利用されている画像は論文から引用しています．