#31
summarized by : Akihiro FUJII
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions

どんな論文か?

物体検知や意味領域区分のバックボーンネットワーク位でTransformerを使う研究。CNNとは異なり最初から視野が広いのが利点。CNNのようにstride=2を使う代わりに、行列を用いた射影で解像度を半分に下げながら抽象化を行う。同程度のパラメータを持つCNNバックボーンと比較すると精度が良い。
placeholder

新規性

CNNのように解像度を徐々に下げるので、最初は比較的高い解像度(4x4のパッチ、ViTでは16x16)を使えるのがポイント。CNNと比較すると、Self-Attentionの特性上最初から視野が全域に広がっているのが有利な点。 解像度を1/2に下げるために、poolingの変わりに行列を用いた射影で解像度を半分に下げている(Spatial Reduction Attention)

結果

画像分類だと、まぁまぁ計算量は少ないが精度は微妙。物体検知とかだとちょっと精度がよくなる。チャネル数を多くするより、深くした方が精度が高いらしい。

その他(なぜ通ったか?等)