- …
- …
#31
summarized by : Akihiro FUJII
どんな論文か?
物体検知や意味領域区分のバックボーンネットワーク位でTransformerを使う研究。CNNとは異なり最初から視野が広いのが利点。CNNのようにstride=2を使う代わりに、行列を用いた射影で解像度を半分に下げながら抽象化を行う。同程度のパラメータを持つCNNバックボーンと比較すると精度が良い。
新規性
CNNのように解像度を徐々に下げるので、最初は比較的高い解像度(4x4のパッチ、ViTでは16x16)を使えるのがポイント。CNNと比較すると、Self-Attentionの特性上最初から視野が全域に広がっているのが有利な点。
解像度を1/2に下げるために、poolingの変わりに行列を用いた射影で解像度を半分に下げている(Spatial Reduction Attention)
結果
画像分類だと、まぁまぁ計算量は少ないが精度は微妙。物体検知とかだとちょっと精度がよくなる。チャネル数を多くするより、深くした方が精度が高いらしい。
その他(なぜ通ったか?等)
- …
- …