- …
- …
#591
summarized by : 角田良太朗
どんな論文か?
Transformerを高解像度画像に用いるために、self-attentionをchannel方向にかけて計算量削減、feed-forward部分にgatingを導入して精度向上、パッチサイズを徐々に大きくするprogressive learningの導入、の3つを提案。従来手法のようにパッチ分割することなく高解像度画像を扱えるのがポイント。
新規性
attention計算時にHW*HWで二乗の計算量になるところをC*Cで線形の計算量に落とす。またfeed-forward部分にdepthwise-convでgatingを導入することで、こちらも計算量を抑えたまま表現力を向上。最後にパッチサイズを徐々に大きくするprogressive learningを導入する。こちらはバッチ数を同時に減らすことで学習効率を維持する。
結果
deraining, motion&defocus deblurring, denoisingの各タスクにおいて高い精度を記録、かつ140Flops程度の速度が出ることも実証。
その他(なぜ通ったか?等)
これはTransformer自体の改良でLow-level vision枠に入れていいのか疑問だが、むしろそのおかげでその他MetaFormerのようなモデル改良系の競合論文が存在せずOralに選ばれた可能性がある?
https://github.com/swz30/Restormer
- …
- …