#447
summarized by : 角田良太朗
MAXIM: Multi-Axis MLP for Image Processing

どんな論文か?

TransformerおよびMLPはreceptive fieldがglobalに特化しておりlow-level visionには向いてないと主張し、globalかつlocalなreceptive fieldを持ちかつ計算量を線形に抑えた新しいbackboneを提案。
placeholder

新規性

convとMLPのハイブリッドからなるencoder-decoder型multiscale構造であるが、特筆すべきはMLP部分がlocalなchannel-wiseおよびglobalなchannel-wiseの計算を並列に行なっており、これが計算量を抑えつつglobalおよびlocalな特徴量を取得するための核を成す。加えてgating構造も同様の仕組みを適用した上で追加している。

結果

denoising/deblurring/deraining/dehazing/retouchingの5タスクにおいて既存手法を上回る精度を達成。

その他(なぜ通ったか?等)

実装は単純であるが今までに見たことがない方法である点が高評価。 また実験からbackboneとしての汎用性が窺えるので、他タスクにも試してみたいところ。 https://github.com/google-research/maxim