MultiMAE: Multi-modal Multi-task Masked Autoencoders

summarized by : Yui Iioka @Keio-Univ.

Roman Bachmann; David Mizrahi; Andrei Atanov; Amir Zamir

どんな論文か？

自然言語処理分野におけるBERTのように，画像処理分野としてはMAEが事前学習モデルとして活躍してきた. そこで，より様々なタスクに対して転移のしやすいモデルを本論文では目指す.

新規性

・RGB画像から，擬似的にDepth画像・Semantic Segmentaionを作成・３つのモダリティによる画像を入力とする(multi-modal) ・それぞれモダリティにおけるGT(or 擬似的なGT)との損失

結果

・マルチモーダルorクロスモーダルに画像生成が可能に（e.g. RGB -> D, RGB+D -> SS）・各指標（MSE, mIoU, δ）のおいて，MAEと同等以上の性能・Takonomyにおける評価で，転移のしやすさがMAEを上回る

その他（なぜ通ったか？等）

github：https://github.com/EPFL-VILAB/MultiMAE project page：https://multimae.epfl.ch/ demo：https://huggingface.co/spaces/EPFL-VILAB/MultiMAE 【感想】 demoをやってみると凄さが伝わりやすい. モデル構造というよりは実験結果に注目.

このページで利用されている画像は論文から引用しています．