#2
summarized by : Yui Iioka @Keio-Univ.
MultiMAE: Multi-modal Multi-task Masked Autoencoders

どんな論文か?

自然言語処理分野におけるBERTのように,画像処理分野としてはMAEが事前学習モデルとして活躍してきた. そこで,より様々なタスクに対して転移のしやすいモデルを本論文では目指す.
placeholder

新規性

・RGB画像から,擬似的にDepth画像・Semantic Segmentaionを作成 ・3つのモダリティによる画像を入力とする(multi-modal) ・それぞれモダリティにおけるGT(or 擬似的なGT)との損失

結果

・マルチモーダルorクロスモーダルに画像生成が可能に(e.g. RGB -> D, RGB+D -> SS) ・各指標(MSE, mIoU, δ)のおいて,MAEと同等以上の性能 ・Takonomyにおける評価で,転移のしやすさがMAEを上回る

その他(なぜ通ったか?等)

github:https://github.com/EPFL-VILAB/MultiMAE project page:https://multimae.epfl.ch/ demo:https://huggingface.co/spaces/EPFL-VILAB/MultiMAE 【感想】 demoをやってみると凄さが伝わりやすい. モデル構造というよりは実験結果に注目.