- …
#2
summarized by : Yui Iioka @Keio-Univ.
新規性
・RGB画像から,擬似的にDepth画像・Semantic Segmentaionを作成
・3つのモダリティによる画像を入力とする(multi-modal)
・それぞれモダリティにおけるGT(or 擬似的なGT)との損失
結果
・マルチモーダルorクロスモーダルに画像生成が可能に(e.g. RGB -> D, RGB+D -> SS)
・各指標(MSE, mIoU, δ)のおいて,MAEと同等以上の性能
・Takonomyにおける評価で,転移のしやすさがMAEを上回る
その他(なぜ通ったか?等)
github:https://github.com/EPFL-VILAB/MultiMAE
project page:https://multimae.epfl.ch/
demo:https://huggingface.co/spaces/EPFL-VILAB/MultiMAE
【感想】
demoをやってみると凄さが伝わりやすい. モデル構造というよりは実験結果に注目.
- …