#175
summarized by : Hirokatsu Kataoka
MVP: Multimodality-Guided Visual Pre-training

どんな論文か?

画像と言語の事前学習表現を利用して識別器を学習するMultimodality-guided Visual Pre-training(MVP)を提案。学習の方法自体は添付画像のように画像・言語の学習済みモデルの画像エンコーダと画像の欠損復元をする学習を統合した形になっている。
placeholder

新規性

MVPという学習の枠組み自体を提案したことが新規性である。画像・言語の学習済みモデルと画像欠損復元の学習方式を統合して整合性を取るという学習戦略となっている。

結果

画像識別のみならずセマンティックセグメンテーションにおいてもBEiTから大幅な性能向上が見られた。ADE-20kにおいて52.4%, ImageNet-1kにおいても84.4%まで到達している(ViT-Base使用時)。

その他(なぜ通ったか?等)

ECCV 2022投稿時ということで、MAEの精度が比較対象になっていないことに注意。