MVP: Multimodality-Guided Visual Pre-training

#175

summarized by : Hirokatsu Kataoka

Longhui Wei; Lingxi Xie; Wengang Zhou; Houqiang Li; Qi Tian

画像と言語の事前学習表現を利用して識別器を学習するMultimodality-guided Visual Pre-training（MVP）を提案。学習の方法自体は添付画像のように画像・言語の学習済みモデルの画像エンコーダと画像の欠損復元をする学習を統合した形になっている。

MVPという学習の枠組み自体を提案したことが新規性である。画像・言語の学習済みモデルと画像欠損復元の学習方式を統合して整合性を取るという学習戦略となっている。

画像識別のみならずセマンティックセグメンテーションにおいてもBEiTから大幅な性能向上が見られた。ADE-20kにおいて52.4%, ImageNet-1kにおいても84.4%まで到達している（ViT-Base使用時）。

ECCV 2022投稿時ということで、MAEの精度が比較対象になっていないことに注意。

このページで利用されている画像は論文から引用しています．