summarized by : Tosho Hirasawa
Multi-stage Pre-training over Simplified Multimodal Pre-training Models

概要

小規模なデータしか学習に使えない Vision-Language model を効率的に訓練するためのカリキュラム学習手法を提案した。 段階ごとに異なる粒度・目的関数を用いることで、少ないデータ・パラメータ・訓練時間で従来のモデルに匹敵する性能を達成した。
placeholder

新規性

Vision-Language model を単語と画像、句と画像、文と画像の順に、段階的に事前訓練する。各段階ではMLMに加え、独自の目的関数を用いて訓練を行う。 単語と画像では、画像特徴量の順序をランダムに入れ替え、元の並び順を予測するよう訓練する。 句と画像では、画像特徴量のラベル(句)が文に含まれるかを予測するよう訓練する。 文と画像では、Image-Text Matching に加え、画像特徴量のラベル(句)が文に含まれるかを予測するよう訓練する。

結果

7つのダウンストリームタスクで、サイズの大きいベースラインと同程度の性能を達成した。訓練の順序や使用する目的関数の有効性を、広範囲の ablation study を通じて確認した。