Multi-stage Pre-training over Simplified Multimodal Pre-training Models

#9 #acl2021

summarized by : Tosho Hirasawa

Tongtong Liu, Fangxiang Feng, Xiaojie Wang

概要

小規模なデータしか学習に使えない Vision-Language model を効率的に訓練するためのカリキュラム学習手法を提案した。段階ごとに異なる粒度・目的関数を用いることで、少ないデータ・パラメータ・訓練時間で従来のモデルに匹敵する性能を達成した。

新規性

Vision-Language model を単語と画像、句と画像、文と画像の順に、段階的に事前訓練する。各段階ではMLMに加え、独自の目的関数を用いて訓練を行う。単語と画像では、画像特徴量の順序をランダムに入れ替え、元の並び順を予測するよう訓練する。句と画像では、画像特徴量のラベル（句）が文に含まれるかを予測するよう訓練する。文と画像では、Image-Text Matching に加え、画像特徴量のラベル（句）が文に含まれるかを予測するよう訓練する。

結果

７つのダウンストリームタスクで、サイズの大きいベースラインと同程度の性能を達成した。訓練の順序や使用する目的関数の有効性を、広範囲の ablation study を通じて確認した。

このページで利用されている画像は論文から引用しています．