- …
- …
#9 #acl2021
summarized by : Tosho Hirasawa
概要
小規模なデータしか学習に使えない Vision-Language model を効率的に訓練するためのカリキュラム学習手法を提案した。
段階ごとに異なる粒度・目的関数を用いることで、少ないデータ・パラメータ・訓練時間で従来のモデルに匹敵する性能を達成した。
新規性
Vision-Language model を単語と画像、句と画像、文と画像の順に、段階的に事前訓練する。各段階ではMLMに加え、独自の目的関数を用いて訓練を行う。
単語と画像では、画像特徴量の順序をランダムに入れ替え、元の並び順を予測するよう訓練する。
句と画像では、画像特徴量のラベル(句)が文に含まれるかを予測するよう訓練する。
文と画像では、Image-Text Matching に加え、画像特徴量のラベル(句)が文に含まれるかを予測するよう訓練する。
結果
7つのダウンストリームタスクで、サイズの大きいベースラインと同程度の性能を達成した。訓練の順序や使用する目的関数の有効性を、広範囲の ablation study を通じて確認した。
- …
- …