#372
summarized by : Kazuki Omi
VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

どんな論文か?

Vision-and-languageのマルチタスクのためのモデルの提案. 近年の vision-and-languageモデルは大規模化の傾向にあり,目的タスクに合わせて全てのパラメータをファインチューニングするのは困難であるため,アダプタ(事前学習済モデルの中間層に追加するパラメータ数の小さなモジュール)を用いた手法を提案している.
placeholder

新規性

既存のアダプタ型の手法はタスク毎もしくはドメイン毎にアダプタを用意する(つまりアダプタはタスクまたはドメイン固有)手法が一般的であった. 提案手法ではアダプタの一部のパラメータをタスク間で共有するものや,アダプタの全てのパラメータをタスク間で共有するタイプのアダプタを提案した.

結果

画像とテキストではVQAv2, GQA, NLVR^2, MSCOCO (キャプショニング)の4つのデータセットで,動画とテキストではVALUE, TVQA, How2QA, TVC, YC2Cの5つのデータセットでそれぞれマルチタスクの実験を行い,総合的に全てのタスクで共有するアダプタが最も良いと示した.

その他(なぜ通ったか?等)

https://github.com/ylsung/VL_adapter