VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

#372

summarized by : Kazuki Omi

Yi-Lin Sung; Jaemin Cho; Mohit Bansal

どんな論文か？

Vision-and-languageのマルチタスクのためのモデルの提案．近年の vision-and-languageモデルは大規模化の傾向にあり，目的タスクに合わせて全てのパラメータをファインチューニングするのは困難であるため，アダプタ（事前学習済モデルの中間層に追加するパラメータ数の小さなモジュール）を用いた手法を提案している．

新規性

既存のアダプタ型の手法はタスク毎もしくはドメイン毎にアダプタを用意する（つまりアダプタはタスクまたはドメイン固有）手法が一般的であった．提案手法ではアダプタの一部のパラメータをタスク間で共有するものや，アダプタの全てのパラメータをタスク間で共有するタイプのアダプタを提案した．

結果

画像とテキストではVQAv2, GQA, NLVR^2, MSCOCO (キャプショニング）の4つのデータセットで，動画とテキストではVALUE, TVQA, How2QA, TVC, YC2Cの5つのデータセットでそれぞれマルチタスクの実験を行い，総合的に全てのタスクで共有するアダプタが最も良いと示した．

その他（なぜ通ったか？等）

https://github.com/ylsung/VL_adapter

このページで利用されている画像は論文から引用しています．