12-in-1: Multi-Task Vision and Language Representation Learning

#80

summarized by : Shintaro Yamamoto

Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee

どんな論文か？

Vision-and-Languageの研究は、特定のタスクに特化して研究が進められる傾向がある。実際には、物体の色が何であるかの情報はReferring ExpressionとVQAの両方で活用できるなど、他のタスクと共通した要素を含んでいる。Vision-and-Languageのタスクに対して、マルチタスク学習が有効であるかの検証を行う。

新規性

ViLBERT (NeurIPS 2019)をEncoderとして用いて、VQA, Image Retrieval, Referring Expressions, Multi-modal Verificationの4つのタスクを含んだマルチタスク学習を行った。学習には12のデータセットを使用。

結果

タスク単体で学習する場合と比べて、11のデータセットにおいてマルチタスク学習により精度が向上することが明らかになった。また、マルチタスク学習後にタスク単体で学習を行うことで7のデータセットでSOTAを達成した。

その他（なぜ通ったか？等）

手法自体はシンプルであるが、大規模な実験となるためインパクトがある

このページで利用されている画像は論文から引用しています．