#366
summarized by : QIUYUE
VisualGPT: Data-Efficient Adaptation of Pretrained Language Models for Image Captioning

どんな論文か?

画像説明文生成などのVision and Language系の研究はデータセットの作成コストが高く、データセットの規模が小さい場合がある。ここで、languageの大規模事前学習のモデルをIm画像説明文生成タスクで活用することを提案。具体的に、新たなSelf-resurrecing activationを提案し、既存の他のTransformer手法より良い転移性能を示した。
placeholder

新規性

大規模Languageの事前学習モデルをVision and Languageタスクに有効的に活用することを実現した。また、上記のために新たなTransformerベースな手法を提案。提案手法(Self-resurrecting)では、Sparse activationにより事前学習のLanguageモデルでVisual特徴などをOverwritingを防いている。

結果

提案のモデルVisualGPTを使用し、MS COCO、Conceptual Captionsなどの既存のベンチマークでそれぞれ10\%、17.9\%の性能向上を得られた(CIDEr)。 また、IU X-rayという医学に特化したCaptionデータセットにおいてもSOTAを達成。

その他(なぜ通ったか?等)

アイデアがシンプルでStraightforwardで面白い。