VisualGPT: Data-Efficient Adaptation of Pretrained Language Models for Image Captioning

#366

summarized by : QIUYUE

Jun Chen; Han Guo; Kai Yi; Boyang Li; Mohamed Elhoseiny

どんな論文か？

画像説明文生成などのVision and Language系の研究はデータセットの作成コストが高く、データセットの規模が小さい場合がある。ここで、languageの大規模事前学習のモデルをIm画像説明文生成タスクで活用することを提案。具体的に、新たなSelf-resurrecing activationを提案し、既存の他のTransformer手法より良い転移性能を示した。

新規性

大規模Languageの事前学習モデルをVision and Languageタスクに有効的に活用することを実現した。また、上記のために新たなTransformerベースな手法を提案。提案手法（Self-resurrecting）では、Sparse activationにより事前学習のLanguageモデルでVisual特徴などをOverwritingを防いている。

結果

提案のモデルVisualGPTを使用し、MS COCO、Conceptual Captionsなどの既存のベンチマークでそれぞれ10\%、17.9\%の性能向上を得られた（CIDEr）。また、IU X-rayという医学に特化したCaptionデータセットにおいてもSOTAを達成。

その他（なぜ通ったか？等）

アイデアがシンプルでStraightforwardで面白い。

このページで利用されている画像は論文から引用しています．