- …
- …
#366
summarized by : QIUYUE
どんな論文か?
画像説明文生成などのVision and Language系の研究はデータセットの作成コストが高く、データセットの規模が小さい場合がある。ここで、languageの大規模事前学習のモデルをIm画像説明文生成タスクで活用することを提案。具体的に、新たなSelf-resurrecing activationを提案し、既存の他のTransformer手法より良い転移性能を示した。
新規性
大規模Languageの事前学習モデルをVision and Languageタスクに有効的に活用することを実現した。また、上記のために新たなTransformerベースな手法を提案。提案手法(Self-resurrecting)では、Sparse activationにより事前学習のLanguageモデルでVisual特徴などをOverwritingを防いている。
結果
提案のモデルVisualGPTを使用し、MS COCO、Conceptual Captionsなどの既存のベンチマークでそれぞれ10\%、17.9\%の性能向上を得られた(CIDEr)。 また、IU X-rayという医学に特化したCaptionデータセットにおいてもSOTAを達成。
その他(なぜ通ったか?等)
アイデアがシンプルでStraightforwardで面白い。
- …
- …