#34
summarized by : yasud
Transitional Adaptation of Pretrained Models for Visual Storytelling

どんな論文か?

Vision&Languageの各ドメインにおける事前学習済みモデルを用いて、それらをつなげる事前学習の手法を提案し、下流タスクのVisualStorytellingに適用する
placeholder

新規性

Vision&Languageのためのモデルの事前学習において、CV側のみの操作を必要とする点

結果

動画シーケンスのVisualStorytellingを行うLSMDC2019および画像シーケンスからVisualStorytellingを行うVISTデータセットにおいて定量及び人評価にてSoTA

その他(なぜ通ったか?等)

dummyトークンと画像シーケンスだけで事前学習をすることで、画像的な文脈の把握をするつよつよdummyトークンにするというアイデアが面白いと思った