Transitional Adaptation of Pretrained Models for Visual Storytelling

#34

summarized by : yasud

Youngjae Yu, Jiwan Chung, Heeseung Yun, Jongseok Kim, Gunhee Kim

Vision&Languageの各ドメインにおける事前学習済みモデルを用いて、それらをつなげる事前学習の手法を提案し、下流タスクのVisualStorytellingに適用する

Vision&Languageのためのモデルの事前学習において、CV側のみの操作を必要とする点

動画シーケンスのVisualStorytellingを行うLSMDC2019および画像シーケンスからVisualStorytellingを行うVISTデータセットにおいて定量及び人評価にてSoTA

dummyトークンと画像シーケンスだけで事前学習をすることで、画像的な文脈の把握をするつよつよdummyトークンにするというアイデアが面白いと思った

このページで利用されている画像は論文から引用しています．