- …
- …
#34
summarized by : yasud
新規性
Vision&Languageのためのモデルの事前学習において、CV側のみの操作を必要とする点
結果
動画シーケンスのVisualStorytellingを行うLSMDC2019および画像シーケンスからVisualStorytellingを行うVISTデータセットにおいて定量及び人評価にてSoTA
その他(なぜ通ったか?等)
dummyトークンと画像シーケンスだけで事前学習をすることで、画像的な文脈の把握をするつよつよdummyトークンにするというアイデアが面白いと思った
- …
- …