#404
summarized by : Seitaro Shinagawa
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

どんな論文か?

テキストからの物語画像生成の論文。一連の説明文の系列が与えられた時に対応する系列画像を出力する課題。本研究では学習済みのminiDALL-Eをベースに、説明文系列の文脈を捉えるglobal story encoder (self-attention)、元画像のエンコーダ (cross attention)、Prompt-tuningするためのMLPを新たに追加して物語画像生成を行えるようにした。
placeholder

新規性

StoryDALL-Eの提案と新しいデータセットDiDeMoSVの提案が新規な点。StoryDALL-Eによって、物語画像生成における未知のプロットやキャラクターへの汎化、物語の継続性に対応する点がウリ

結果

Ablation studyにより、提案するモジュールはどれも使うことが望ましい点、ベースラインとして用意したGANベースの手法よりもStoryDALL-Eの方が人による主観評価で優れている点を示した。

その他(なぜ通ったか?等)

生成結果を見ると人目に見ても評価がむずかしく、まだまだ発展途上であるように思えるが、DALL-Eの物語画像生成への応用ということで価値のあるトライだとみなされたのかと思われる。