StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

#404

summarized by : Seitaro Shinagawa

Adyasha Maharana; Darryl Hannan; Mohit Bansal

どんな論文か？

テキストからの物語画像生成の論文。一連の説明文の系列が与えられた時に対応する系列画像を出力する課題。本研究では学習済みのminiDALL-Eをベースに、説明文系列の文脈を捉えるglobal story encoder (self-attention)、元画像のエンコーダ (cross attention)、Prompt-tuningするためのMLPを新たに追加して物語画像生成を行えるようにした。

新規性

StoryDALL-Eの提案と新しいデータセットDiDeMoSVの提案が新規な点。StoryDALL-Eによって、物語画像生成における未知のプロットやキャラクターへの汎化、物語の継続性に対応する点がウリ

結果

Ablation studyにより、提案するモジュールはどれも使うことが望ましい点、ベースラインとして用意したGANベースの手法よりもStoryDALL-Eの方が人による主観評価で優れている点を示した。

その他（なぜ通ったか？等）

生成結果を見ると人目に見ても評価がむずかしく、まだまだ発展途上であるように思えるが、DALL-Eの物語画像生成への応用ということで価値のあるトライだとみなされたのかと思われる。

このページで利用されている画像は論文から引用しています．