#569
summarized by : QIUYUE
Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning

どんな論文か?

既存のVideo Synthetic手法は単一のモダリティからビデオを生成する研究がメイン(例:画像のみ/言語のみ)。ここで、言語と画像両方からビデオを生成するタスクと手法を提案。具体的に、2段階から構成されるBidirectional Transformerベースな手法を提案。段階1でビデオの特徴量を得て、段階2で言語とビデオ特徴からビデオを生成。
placeholder

新規性

既存のビデオ生成は画像もしくは言語の単一なモダリティで行われていて、ここで画像と言語両方を用いてビデオを生成するタスクを提案。提案タスクにより、より質の高くコントロールしやしようにビデオを生成できる。また、Contrastive LearningやMASKED Representationなどの最新手法を導入したTransformerベース手法も提案。

結果

提案手法が3つの既存ベンチマークデータセットにおいてSOTAな生成精度を実現した。また、既存手法と比べて、画像を使っているからより視覚的にリアリティがあり、かつConsistencyがあるビデオを生成できる。また同時に言語も使っているから、よりFineーgrainedで細かい情報によりビデオを生成できる。

その他(なぜ通ったか?等)

これからのVideo Synthesisや3D Synthesisも劇的に性能向上しそう。この論文は構造上の新規性よりは、最近の強い手法を組み合わせた感がある。