summarized by : asato matsumoto
Junting Pan, Chengyu Wang, Xu Jia, Jing Shao, Lu Sheng, Junjie Yan, Xiaogang Wang
「単一セマンティックラベルマップからのビデオ生成」という新しいタスクを提案した(image-to-video)。またこのタスクを解く方針として、従来のend-to-endでシーンの内容と動きの両方を一度に学習するのではなく、タスクを2つに分解することを提案した。1つは最初のフレーム(シーンの内容)の生成、2つ目は時間的に一貫したビデオの生成である。
セマンティックラベルをフロー予測器に統合することがimage-to-videoの改善に貢献。
Cityscapesで実験を行い、FIDが0.17ポイント改善した。