#274
summarized by : Anonymous
Neural 3D Video Synthesis From Multi-View Video

どんな論文か?

18台の時間同期されたGoProで撮影した動画を入力とし、NeRFを時刻方向に拡張したDyNeRFを提案。10秒ほどの動画でも28MBというコンパクトな形で表現可能。炎等の複雑な表現をするため、入力に時刻ではなく、時間依存のlatent codeを用いる。キーフレームのみで学習を行い、フレーム間ではlatent codeを線形補間することで表現。
placeholder

新規性

発表時点では複数視点動画からNeRFを時刻方向に拡張した初めての論文であった点。単に各フレームで独立にNeRFを学習しては膨大な時間を要してしまうが、隣接フレーム間のシーンの変化は少なく、局所的に一貫していることを利用し、coarseフレームで時間不変の箇所をまず学習し、fineフレームで時変の部分を学習することで、学習を高速化した点。

結果

論文著者が作成したMulti-view Captureデータセットを用いた実験により、既存手法であるNeRF-T(NeRFの入力(位置座標+視線方向)にシンプルに時刻を加えた手法、論文として発表されていない)を上回る結果

その他(なぜ通ったか?等)

炎もNeRFで再現している点がすごい。 https://neural-3d-video.github.io/