- …
- …
#250
summarized by : Kazuhito Sato
どんな論文か?
新しいシーンの数枚の画像(カメラポーズなし)が与えられたときに,インタラクティブな時間で新しいビューを合成することを目指した論文.
Transformerのアーキテクチャを採用し,新しいシーンのRGB画像から「set-latent scene representation」を推論し、1回のフィードフォワードで新しいビューを合成できる手法を提案した.
新規性
次の9つの点をすべて実現できることが新規性である.1)実世界データで学習できる 2)3次元的に一貫性がある 3)リアルタイムで処理できる 4)アピアランスをコントロールできる 5)テスト時にカメラポーズを必要としない 6)スパースな入力画像で学習できる 7)学習シーンから新しいシーンに汎化できる 8)新しいシーンをフィードフォワードで生成できる 9)グローバルな潜在的シーン表現を学習できる
結果
Neural 3D Mesh Renderer Dataset (NMR) とこの論文で新しく提案された MultiShapeNet (MSN) というデータセットにおいて,先行研究 (LFN, PixelNeRF) を凌駕する結果を得られた.
また,先行研究よりも数桁高速にレンダリングすることができていた.
その他(なぜ通ったか?等)
エンコーダーとデコーダーにTransformerを使っているが,デコーダーをNeRFベースの手法に置き換えて実験もしていた.
プロジェクトページ: https://srt-paper.github.io/
- …
- …