#250
summarized by : Kazuhito Sato
Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations

どんな論文か?

新しいシーンの数枚の画像(カメラポーズなし)が与えられたときに,インタラクティブな時間で新しいビューを合成することを目指した論文. Transformerのアーキテクチャを採用し,新しいシーンのRGB画像から「set-latent scene representation」を推論し、1回のフィードフォワードで新しいビューを合成できる手法を提案した.
placeholder

新規性

次の9つの点をすべて実現できることが新規性である.1)実世界データで学習できる 2)3次元的に一貫性がある 3)リアルタイムで処理できる 4)アピアランスをコントロールできる 5)テスト時にカメラポーズを必要としない 6)スパースな入力画像で学習できる 7)学習シーンから新しいシーンに汎化できる 8)新しいシーンをフィードフォワードで生成できる 9)グローバルな潜在的シーン表現を学習できる

結果

Neural 3D Mesh Renderer Dataset (NMR) とこの論文で新しく提案された MultiShapeNet (MSN) というデータセットにおいて,先行研究 (LFN, PixelNeRF) を凌駕する結果を得られた. また,先行研究よりも数桁高速にレンダリングすることができていた.

その他(なぜ通ったか?等)

エンコーダーとデコーダーにTransformerを使っているが,デコーダーをNeRFベースの手法に置き換えて実験もしていた. プロジェクトページ: https://srt-paper.github.io/