#438
summarized by : Naoya Chiba
LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Estimation

どんな論文か?

微分可能レンダラーを用いて,少数のViewの2D画像から物体のLatent Vectorを作成しておき,任意視点からのレンダリングができるように学習,その後Latent Vectorと単一画像から物体の6DoF推定を行う.評価用のMOPEDデータセットを構築し公開.
placeholder

新規性

少数視点の2D画像のみで物体の三次元姿勢を推定する問題設定が新規であり,微分可能レンダラーを用いた枠組みで解くことが可能であることを示した.

結果

ShapeNetの形状とMS-COCOの画像をテクスチャとして学習して,LINEMOD・ModelNetの物体姿勢とMOPED提案する評価用データセットで評価.

その他(なぜ通ったか?等)

問題設定が実用的かつ新規.Pooling部分にConvGRUを用いることで,一般的なアイデア(Average Pooling)よりも性能が向上.全体に説明がクリアで読みやすい.Ablation Studiesも記載.