LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Estimation

#438

summarized by : Naoya Chiba

Keunhong Park, Arsalan Mousavian, Yu Xiang, Dieter Fox

微分可能レンダラーを用いて，少数のViewの2D画像から物体のLatent Vectorを作成しておき，任意視点からのレンダリングができるように学習，その後Latent Vectorと単一画像から物体の6DoF推定を行う．評価用のMOPEDデータセットを構築し公開．

少数視点の2D画像のみで物体の三次元姿勢を推定する問題設定が新規であり，微分可能レンダラーを用いた枠組みで解くことが可能であることを示した．

ShapeNetの形状とMS-COCOの画像をテクスチャとして学習して，LINEMOD・ModelNetの物体姿勢とMOPED提案する評価用データセットで評価．

問題設定が実用的かつ新規．Pooling部分にConvGRUを用いることで，一般的なアイデア（Average Pooling）よりも性能が向上．全体に説明がクリアで読みやすい．Ablation Studiesも記載．

このページで利用されている画像は論文から引用しています．