- …
- …
#578
summarized by : Naoya Chiba
どんな論文か?
単眼RGB(またはRGB-D)画像を入力として物体の三次元位置・姿勢を推定する手法の提案.Bidirectional Depth-Augmented PnP (BD-PnP)という微分可能にPnPを計算するレイヤーを用いてEnd-to-Endで学習可能なネットワークとなっている.姿勢の更新はガウス・ニュートン法による更新に対応し,これをGRUベースのネットワークで繰り返し処理する.
新規性
RAFTで用いられたGRUによる再帰的な対応推定のアイデアをPnPに適用させ,ネットワーク内で反復的に姿勢推定を行う.ニューラルレンダリングを用いて生成された画像と実際の入力画像それぞれに対して再投影誤差を計算し最小化することで双方向の最適化を実現.物体検出と姿勢の初期値には2D CNNとMask R-CNNを用いる.
結果
YCB-V,T-LESS,LM-Oの各データセットで検証し高い位置合わせ性能を達成.各レイヤー・構成要素が適切に性能に寄与していることを確認している.
その他(なぜ通ったか?等)
- …
- …