HybridPose: 6D Object Pose Estimation Under Hybrid Representations

#148

summarized by : Pavel Savkin

Chen Song, Jiaru Song, Qixing Huang

どんな論文か？

単画像からの物体の三次元姿勢推定は重要な問題であり、現在まで特徴点ベースの手法が最も精度が出ており、広く使われている。しかし、遮蔽における精度は依然として低く、本手法では隣接する特徴点同士のエッジ情報、及び物体の対称性を考慮した情報の推定も行うことで、従来の特徴点ベースの手法にくらべ約1.67倍のパフォーマンス向上を実現している。同時に、計算時間も３０FPS前後である。

新規性

1. マルチモーダル（特徴点、エッジ、対称性）情報を利用して既存手法を1.67倍向上させた点 2. エッジ情報及び対称性のAblation Studyを実施し、強い優位性を実証した点 3. 上記情報を用いた頑健な姿勢初期化・最適化アルゴリズムを提案した点

結果

1. ADD(-S)を用いたOcclusion LINEMODデータセットにおいて、PVNet及びDPODに対してそれぞれ大幅な精度向上を実現した。（それぞれ94.1%, 67.4%) 2. Ablation Studyにおいて、エッジ及び対称性を利用した場合の精度向上が平行移動及び回転両者で確認できることを実証した。

その他（なぜ通ったか？等）

1. 複数の有用な特徴量を用いて、しかもネットワークの速度等下げることなく精度向上を実現した点が素晴らしい。 2. この特徴量を用いた姿勢最適化をニューラルネットを用いるかとおもいきや、「それだと精度がでない」として数値最適化を用いて前半のCNNとの上手な調和を実現した点。 3.上記の数値最適化そのものに新規性がある点。が通った理由だと考える。

このページで利用されている画像は論文から引用しています．