#823
summarized by : Takuma Yagi
Learning the Depths of Moving People by Watching Frozen People

どんな論文か?

カメラと人物両方が動いている映像からの深度を学習・推定するための効果的なデータセットと予測手法の提案。人のような非剛体は静止することがないため正解深度を算出することは困難であったが、マネキンチャレンジ(人物が静止する)の動画をインターネットより収集すること(!)で解決。
placeholder

新規性

動く人物を含む深度推定のためにマネキンチャレンジ動画にSfMとMVSをかけることによってその正確な深度及びカメラ姿勢を取得したこと。推論時、物体が動いている場合にも背景の運動視差を最大限利用しつつ推定を行えるネットワークの提案。

結果

新しく構築したデータセットにより単眼でも正確な推定を実現しつつ、2フレームからの運動視差を考慮することで人物・非人物領域の両方において大幅に制度を改善。従来のデータセットには含まれない状況を含むインターネット上の様々の動画において従来手法が殆ど失敗する中高品質の推定に成功。

その他(なぜ通ったか?等)

アイデアに注目が行きがちだが正しい深度およびカメラ姿勢が取得できる映像区間を吟味するためのデータセット構築に相当の注意と手間をかけている。既存のデータセットでは実現しえない設定での深度推定を独自の工夫で達成しており見習いたい。