S³Net: Semantic-Aware Self-supervised Depth Estimation with Monocular Videos and Synthetic Data

#197

summarized by : Naoya Chiba

Bin Cheng, Inderjot Singh Saggu, Raunak Shah, Gaurav Bansal, Dinesh Bharadia

どんな論文か？

自己教師学習による単眼深度推定手法の提案．実世界の画像シーケンスと合成データを活用して，人手でのラベリングなしで深度推定を学習する．画像シーケンスから深度推定に適さない領域を取り除くマスクを推定，マスクされていない領域の深度を推定するように自己教師学習を行う．また，GANによって合成データを実世界の画像に近くなるよう加工し，教師あり学習として深度を推定する．

新規性

実世界の画像シーケンスと合成データを用いる，ラベリングが必要のない問題設定で学習可能なアプローチを提案した点が新規．GANによる合成データの加工において，セマンティックセグメンテーション結果が一致するように・オプティカルフローと次フレームが整合するようにロスを設計．フレーム間での姿勢推定からずれた領域をマスクするよう，次フレームに対して・前フレームに対しての双方向のマスクを考慮したロスを設計．

結果

KITTI（実データ）とvKITTI（合成データ）で学習，KITTIとMake3D Benchmarkで検証．先にGANを学習し，次に深度推定を学習する．既存手法と比較しSoTAを達成．セマンティックラベルを維持するようなロスの導入により，既存のGANによる合成データの加工手法と比較してアーチファクトの少ない画像生成となった．

その他（なぜ通ったか？等）

ラベリングのコストが大きい3D (Depth)の推定問題に対して教師なし・自己教師学習によるアプローチは有用．

このページで利用されている画像は論文から引用しています．