Focus on Defocus: Bridging the Synthetic to Real Domain Gap for Depth Estimation

#63

summarized by : Teppei Kurita

Maxim Maximov, Kevin Galim, Laura Leal-Taixé

どんな論文か？

Focal Stack(ピントをずらして何枚も撮影した画像)を入力としてDepthを推定する。学習データは全てCGで全てBlenderで400のオブジェクトを1シーン当たり20~30配置して1000シーンレンダリングしている。

新規性

メインギャップを吸収するために、まず中間表現としてデフォーカス量マップを生成するネットワークを挟んだことが新規性。CGと実画像ではドメインギャップが激しいが、ボケ量はそうではないということ。DefocusNetは４層の非常に浅いネットワークで良い、なぜならシャープさをもとにデフォーカス量を推定するので局所的な特徴量さえ得られればよいから。

結果

自身のMobile depth datasetで直接Depthを推定する手法と比較して、MSEの改善を確認。

その他（なぜ通ったか？等）

リフォーカスなどのアプリケーションのために全焦点画像を生成するネットワークも用意しており、既存検討だけでなく実用性も視野に入れている。

このページで利用されている画像は論文から引用しています．