#63
summarized by : Teppei Kurita
Focus on Defocus: Bridging the Synthetic to Real Domain Gap for Depth Estimation

どんな論文か?

Focal Stack(ピントをずらして何枚も撮影した画像)を入力としてDepthを推定する。学習データは全てCGで全てBlenderで400のオブジェクトを1シーン当たり20~30配置して1000シーンレンダリングしている。
placeholder

新規性

メインギャップを吸収するために、まず中間表現としてデフォーカス量マップを生成するネットワークを挟んだことが新規性。CGと実画像ではドメインギャップが激しいが、ボケ量はそうではないということ。DefocusNetは4層の非常に浅いネットワークで良い、なぜならシャープさをもとにデフォーカス量を推定するので局所的な特徴量さえ得られればよいから。

結果

自身のMobile depth datasetで直接Depthを推定する手法と比較して、MSEの改善を確認。

その他(なぜ通ったか?等)

リフォーカスなどのアプリケーションのために全焦点画像を生成するネットワークも用意しており、既存検討だけでなく実用性も視野に入れている。