Variational Context-Deformable ConvNets for Indoor Scene Parsing

#856

summarized by : Seitaro Shinagawa

Zhitong Xiong, Yuan Yuan, Nianhui Guo, Qi Wang

どんな論文か？

屋内シーンの領域分割タスクにおいて、物体のスケールの変化に対応することは重要な問題である。本研究では、物体のスケールの変化に対して適応的に畳み込みの受容野を変更できるvariational context-deformable (VCD)モジュールを提案した。VCDは画像と深度情報をガイドとするGaussian kernel maskを通常の畳み込みに乗算することで実現できる。

新規性

通常の畳み込みは受容野が固定なため、画像中の様々なスケール物体に柔軟に対応できないという問題がある。本研究では、RGB情報と深度情報により適応的に変化するGaussian kernel maskを用いて、畳み込みの受容野を適応的に変化させることができる。また、変分推論によるモデリングを追加して性能を向上させた点が新しい。

結果

データセットには、NYUv2, SUN RGB-D, Cityscapes datasetの３つを用いた。評価指標にはmean pixel accuracy (mAcc)とmIoUを用いた。NYUv2, SUN RGB-Dの各データセットに対して11のベースラインと比較し、提案したVCDの有効性を示した。事例分析では、VCDが既存手法よりも物体同士の遮蔽に強い傾向があった。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．