Refer-It-in-RGBD: A Bottom-Up Approach for 3D Visual Grounding in RGBD Images

#470

summarized by : Seitaro Shinagawa

Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang Cui

どんな論文か？

画像に対して自然言語で指定した物体を検出するタスクであるreferring expressionを深度付きの画像（RGBD画像）に対して行うように拡張した研究。画像と言語の特徴量を統合して対象となる物体をボクセルレベルで粗く特定するモジュールと、refinementして最終的に検出するモジュールで構成される。既存のScanReferデータセットと新たに収集したSUNRefer データセットで評価

新規性

既存のScanReferデータセットより大きなデータセットを新たに作成した点。この論文の前身となるScanReferの論文の手法は１段階の画像言語間のマッチングだったが、本研究は段階的なマッチングを行って最高精度を出した点。

結果

既存手法よりもAcc@kIoU (閾値kを超えるIoUで正解？)とR@5（予測候補のトップ5でIoU > 0.5のものの数）で、既存手法を上回った。スコアを見る限りはまだまだ改善の余地がありそう

その他（なぜ通ったか？等）

コード：https://github.com/UncleMEDM/Refer-it-in-RGBD

このページで利用されている画像は論文から引用しています．