#470
summarized by : Seitaro Shinagawa
Refer-It-in-RGBD: A Bottom-Up Approach for 3D Visual Grounding in RGBD Images

どんな論文か?

画像に対して自然言語で指定した物体を検出するタスクであるreferring expressionを深度付きの画像(RGBD画像)に対して行うように拡張した研究。画像と言語の特徴量を統合して対象となる物体をボクセルレベルで粗く特定するモジュールと、refinementして最終的に検出するモジュールで構成される。既存のScanReferデータセットと新たに収集したSUNRefer データセットで評価
placeholder

新規性

既存のScanReferデータセットより大きなデータセットを新たに作成した点。この論文の前身となるScanReferの論文の手法は1段階の画像言語間のマッチングだったが、本研究は段階的なマッチングを行って最高精度を出した点。

結果

既存手法よりもAcc@kIoU (閾値kを超えるIoUで正解?)とR@5(予測候補のトップ5でIoU > 0.5のものの数)で、既存手法を上回った。スコアを見る限りはまだまだ改善の余地がありそう

その他(なぜ通ったか?等)

コード:https://github.com/UncleMEDM/Refer-it-in-RGBD