Referring Image Segmentation via Cross-Modal Progressive Comprehension

#252

summarized by : Seitaro Shinagawa

Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li

どんな論文か？

入力文をガイドとして領域検出を行う研究。複数の物体から入力文の内容に合う領域（例：白いフリスビーを持った男）を検出することができる。このタスクにおける精度を改善するため、CNNの異なるレベルでの各画像特徴と入力文の特徴でアラインメントを行うモジュールと、その出力の異なるレベルの特徴量同士で情報の交換を行うモジュールを提案。

新規性

このタスクにおいて、従来研究では異なるタイプの情報を持った単語と画像特徴の関係性ををうまく扱えていなかった。これに対して本研究では、入力文の単語を4種類のエンティティに分けてCNNの異なるレベルの画像特徴と段階的に組合わせることで精度向上を実現した。

結果

４つのデータセット(UNC, UNC+, G-Ref, ReferIt)を用いた。評価指標にはOverall IoUとPrec@X (IoUが閾値X以上のサンプルの割合)を用いて、10の既存手法に対して精度を上回った。Ablation studyでは2つの提案モジュールが精度に大きく貢献していることを示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．