Linguistic Structure Guided Context Modeling for Referring Image Segmentation

#169

summarized by : Yue Qiu

Tianrui Hui, Si Liu, Shaofei Huang, Guanbin Li, Sansi Yu, Faxi Zhang, Jizhong Han

どんな論文か？

自然言語により画像中の特定領域をSegmentationするグラフ構造ベースの手法を提案．従来の手法はMulti-modal特徴の利用が不足、もしくはAbundantなどの問題点があり，この論文でタスクを解くためにMulti-modal特徴の有効利用を行う．提案手法が自然言語から木構造の図を作成し，それをもとに必要な情報の抽出、画像中の領域の切りだしを行う．

新規性

①有効的かつCompactなマルチモーダル情報を得るモデル：Gather-propagate-distributeを提案；②提案モデルを3ステップのプロセスを含めた木構造により実装：Gatherーセンテンスと画像からから画像中の領域を複数集める；Propagateーワードから重要のノードの情報を増殖し、不相関の情報を排除する；ワードの特徴を画像にDistributeする．

結果

①複数の既存データセットでSOTAな精度を達成(データセット例：UNC (+1.58%), UNC+ (+3.09%), G-Ref (+1.65%) and ReferIt (+2.44%))；②Attentionマップの結果も単語ごとに対応領域の探し出せることをしめした．

その他（なぜ通ったか？等）

①モデルの結果が良かった；②従来の類似手法よりマルチモーダルの情報の利用を効率化（足りない、多すぎることを防止）．

このページで利用されている画像は論文から引用しています．