#169
summarized by : Yue Qiu
Linguistic Structure Guided Context Modeling for Referring Image Segmentation

どんな論文か?

自然言語により画像中の特定領域をSegmentationするグラフ構造ベースの手法を提案.従来の手法はMulti-modal特徴の利用が不足、もしくはAbundantなどの問題点があり,この論文でタスクを解くためにMulti-modal特徴の有効利用を行う.提案手法が自然言語から木構造の図を作成し,それをもとに必要な情報の抽出、画像中の領域の切りだしを行う.
placeholder

新規性

①有効的かつCompactなマルチモーダル情報を得るモデル:Gather-propagate-distributeを提案;②提案モデルを3ステップのプロセスを含めた木構造により実装:Gatherーセンテンスと画像からから画像中の領域を複数集める;Propagateーワードから重要のノードの情報を増殖し、不相関の情報を排除する;ワードの特徴を画像にDistributeする.

結果

①複数の既存データセットでSOTAな精度を達成(データセット例:UNC (+1.58%), UNC+ (+3.09%), G-Ref (+1.65%) and ReferIt (+2.44%));②Attentionマップの結果も単語ごとに対応領域の探し出せることをしめした.

その他(なぜ通ったか?等)

①モデルの結果が良かった;②従来の類似手法よりマルチモーダルの情報の利用を効率化(足りない、多すぎることを防止).