Cross-Modal Self-Attention Network for Referring Image Segmentation

#120

summarized by : Yasuhide Miura

Linwei Ye, Mrigank Rochan, Zhi Liu, Yang Wang

自然言語のクエリ文にマッチした領域を塗りつぶす「referring image segmentation」のモデル

自然言語の処理にLSTMではなくWord embeddingsを使うことで、単語レベルで画像領域との対応付けを学習できる。また、画像特徴とテキスト特徴をconcatしたテンソルでSelf-attentionを行い余計な情報を省くCross-Modal Self-Attentionも提案している

UNC, UNC+, G-Refの3つのデータセットでIoU及びPrecision@Xによる評価で既存手法を上回るスコアを残した

Ablation Study, Failure caseの分析、Attention Mapの可視化などをしっかり行っているため

このページで利用されている画像は論文から引用しています．