#120
summarized by : Yasuhide Miura
Cross-Modal Self-Attention Network for Referring Image Segmentation

どんな論文か?

自然言語のクエリ文にマッチした領域を塗りつぶす「referring image segmentation」のモデル
placeholder

新規性

自然言語の処理にLSTMではなくWord embeddingsを使うことで、単語レベルで画像領域との対応付けを学習できる。また、画像特徴とテキスト特徴をconcatしたテンソルでSelf-attentionを行い余計な情報を省くCross-Modal Self-Attentionも提案している

結果

UNC, UNC+, G-Refの3つのデータセットでIoU及びPrecision@Xによる評価で既存手法を上回るスコアを残した

その他(なぜ通ったか?等)

Ablation Study, Failure caseの分析、Attention Mapの可視化などをしっかり行っているため