- …
- …
#120
summarized by : Yasuhide Miura
新規性
自然言語の処理にLSTMではなくWord embeddingsを使うことで、単語レベルで画像領域との対応付けを学習できる。また、画像特徴とテキスト特徴をconcatしたテンソルでSelf-attentionを行い余計な情報を省くCross-Modal Self-Attentionも提案している
結果
UNC, UNC+, G-Refの3つのデータセットでIoU及びPrecision@Xによる評価で既存手法を上回るスコアを残した
その他(なぜ通ったか?等)
Ablation Study, Failure caseの分析、Attention Mapの可視化などをしっかり行っているため
- …
- …