RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words

#286

summarized by : QIU YUE

Xuying Zhang, Xiaoshuai Sun, Yunpeng Luo, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Feiyue Huang, Rongrong Ji

どんな論文か？

画像説明文生成の新たなTransformerベースの手法の提案。これまでにGrid 特徴がVQAにおいての有効性が検証され、Transformer構造も視覚言語タスクで普遍的に使われてきた。Grid 特徴ではすべてのGridに対して同質で扱って、空間情報が失われやすい。TransformerのDecoderは各単語を同様なレベル扱う傾向になり、実際単語の重要度が異なる．これらの問題の対策を行った。

新規性

Image captioningのモデル構造の細かい更新を行って、SoTAを達成。まずGrid 特徴の空間情報が失われやすいところに対し、相対位置をEmbeddingできるGrid-Augmentedモジュールを提案。また、Transformer decoderが異なる単語を一様に対応することに対し、アテンションを単語ごとに動的に与えるAdaptive-Attentionモジュールを提案。

結果

MSCOCOのKarpathy test splitにおいて新たなSoTAを達成。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．