#286
summarized by : QIU YUE
RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words

どんな論文か?

画像説明文生成の新たなTransformerベースの手法の提案。これまでにGrid 特徴がVQAにおいての有効性が検証され、Transformer構造も視覚言語タスクで普遍的に使われてきた。Grid 特徴ではすべてのGridに対して同質で扱って、空間情報が失われやすい。TransformerのDecoderは各単語を同様なレベル扱う傾向になり、実際単語の重要度が異なる.これらの問題の対策を行った。
placeholder

新規性

Image captioningのモデル構造の細かい更新を行って、SoTAを達成。まずGrid 特徴の空間情報が失われやすいところに対し、相対位置をEmbeddingできるGrid-Augmentedモジュールを提案。また、Transformer decoderが異なる単語を一様に対応することに対し、アテンションを単語ごとに動的に与えるAdaptive-Attentionモジュールを提案。

結果

MSCOCOのKarpathy test splitにおいて新たなSoTAを達成。

その他(なぜ通ったか?等)