- …
- …
#286
summarized by : QIU YUE
どんな論文か?
画像説明文生成の新たなTransformerベースの手法の提案。これまでにGrid 特徴がVQAにおいての有効性が検証され、Transformer構造も視覚言語タスクで普遍的に使われてきた。Grid 特徴ではすべてのGridに対して同質で扱って、空間情報が失われやすい。TransformerのDecoderは各単語を同様なレベル扱う傾向になり、実際単語の重要度が異なる.これらの問題の対策を行った。
新規性
Image captioningのモデル構造の細かい更新を行って、SoTAを達成。まずGrid 特徴の空間情報が失われやすいところに対し、相対位置をEmbeddingできるGrid-Augmentedモジュールを提案。また、Transformer decoderが異なる単語を一様に対応することに対し、アテンションを単語ごとに動的に与えるAdaptive-Attentionモジュールを提案。
結果
MSCOCOのKarpathy test splitにおいて新たなSoTAを達成。
その他(なぜ通ったか?等)
- …
- …