#449
summarized by : Yue Qiu
Normalized and Geometry-Aware Self-Attention Network for Image Captioning

どんな論文か?

Image captioningタスクに用いられるSelf-attention (transformer等)を2つの方面から改良した.①Normalized SA (NSA)を提案し,inside SAモデルでNormalizationを行い、有効的にSAのinternal covariate shift問題を対応.②Geometry-aware SA (GSA)で動的に物体間の幾何関係を計算.
placeholder

新規性

①従来のImage captioningにおいてSAのNormalizationがSAモデルの外で行われ,この研究でInside SAでNormalizationを行い,従来の問題点を対応できた.②従来のSAモデルが物体関の幾何関係を表現できず,提案のGSAにより物体間の幾何関係を表現できるようにした.

結果

①MS-COCOデータセットにおいて新しいSingle-modelのSOTA精度を達成.②さらに,Image captioning以外にvideo captioning, machine translation, visual question answeringなどのタスクでも汎化性能を示した.

その他(なぜ通ったか?等)

提案のNSAとGSAが従来のSelf-attentionモデルに容易に適応できる.そして、適応することで従来の手法の性能を向上できる.