- …
- …
#449
summarized by : Yue Qiu
どんな論文か?
Image captioningタスクに用いられるSelf-attention (transformer等)を2つの方面から改良した.①Normalized SA (NSA)を提案し,inside SAモデルでNormalizationを行い、有効的にSAのinternal covariate shift問題を対応.②Geometry-aware SA (GSA)で動的に物体間の幾何関係を計算.
新規性
①従来のImage captioningにおいてSAのNormalizationがSAモデルの外で行われ,この研究でInside SAでNormalizationを行い,従来の問題点を対応できた.②従来のSAモデルが物体関の幾何関係を表現できず,提案のGSAにより物体間の幾何関係を表現できるようにした.
結果
①MS-COCOデータセットにおいて新しいSingle-modelのSOTA精度を達成.②さらに,Image captioning以外にvideo captioning, machine translation, visual question answeringなどのタスクでも汎化性能を示した.
その他(なぜ通ったか?等)
提案のNSAとGSAが従来のSelf-attentionモデルに容易に適応できる.そして、適応することで従来の手法の性能を向上できる.
- …
- …