#451
summarized by : Yue Qiu
Meshed-Memory Transformer for Image Captioning

どんな論文か?

Image captioningタスクのためのMeshed Transformer with Memory構造を提案.2つの方面から従来のTransformer構造を改善:①Multi-levelのEncoder構造を用い,画像領域間のマルチレベルの関連関係を学習可能にした.②Mesh-like構造のDecoderを提案し,low-からhigh-レベルの特徴をEncoderにより探索可能に.
placeholder

新規性

①従来のDecoderがSingle入力を取り扱い、提案のMesh-like構造はGateによりコントロールされたMulti-levelの入力をEncoderに入力する.②画像側もMulti-levelの特徴量を使用し、Image captioningにおいてMulti-levelの特徴表示の重要性を示した.

結果

①提案構造がMSCOCOデータセットで従来のFully-attentive構造より性能が優位、"Karpathy" test setにおいてLeader boardの一位を占める.②Image captioningだけではなく,学習セットに含まれていないCaptioningタスクにおいてnocapsデータセットで有用性を示した.

その他(なぜ通ったか?等)

①性能が良かった.Leader boardの首位;②Fully-attentive系の手法の網羅的比較実験を行った.