- …
- …
#451
summarized by : Yue Qiu
どんな論文か?
Image captioningタスクのためのMeshed Transformer with Memory構造を提案.2つの方面から従来のTransformer構造を改善:①Multi-levelのEncoder構造を用い,画像領域間のマルチレベルの関連関係を学習可能にした.②Mesh-like構造のDecoderを提案し,low-からhigh-レベルの特徴をEncoderにより探索可能に.
新規性
①従来のDecoderがSingle入力を取り扱い、提案のMesh-like構造はGateによりコントロールされたMulti-levelの入力をEncoderに入力する.②画像側もMulti-levelの特徴量を使用し、Image captioningにおいてMulti-levelの特徴表示の重要性を示した.
結果
①提案構造がMSCOCOデータセットで従来のFully-attentive構造より性能が優位、"Karpathy" test setにおいてLeader boardの一位を占める.②Image captioningだけではなく,学習セットに含まれていないCaptioningタスクにおいてnocapsデータセットで有用性を示した.
その他(なぜ通ったか?等)
①性能が良かった.Leader boardの首位;②Fully-attentive系の手法の網羅的比較実験を行った.
- …
- …