Meshed-Memory Transformer for Image Captioning

#451

summarized by : Yue Qiu

Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara

どんな論文か？

Image captioningタスクのためのMeshed Transformer with Memory構造を提案．2つの方面から従来のTransformer構造を改善：①Multi-levelのEncoder構造を用い，画像領域間のマルチレベルの関連関係を学習可能にした．②Mesh-like構造のDecoderを提案し，low-からhigh-レベルの特徴をEncoderにより探索可能に．

新規性

①従来のDecoderがSingle入力を取り扱い、提案のMesh-like構造はGateによりコントロールされたMulti-levelの入力をEncoderに入力する．②画像側もMulti-levelの特徴量を使用し、Image captioningにおいてMulti-levelの特徴表示の重要性を示した．

結果

①提案構造がMSCOCOデータセットで従来のFully-attentive構造より性能が優位、"Karpathy" test setにおいてLeader boardの一位を占める．②Image captioningだけではなく，学習セットに含まれていないCaptioningタスクにおいてnocapsデータセットで有用性を示した．

その他（なぜ通ったか？等）

①性能が良かった．Leader boardの首位；②Fully-attentive系の手法の網羅的比較実験を行った．

このページで利用されている画像は論文から引用しています．