Show, Edit and Tell: A Framework for Editing Image Captions

#191

summarized by : Yue Qiu

Fawaz Sammani, Luke Melas-Kyriazi

どんな論文か？

新たなImage Captioning手法の提案．従来のImage Captioning手法が画像からCaptioningを生成する．この文章で，生成できたCaptioningをIteratively修正するモデルを提案，これによりStep-by-stepで細かい情報を含めたCaptioningを生成できる．MSCOCOにおいて各評価においてSOTAな精度を達成．

新規性

Captioningを生成するではなく，生成したCaptioningを段階的修正というアイデアが新しい．また，2つの新しいモジュールからフレームワーク構成する（①copy とselection copy memory attention mechanismを用いた言語モデル；②LSTM-basedなdenoising auto-encoder．）

結果

提案手法がMS COCOデータセットにおいて、w, w/o sequence-level学習の2つの設定において異なるImage Captioningの評価指標でSOTAな精度を達成．

その他（なぜ通ったか？等）

Idea (Image captioningで画像からCaptioningを生成するより，Iterativeで生成できたCaptioningを修正することで、細かい情報の補充に強くなる)が良いかつ理解しやすい．

このページで利用されている画像は論文から引用しています．