#705
summarized by : siida
Look Back and Predict Forward in Image Captioning

どんな論文か?

Image captioningにおいて、画像とテキストのcoherenceを考慮することは重視されていない。そこでcoherenceを考慮したLBPFモデルを提案する。
placeholder

新規性

RNN-based decoderでの推論において、1ステップ先の単語と2ステップ先の単語を同時に予測する。

結果

MSCOCO[Lin+, ECCV-2014]において、SCST[Rennie+, CVPR-2017], ARnet[Chen+, CVPR-2018], Up-Down[Anderson+, CVPR-2018]といった先行研究に対し、METEOR, ROUGE-L, CIDEr, SPICEといった指標で上回るスコアを達成した。

その他(なぜ通ったか?等)

2018年には文脈に関する問題について多くの議論がなされた(例: [Bawden+, NACCL-2018])。その流れを受け、文脈問題のひとつであるcoherenceについて注目し改善した手法が評価されたのだと思われる。