Better Captioning With Sequence-Level Exploration

#423

summarized by : 中村優太

Jia Chen, Qin Jin

どんな論文か？

現在のキャプション生成手法の主流である, 強化学習を用いた Sequence Level Learning (SLL) について, その限界点を指摘し, 克服を試みた論文.

新規性

強化学習の目的関数に多様性を評価する項を追加したこと. これまで, SLLでは生成結果の多様性が乏しく, 同じ画像に対して同じようなキャプションしか生成できなかった. これは, SLLが理論的に precision の最大化と同値であり, recall を考慮していないこと, そして recall は precision が一定ならば生成文の多様性に比例することに関連していた.

結果

画像(MSCOCO dataset), 動画(TGIF dataset)のそれぞれについて検証した結果, 生成結果の多様性の指標であるDiv-1, Div-2, mBleuに改善がみられた. さらに, 従来の評価指標であるCIDErも上昇しており, 本来のキャプション生成としての性能にも貢献していることが分かった.

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．