Describing Like Humans: On Diversity in Image Captioning

#96

summarized by : Munetaka Minoguchi

Qingzhong Wang, Antoni B. Chan

既存の画像キャプショニング評価指標では考慮されていないとされている文章の潜在的な意味や，多様性などを考慮した新しい評価指標の提案．近年提案されている既存のキャプショニングモデルにおいて再評価することによって，文章の多様性と正確性の両方を考慮した広範囲に渡る実験を行った．

CIDEr類似度を用いた，文章の多様性と正確性の両方の評価指標の提案．既存のBLEUやMETEORなどの単純な文章の類似度だけの評価指標では人間の精度をも上回っているという報告もあるが，本論文による検証によって覆す結果が得られた．

キャプションの多様性と正確性の両方の側面において，提案されているモデルと人間のキャプションには大きな差が生じていることを示唆．

キャプション評価における問題を浮き彫りにしつつ，今後の主流となり得る評価指標を提案している．

このページで利用されている画像は論文から引用しています．