#430
summarized by : Tomoya Nitta
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

どんな論文か?

Video Captioningタスクにおける新しい評価指標のEMScoreを提案。既存手法と比較してより人間に近い評価をすることが実験によって示された。また、Video Captioningの評価指標を評価するために人間が評価をしたデータを集めたデータセットVATEX-EVALを提案。
placeholder

新規性

提案手法では参照文がなくても評価をすることができ、アノテーションがないデータセットに対しても評価をすることが可能となっている。また、既存手法では参照文にない単語が含まれていた場合、文の内容が動画の内容と一致していても低い値になってしまうが、提案手法では高いスコアが出るようになる。

結果

BLUE-1,4、ROUGE-L、METEOR、CIDEr、BERTScore、Improved-BERTScoreと比較して提案手法は人間の評価に近い結果となった。

その他(なぜ通ったか?等)

評価指標の比較を行うために大規模な人間によるキャプションの評価を行ったこと、アノテーションのないデータでも評価を行えることに新規性があったと思われる。