EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

#430

summarized by : Tomoya Nitta

Yaya Shi; Xu Yang; Haiyang Xu; Chunfeng Yuan; Bing Li; Weiming Hu; Zheng-Jun Zha

Video Captioningタスクにおける新しい評価指標のEMScoreを提案。既存手法と比較してより人間に近い評価をすることが実験によって示された。また、Video Captioningの評価指標を評価するために人間が評価をしたデータを集めたデータセットVATEX-EVALを提案。

提案手法では参照文がなくても評価をすることができ、アノテーションがないデータセットに対しても評価をすることが可能となっている。また、既存手法では参照文にない単語が含まれていた場合、文の内容が動画の内容と一致していても低い値になってしまうが、提案手法では高いスコアが出るようになる。

BLUE-1,4、ROUGE-L、METEOR、CIDEr、BERTScore、Improved-BERTScoreと比較して提案手法は人間の評価に近い結果となった。

評価指標の比較を行うために大規模な人間によるキャプションの評価を行ったこと、アノテーションのないデータでも評価を行えることに新規性があったと思われる。

このページで利用されている画像は論文から引用しています．