#710
summarized by : Yue Qiu
Syntax-Aware Action Targeting for Video Captioning

どんな論文か?

既存のVideo Captioningの手法が物体の検出を重視し,生成されたCaptioningが物体のCo-occurrenceに頼りすぎで,動作を表すpredicateの精度が低い傾向がある.提案手法はSubjectとVideo dynamicsを同時に用いてActionの予測明示的にを行う.提案手法により生成CaptionのAction accuracyを向上できる.
placeholder

新規性

①syntax-aware moduleを提案し、明示的にsyntax (subject, object, predicate)などを予測する.それにより,生成CaptioningのSyntaxやActionのAccuracyを向上できる.②Action-guided captionerを提案し、動的にPredicateとPredicted wordsからアノテーションを求める.

結果

①従来のCaptioning評価MetricsのBLEU,METEOR,ROUGE,CIDErなどにおいて複数のBenchmarkデータセットで優位性を示した.②MSVDとMSR-VTTデータセットで2.7%,5.9%のCIDErスコアの向上を実現した.

その他(なぜ通ったか?等)

BLEU,CIDErなどのCaptioning評価指標に加えて、Syntax構造のCorrectnessも学習段階に取り入れることが重要.