Sketch, Ground, and Refine: Top-Down Dense Video Captioning

#209

summarized by : QIU YUE

Chaorui Deng, Shizhe Chen, Da Chen, Yuan He, Qi Wu

どんな論文か？

Video Dense Captioningのための新たな手法を提案した。既存手法のBottom-upで行っていて、それに対して提案手法がTop-downで行っている。既存のデータセットにおいてSoTAを達成。

新規性

手法的な新規性がある。既存のVideo Dense Captioning手法ではBottom-upでまずビデオからevent proposalsを検出し、それぞれのproposalに対してキャプション生成する。提案手法が従来手法と逆で、まずビデオから全体的なストーリーをパラグラフにより生成。次にパラグラフの中の一つ一つのProposalとビデオのアライメントを行いながらセンテンスのリファインを行う

結果

ActivityNet CaptioningベンチマークにおてSoTAを達成。

その他（なぜ通ったか？等）

Stage-1の全ビデオからパラグラフの推定を行っている。Stage-1がうまく学習できるかどうかが知りたい。

このページで利用されている画像は論文から引用しています．