#209
summarized by : QIU YUE
Sketch, Ground, and Refine: Top-Down Dense Video Captioning

どんな論文か?

Video Dense Captioningのための新たな手法を提案した。既存手法のBottom-upで行っていて、それに対して提案手法がTop-downで行っている。既存のデータセットにおいてSoTAを達成。
placeholder

新規性

手法的な新規性がある。既存のVideo Dense Captioning手法ではBottom-upでまずビデオからevent proposalsを検出し、それぞれのproposalに対してキャプション生成する。提案手法が従来手法と逆で、まずビデオから全体的なストーリーをパラグラフにより生成。次にパラグラフの中の一つ一つのProposalとビデオのアライメントを行いながらセンテンスのリファインを行う

結果

ActivityNet CaptioningベンチマークにおてSoTAを達成。

その他(なぜ通ったか?等)

Stage-1の全ビデオからパラグラフの推定を行っている。Stage-1がうまく学習できるかどうかが知りたい。