#752
summarized by : QIUYUE
Streamlined Dense Video Captioning

どんな論文か?

従来手法デンスビデオキャプションではビデオからevent proposalsを検出する段階で異なるProposals間の時間的関連性を重要視していない.この論文で,①sequence generation networkを用いてビデオから関連性を考慮したproposalsを求める;②RNNと強化学習を利用し視覚と言語情報を考慮したキャプション生成.
placeholder

新規性

Event Proposal Networkとキャプションデコーダーの間にsequence generation networkを取り入れて,Temporal一致性が高いようなEvent Proposalを得られる.

結果

ActivityNet CaptionsデータセットにおいてSOTAなMETEOR値(あらゆる評価指標のなかに人間評価と近い方)を得られた.

その他(なぜ通ったか?等)

EventとEpisode両方を考慮したevent proposalsを出力できる.