- …
- …
#752
summarized by : QIUYUE
どんな論文か?
従来手法デンスビデオキャプションではビデオからevent proposalsを検出する段階で異なるProposals間の時間的関連性を重要視していない.この論文で,①sequence generation networkを用いてビデオから関連性を考慮したproposalsを求める;②RNNと強化学習を利用し視覚と言語情報を考慮したキャプション生成.
新規性
Event Proposal Networkとキャプションデコーダーの間にsequence generation networkを取り入れて,Temporal一致性が高いようなEvent Proposalを得られる.
結果
ActivityNet CaptionsデータセットにおいてSOTAなMETEOR値(あらゆる評価指標のなかに人間評価と近い方)を得られた.
その他(なぜ通ったか?等)
EventとEpisode両方を考慮したevent proposalsを出力できる.
- …
- …