#289
summarized by : QIU YUE
Towards Diverse Paragraph Captioning for Untrimmed Videos

どんな論文か?

Transformerベースの新たなVideo Captioning手法を提案した。既存のVideo Captioning手法のほとんどは2-stageから構成し、既存手法の精度がかなりStage-1となるEvent 検出に依存する。ここで、Transformer構造をビデオに合わせて最適化しながらVideo Captioningタスクに適応し、1-stageのモデルを新たに提案。
placeholder

新規性

Transformer構造をVideo Captioningに導入することがCVPR2021の査読時点では新しい。Transformer構造をビデオに適応するため、Dynamic video memoryメカニズムを導入し、メモリーコストの問題を軽減できたところもかなり価値があるかもしれません。

結果

ActivityNetとCharadesデータセットにおいてSoTAな精度及びdiversityを達成。

その他(なぜ通ったか?等)