Towards Diverse Paragraph Captioning for Untrimmed Videos

#289

summarized by : QIU YUE

Yuqing Song, Shizhe Chen, Qin Jin

どんな論文か？

Transformerベースの新たなVideo Captioning手法を提案した。既存のVideo Captioning手法のほとんどは2-stageから構成し、既存手法の精度がかなりStage-1となるEvent 検出に依存する。ここで、Transformer構造をビデオに合わせて最適化しながらVideo Captioningタスクに適応し、1-stageのモデルを新たに提案。

新規性

Transformer構造をVideo Captioningに導入することがCVPR2021の査読時点では新しい。Transformer構造をビデオに適応するため、Dynamic video memoryメカニズムを導入し、メモリーコストの問題を軽減できたところもかなり価値があるかもしれません。

結果

ActivityNetとCharadesデータセットにおいてSoTAな精度及びdiversityを達成。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．