- …
- …
#204
summarized by : yasud
新規性
Joint Embedding系は事前学習モデルとtargetドメインが異なる場合がある点やFine-tuningは、動画をそのまま入力するとメモリが死ぬ点を解決するため、スパースに動画からサンプリングをした上で、3DCNNではなく画像のエンコーダーを使った点。また、学習ステップごとに同一ビデオのサブセットを使うことになるので、実質データ拡張。
結果
Text2Video Retrieval, ActivityNet Captions, Video Question Answering, MSRVTT multiple-choice testで検証してSoTA。AblationStudyも行なっており、1秒間に2フレームより多くサンプリングしてもあまり精度に差は見られないことや、画像のエンコーダーを使うことで精度が向上していることを示した。
その他(なぜ通ったか?等)
- …
- …