#204
summarized by : yasud
Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

どんな論文か?

video-languageタスクにおいて、汎用的なend2endの学習フレームワークであるCLIPBERTを提案している。
placeholder

新規性

Joint Embedding系は事前学習モデルとtargetドメインが異なる場合がある点やFine-tuningは、動画をそのまま入力するとメモリが死ぬ点を解決するため、スパースに動画からサンプリングをした上で、3DCNNではなく画像のエンコーダーを使った点。また、学習ステップごとに同一ビデオのサブセットを使うことになるので、実質データ拡張。

結果

Text2Video Retrieval, ActivityNet Captions, Video Question Answering, MSRVTT multiple-choice testで検証してSoTA。AblationStudyも行なっており、1秒間に2フレームより多くサンプリングしてもあまり精度に差は見られないことや、画像のエンコーダーを使うことで精度が向上していることを示した。

その他(なぜ通ったか?等)