#206
summarized by : Tomoya Nitta
Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

どんな論文か?

vision & languageにおける事前学習用データセットのHD-VILA-100Mを提案した。また、vision & language用のモデルHD-VILAを提案し、提案データセットを用いることでzero-shot text to video retrievalタスクにおいて効果的であるという結果が得られた。
placeholder

新規性

提案データセットは既存のvision & language用のデータセットと比較して高解像のビデオが用いられており、動画の合計時間も他データセットより長いものとなっている。提案モデルではビデオエンコーダを少ないフレームの高解像と多くのフレームの低解像のビデオを入力することで高解像度の特徴表現を学習することができるようになっている。

結果

提案モデルと提案データセットの事前学習によって、Video QAやvideo to text retrievalタスクにおいて既存手よりも精度が向上する結果となった。また、提案データセットのみを学習させたzero-shot text to video retrievalタスクではMSRVTTにおいて既存手法を上回る結果となった。

その他(なぜ通ったか?等)

vision & language用の大規模なデータセットの考案、それを用いたrepresentation learningにおいて有効な結果が得られたからと考えられる。