#307
summarized by : QIUYUE
MAD: A Scalable Dataset for Language Grounding in Videos From Movie Audio Descriptions

どんな論文か?

近年、Video-Languageデータセットが主に短いビデオを中心に扱っている。また、Groundingに関する研究が比較的に少ない。既存のデータセットでの手法がデータセットバイアスを学習してしまう傾向がある。ここで大規模Movie Audio Descriptionデータセットを提案した。提案データセットが有効的にバイアスを軽減できる結果を実験で示せた。
placeholder

新規性

既存のVideo-Languageでは数秒/数分程度のビデオを扱うことに対して、1時間2時間程度の映画を扱うVideo-Languageデータセットを集めた。将来的のVideo-Grounding手法のための良いベンチマークを提供した。

結果

提案データセットで既存手法の評価実験を行った。実験結果により、提案データセットはまだまだチャレンジ的であり、将来的な手法の改善に良いベンチマークを提供できた。また、提案データセットが有効的にバイアスのみ学習される問題点を緩和できる傾向を示せた。

その他(なぜ通ったか?等)

大規模Videos-language(音声)データセットがちょこちょこ出るようになった。ビデオ音声言語同時に扱う研究がこれから増えそう。また、この論文でLongビデオでデータセットのバイアスを軽減するところが面白い。