MAD: A Scalable Dataset for Language Grounding in Videos From Movie Audio Descriptions

#307

summarized by : QIUYUE

Mattia Soldan; Alejandro Pardo; Juan León Alcázar; Fabian Caba; Chen Zhao; Silvio Giancola; Bernard Ghanem

どんな論文か？

近年、Video-Languageデータセットが主に短いビデオを中心に扱っている。また、Groundingに関する研究が比較的に少ない。既存のデータセットでの手法がデータセットバイアスを学習してしまう傾向がある。ここで大規模Movie Audio Descriptionデータセットを提案した。提案データセットが有効的にバイアスを軽減できる結果を実験で示せた。

新規性

既存のVideo-Languageでは数秒／数分程度のビデオを扱うことに対して、１時間２時間程度の映画を扱うVideo-Languageデータセットを集めた。将来的のVideo-Grounding手法のための良いベンチマークを提供した。

結果

提案データセットで既存手法の評価実験を行った。実験結果により、提案データセットはまだまだチャレンジ的であり、将来的な手法の改善に良いベンチマークを提供できた。また、提案データセットが有効的にバイアスのみ学習される問題点を緩和できる傾向を示せた。

その他（なぜ通ったか？等）

大規模Videos-language（音声）データセットがちょこちょこ出るようになった。ビデオ音声言語同時に扱う研究がこれから増えそう。また、この論文でLongビデオでデータセットのバイアスを軽減するところが面白い。

このページで利用されている画像は論文から引用しています．