#39
summarized by : Shun.ishizaka
MovieNet: A Holistic Dataset for Movie Understanding

どんな論文か?

映像理解のための大規模dataset.尺の長い(1h以上など)映像理解は難しいタスク → ストーリ性・芸術性・尺の長さの要素をもつ映画に注目,datasetを構築.構築したMovieNetに対してベンチマークを提案.
placeholder

新規性

映画(1,100本),予告編(60K),写真(3.9M),字幕,脚本,キャラクタのbbox(1.1M ),42Kのシーン境界,メタ情報(ジャンル・キャスト・監督・レーティング)などをデータとして持つ.とにかく大規模.長尺での映像理解に取り組むために映画を集めてDatasetを構築した点が新しい.

結果

ベンチマークとして5種類提案(1.ジャンル推定 2. 演出技法推定(zoom inとか) 3.キャラクタ認識 4.シーン理解 5.ストーリ理解).まだ議論の余地がある課題であることを主張.そのほかのtopicにも使えると主張(予告編の自動生成=ハイライトの抽出など).

その他(なぜ通ったか?等)

Datasetは公開済.http://movienet.site/