#667
summarized by : 日坂 幸次
A Local-to-Global Approach to Multi-Modal Movie Scene Segmentation

どんな論文か?

映画のシーンは、複雑な意味や、豊富な空間情報があるため、シーンを特定することが難しい。その課題に対して、150本の映画から27万本以上のショットを含む21Kシーンを収録した大規模データセット「MovieScenes」を事前学習させることで、シーンの特定について、大幅に精度を向上させた。
placeholder

新規性

シーンショットを集めたデータセットを使った学習させることにより、 映画のシーンの特定を行ったこと。 1)複数のアスペクトからショット表現を抽出する、2)統合された情報から局所的な予測を行う、3)大域最適化問題を解くことでショットのグループ化を最適化 させる手法を用いたこと。

結果

実験の結果,我々の手法は既存の最良の手法と比較して68%(平均精度28.1→47.1)の性能向上が見られた[1].また,既存の手法でも,本手法を用いて事前学習を行った結果,性能が大幅に向上している.

その他(なぜ通ったか?等)