A Local-to-Global Approach to Multi-Modal Movie Scene Segmentation

#667

summarized by : 日坂　幸次

Anyi Rao, Linning Xu, Yu Xiong, Guodong Xu, Qingqiu Huang, Bolei Zhou, Dahua Lin

映画のシーンは、複雑な意味や、豊富な空間情報があるため、シーンを特定することが難しい。その課題に対して、150本の映画から27万本以上のショットを含む21Kシーンを収録した大規模データセット「MovieScenes」を事前学習させることで、シーンの特定について、大幅に精度を向上させた。

シーンショットを集めたデータセットを使った学習させることにより、映画のシーンの特定を行ったこと。 1)複数のアスペクトからショット表現を抽出する、2)統合された情報から局所的な予測を行う、3)大域最適化問題を解くことでショットのグループ化を最適化させる手法を用いたこと。

実験の結果，我々の手法は既存の最良の手法と比較して68％（平均精度28.1→47.1）の性能向上が見られた[1]．また，既存の手法でも，本手法を用いて事前学習を行った結果，性能が大幅に向上している．

このページで利用されている画像は論文から引用しています．