#841
summarized by : Mitani Tomohiro
Less Is More: Learning Highlight Detection From Video Duration

どんな論文か?

ビデオからハイライトを抽出する弱教師あり学習。ビデオからハイライトを抽出するというタスクはこれまではドメインに特化した形で実現されていた。ハイライトをアノテーションした教師あり学習や、ドメイン内で頻出のシーンをハイライトとして学習する弱教師あり学習が行われてきたが、scalabilityや精度の面で問題があった。
placeholder

新規性

InstagramやYoutubeにアップロードされた動画において、短いビデオはよりハイライトシーンに絞り込まれていて、長いビデオはハイライトではないシーンも多く含まれるという洞察により、弱教師あり学習を行った。長い動画にもハイライトシーンは含まれるため、proportional lossを用いたランキング学習を使用。なお、ハッシュタグからdomainを推定。

結果

TVSum、YouTube Highilightsにおいてドメイン特化型の非教師ありハイライト検出として、既存手法を22%ほど更新しstate-of-the-artを達成。使用データサイズが限られる教師あり学習の精度も超えた。

その他(なぜ通ったか?等)

FAIR (Facebook AI Research)からの論文。ビデオの長さを教師データとする視点は新しい。ランキング学習とproportional lossを用いて、このnoisyな教師データをうまくモデルに組み込んでいる。弱教師ありの利点を活かして、Instagramの10Mものビデオを使って学習した。