Less Is More: Learning Highlight Detection From Video Duration

#841

summarized by : Mitani Tomohiro

Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, Kristen Grauman

どんな論文か？

ビデオからハイライトを抽出する弱教師あり学習。ビデオからハイライトを抽出するというタスクはこれまではドメインに特化した形で実現されていた。ハイライトをアノテーションした教師あり学習や、ドメイン内で頻出のシーンをハイライトとして学習する弱教師あり学習が行われてきたが、scalabilityや精度の面で問題があった。

新規性

InstagramやYoutubeにアップロードされた動画において、短いビデオはよりハイライトシーンに絞り込まれていて、長いビデオはハイライトではないシーンも多く含まれるという洞察により、弱教師あり学習を行った。長い動画にもハイライトシーンは含まれるため、proportional lossを用いたランキング学習を使用。なお、ハッシュタグからdomainを推定。

結果

TVSum、YouTube Highilightsにおいてドメイン特化型の非教師ありハイライト検出として、既存手法を22%ほど更新しstate-of-the-artを達成。使用データサイズが限られる教師あり学習の精度も超えた。

その他（なぜ通ったか？等）

FAIR (Facebook AI Research)からの論文。ビデオの長さを教師データとする視点は新しい。ランキング学習とproportional lossを用いて、このnoisyな教師データをうまくモデルに組み込んでいる。弱教師ありの利点を活かして、Instagramの10Mものビデオを使って学習した。

このページで利用されている画像は論文から引用しています．