Hierarchical Self-Supervised Representation Learning for Movie Understanding

#231

summarized by : 志田遥飛

Fanyi Xiao; Kaustav Kundu; Joseph Tighe; Davide Modolo

どんな論文か？

映画理解のための新しい階層的自己教師付き事前学習の提案．具体的には低レベルのビデオバックボーンを対象的な学習目標で事前学習し，高レベルのビデオコンテキストライザーをイベントマスク予測タスクで事前学習するという手法を提案している．

新規性

多くの先行研究は，ビデオの時間機構を利用した全文タスクを設計する方法を模索してきた．本論文内の手法では映画や映画のための映像表現を学習することを目的とて，空間領域をマスクし動画中の空間配置を学習している．

結果

本手法を導入した結果VidSituベンチマークにおいて，本自己教師付き事前学習が，すべてのタスクがメトリクスで性能が向上した．(例：意味役割予測でCIDErスコア47%から61%に改善) LVUタスクにおいて，応じたイベント特徴を単独で用いた場合とインスタンス特徴と組み合わせた場合の有効性，補完性を示した．

その他（なぜ通ったか？等）

【なぜ通ったか?の考察】本手法が，映画理解タスクの最初のベースラインとして機能し，新たな研究を生む可能性を示している．【添付した画像について】本手法で紹介されているhierarchical pretraining methodの全体像．

このページで利用されている画像は論文から引用しています．