#30
summarized by : Kensho Hara
Evolving Losses for Unsupervised Video Representation Learning

どんな論文か?

Self-supervisedで動画の特徴表現を学習.複数のモダリティ(RGB, Flow, Audioなど)に対する複数のタスクを組み合わせる.各モダリティの情報はDistillation LossによってメインのRGBに入るようになっている.異なるTaskやDistillationのLossの組み合わせ方をAutoML的に探索する手法を提案することで多タスク学習を実現.
placeholder

新規性

・Multi-modal, Multi-taskを組み合わせつつDistillationによりsingle-streamに情報を集約するSelf-supervised Learningのフレームワークの提案 ・Self-supervised TaskやDistillation Taskを自動的に組み合わせる探索手法の提案

結果

YouTube-8Mからランダムに引っ張ってきた200万動画でSelf-supervised Learningすることで,UCF-101で93.8%,HMDB-51で67.4%という非常に高い認識精度を達成.これはImageNet Pretrainingを超える認識精度になっている.

その他(なぜ通ったか?等)

Multi-taskかつMulti-modalで200万動画を利用した学習という,さすがGoogleな論文.