- …
- …
#30
summarized by : Kensho Hara
どんな論文か?
Self-supervisedで動画の特徴表現を学習.複数のモダリティ(RGB, Flow, Audioなど)に対する複数のタスクを組み合わせる.各モダリティの情報はDistillation LossによってメインのRGBに入るようになっている.異なるTaskやDistillationのLossの組み合わせ方をAutoML的に探索する手法を提案することで多タスク学習を実現.
新規性
・Multi-modal, Multi-taskを組み合わせつつDistillationによりsingle-streamに情報を集約するSelf-supervised Learningのフレームワークの提案
・Self-supervised TaskやDistillation Taskを自動的に組み合わせる探索手法の提案
結果
YouTube-8Mからランダムに引っ張ってきた200万動画でSelf-supervised Learningすることで,UCF-101で93.8%,HMDB-51で67.4%という非常に高い認識精度を達成.これはImageNet Pretrainingを超える認識精度になっている.
その他(なぜ通ったか?等)
Multi-taskかつMulti-modalで200万動画を利用した学習という,さすがGoogleな論文.
- …
- …