#169
summarized by : Shun.ishizaka
Listen to Look: Action Recognition by Previewing Audio

どんな論文か?

音+映像で行動認識.もっというと,untrimmed videoに対してactionが行われている代表frameを音+画像を手掛かりに抽出する手法の提案.提案手法であるImgAud2Vidネットワークにより動画を画像+音声のペア委に分割してactionの認識→これもまた提案手法であるImgaud-Skimmingネットワークにより有益なペアのみを選択.
placeholder

新規性

行動認識タスクにおいて,動画内の冗長性に着目した点が新しい.たとえば同じ動作を繰り返していたり,隣接したframeはほぼ同じ中身だったりするので全frameを処理するのは無駄→音声を手掛かりに効率よく認識することを提案し,実際に速度・精度を両立している.

結果

4つのdataset(Kinetics-Sounds, MiniSports1M, ActivityNet, UCF-101)で検証.clip-levelでの行動認識では精度・検出速度を両立.untrimmed videoに対する行動認識でも,提案手法が最も精度よく検出できていた.

その他(なぜ通ったか?等)