SpeedNet: Learning the Speediness in Videos

#109

summarized by : Teppei Kurita

Sagie Benaim, Ariel Ephrat, Oran Lang, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Michal Irani, Tali Dekel

どんな論文か？

映像中の物体の「速さ」（正確には動画自体が高速化されているか）を予測するアノテーションを必要としない自己教師学習手法の提案。速さを予測するのは実は難しい、なぜなら動きの大きさが同じでもカメラからの距離によって速さは異なるため。人間は実世界物体（人、動物、車など）がどのように動いているのかを事前知識と知っているので、早送りされた動画を見ると不自然に思うことができる。

新規性

問題設定そのものがFirst Effort。NNでは入力映像の物体が通常の速度で動いているか、通常の速度よりも速いかを2値分類する。これは速度を直接回帰で求めるより素性が良いとのこと。エンコードノイズ等を手掛かりにネットワークがズルをしてしまうのが課題なので、Spatial、Temporal両方のAugmentationでノイズ潰してショートカットできないようにしているところがキモ。

結果

様々なタスクでモデルの有効性を確認。またUCF101とHMDB51において自己教師行動認識の性能をベースラインと比較し優位性を示している。

その他（なぜ通ったか？等）

新しい問題設定の中にある課題を適切に抽出し、独自のアイデアで解決しているところが評価されたと考えられる。

このページで利用されている画像は論文から引用しています．