A Multigrid Method for Efficiently Training Video Models

#77

summarized by : Kensho Hara

Chao-Yuan Wu, Ross Girshick, Kaiming He, Christoph Feichtenhofer, Philipp Krähenbühl

どんな論文か？

動画認識モデルの学習は画像認識以上に時間がかかって大変なので効率的に学習可能な方法を提案．入力動画のサイズ（TxHxW）が大きいほど精度は高くなるが学習時間は長くなる（バッチサイズを減らす必要があるため）というトレードオフがあるので，それを無くすことで学習を効率化．最初は小さいサイズから始めてだんだんサイズを大きくすることで従来と同等の精度を短い学習時間で達成可．

新規性

従来学習全体で統一されていたバッチサイズと入力サンプルのサイズを学習中に可変なものとすることで学習を効率的に行うという新しい学習方法を提案．

結果

Kinetics-400でのSlowFast ResNet-50の学習において，4.5倍高速に学習し，+0.8%の精度向上を確認．

その他（なぜ通ったか？等）

やってることは単純そうなものの数値計算におけるMultigrid法と関連させて理論的な背景があるように見せているのがうまい．

このページで利用されている画像は論文から引用しています．