#24
summarized by : Kensho Hara
X3D: Expanding Architectures for Efficient Video Recognition

どんな論文か?

効率的な動画認識を実現するためのネットワーク構造を提案.図にある各γのパラメータを段階的に大きくしていくことで,各段階で一番認識精度向上に効く要素を明らかにして,できるだけ低コストで高い性能を達成.

新規性

3D CNNによる動画認識で効率的な認識を実現するためのネットワーク構造の探索を行った点に新規性がある.

結果

SOTA性能を4.8倍,5.5倍少ないパラメータ数で実現.細いチャンネル次元数で高い時空間解像度の設定にすることで効率的な認識が可能という結果.

その他(なぜ通ったか?等)

C. Feichtenhofer単著! コードも公開されている. https: //github.com/facebookresearch/SlowFast