X3D: Expanding Architectures for Efficient Video Recognition

#24

summarized by : Kensho Hara

Christoph Feichtenhofer

効率的な動画認識を実現するためのネットワーク構造を提案．図にある各γのパラメータを段階的に大きくしていくことで，各段階で一番認識精度向上に効く要素を明らかにして，できるだけ低コストで高い性能を達成．

3D CNNによる動画認識で効率的な認識を実現するためのネットワーク構造の探索を行った点に新規性がある．

SOTA性能を4.8倍，5.5倍少ないパラメータ数で実現．細いチャンネル次元数で高い時空間解像度の設定にすることで効率的な認識が可能という結果．

C. Feichtenhofer単著！コードも公開されている． https: //github.com/facebookresearch/SlowFast

このページで利用されている画像は論文から引用しています．