FineGym: A Hierarchical Video Dataset for Fine-Grained Action Understanding

#316

summarized by : Hirokatsu Kataoka

Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

どんな論文か？

見た目には非常に近いが、微細な違いで行動が分かれる「詳細行動認識」の問題を設定し、データセットFineGymを提案。データセットは体操シーンから取得した動画像であり、フレーム単位のアノテーションが施されている。

新規性

動画像においてアノテーションが階層的になっているCoarse-to-Fineなラベル付けを実現している（図中上側）。従来ではプリミティブな（最小単位の）行動の認識というものはあったが、ここまで大規模かつ構造化されたデータセットはおそらく初めてという意味で新規性が高い。

結果

図中下側に示すように、網羅的な評価を実施している。傾向的にはRGB/Flow単体よりもやはりそれらの統合であるTwo-streamが、さらに動画認識手法であるTRNms（Temporal Relational Reasoning）やTSM（Temporal Shift Module）が精度が高い傾向にあった。

その他（なぜ通ったか？等）

データセットに関してはクラウドワーカに頼るのではなく専門家がアノテーションしたという丁寧さがある。また、さすがCUHK/SenseTimeと言えるほどの網羅的な実験によりどんな手法が良いのかをベンチマーキングしていた。SNS上では全ての査読者がStrong Acceptであることを報告していた。

このページで利用されている画像は論文から引用しています．