#781
summarized by : Hiroki Ohashi
Memory Enhanced Global-Local Aggregation for Video Object Detection

どんな論文か?

映像データからの物体検出手法MEGA(Memory Enhanced Global-local Aggregation)を提案。ローカル(注目フレームの近傍のフレーム)、グローバル(全体から疎にサンプルしたフレーム)の情報に加え、過去フレームに対して計算した中間特徴量をLong Range Memoryと呼ばれるメモリに保存しておくことによって、効率よく多くのフレームからの情報を使えるようにした。
placeholder

新規性

既存手法では、ローカル(注目フレームの近傍のフレーム)かグローバル(全体から疎にサンプリングしたフレーム)の一方のみの情報を使おうとしていたため、コンテキスト情報が不十分であったが、MEGAではこれらを両方使用するとともに、中間特徴量を保存しておくメモリを追加し、効率よくより多くのフレームからの情報を使えるようにした。

結果

ImageNet VIDデータセットで、既存手法を上回るmAP 85.4%を達成。

その他(なぜ通ったか?等)

既存手法の問題点を定性的に分析し、それに対する解放を提示、SoTAを達成、さらにAblationによって効果が検証できているため。既存手法からの更新分のアイデア自体は単純だが、public benchmarkで一位の結果が出ていることと、ablationによる効果の実証が特に効いたのではないか。