- …
- …
#781
summarized by : Hiroki Ohashi
どんな論文か?
映像データからの物体検出手法MEGA(Memory Enhanced Global-local Aggregation)を提案。ローカル(注目フレームの近傍のフレーム)、グローバル(全体から疎にサンプルしたフレーム)の情報に加え、過去フレームに対して計算した中間特徴量をLong Range Memoryと呼ばれるメモリに保存しておくことによって、効率よく多くのフレームからの情報を使えるようにした。
新規性
既存手法では、ローカル(注目フレームの近傍のフレーム)かグローバル(全体から疎にサンプリングしたフレーム)の一方のみの情報を使おうとしていたため、コンテキスト情報が不十分であったが、MEGAではこれらを両方使用するとともに、中間特徴量を保存しておくメモリを追加し、効率よくより多くのフレームからの情報を使えるようにした。
結果
ImageNet VIDデータセットで、既存手法を上回るmAP 85.4%を達成。
その他(なぜ通ったか?等)
既存手法の問題点を定性的に分析し、それに対する解放を提示、SoTAを達成、さらにAblationによって効果が検証できているため。既存手法からの更新分のアイデア自体は単純だが、public benchmarkで一位の結果が出ていることと、ablationによる効果の実証が特に効いたのではないか。
- …
- …