Memory Enhanced Global-Local Aggregation for Video Object Detection

#781

summarized by : Hiroki Ohashi

Yihong Chen, Yue Cao, Han Hu, Liwei Wang

どんな論文か？

映像データからの物体検出手法MEGA(Memory Enhanced Global-local Aggregation)を提案。ローカル（注目フレームの近傍のフレーム）、グローバル（全体から疎にサンプルしたフレーム）の情報に加え、過去フレームに対して計算した中間特徴量をLong Range Memoryと呼ばれるメモリに保存しておくことによって、効率よく多くのフレームからの情報を使えるようにした。

新規性

既存手法では、ローカル（注目フレームの近傍のフレーム）かグローバル（全体から疎にサンプリングしたフレーム）の一方のみの情報を使おうとしていたため、コンテキスト情報が不十分であったが、MEGAではこれらを両方使用するとともに、中間特徴量を保存しておくメモリを追加し、効率よくより多くのフレームからの情報を使えるようにした。

結果

ImageNet VIDデータセットで、既存手法を上回るmAP 85.4%を達成。

その他（なぜ通ったか？等）

既存手法の問題点を定性的に分析し、それに対する解放を提示、SoTAを達成、さらにAblationによって効果が検証できているため。既存手法からの更新分のアイデア自体は単純だが、public benchmarkで一位の結果が出ていることと、ablationによる効果の実証が特に効いたのではないか。

このページで利用されている画像は論文から引用しています．