#12
summarized by : Hirokatsu Kataoka
Tracking by Animation: Unsupervised Learning of Multi-Object Attentive Trackers

どんな論文か?

動画に対する複数物体追跡(Multiple Object Tracking; MOT)に対して毎フレーム検出を行いながら時系列でつなぎ合わせるTracking-by-detection(TBD)を改良したTracking-by-animation(TBA)を提案。
placeholder

新規性

TBAでは追跡した物体を再構成しつつ、動かしながら未来フレームの仮説を立てて追跡。再構成誤差を計算しつつネットワークを最適化する。RNNなどを用いた追跡で生じるオーバーフィッティングを避けるため、アテンション機構を採用、メモリからの入力も実装したRATを構築した。

結果

MNIST-MOT/Sprites-MOT/DukeMTMCTデータセットにて検証。シンプルな図形が動作する前者2つのデータセットだけでなく、監視映像での追跡であるDukeMTMCTでも検証。MOTAでは79.6を記録し、教師が少ないながら一番数値が高かった87.5と比較しても近接した精度となった。

その他(なぜ通ったか?等)