#89
summarized by : Takuma Yagi
A Generative Appearance Model for End-To-End Video Object Segmentation

どんな論文か?

映像物体セグメンテーションタスクにおける、追跡物体と背景の高次特徴の分布を毎フレーム1回の走査で計算する確率的生成モデルの提案。追跡物体は埋め込み空間上のガウス混合分布として表現され、end-to-endで最適化が可能である。
placeholder

新規性

特徴量空間上の各ピクセルに混合ガウス分布の重みをソフトにあたえ、それを随時更新していくことによってロバストかつ正確な追跡を実現。

結果

DAVIS2017において推論時のオンラインファインチューニングなしでチューニングありの手法に肉薄しつつ単一GPUで高速(15FPS)推論を維持。Youtube-VOSで最高性能。

その他(なぜ通ったか?等)

Ablation studyが丁寧で好感が持てる一方ヒューリスティックス(ガウス混合分布のクラスタ数が2+2など)が多く扱いづらさが残る。古典的なアピアランスモデルを現代風にアレンジしたように見える。チューニングに苦心が見える。