Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation

#281

summarized by : pshiko

Gedas Bertasius, Lorenzo Torresani

どんな論文か？

Video Instance Segmentation Taskにおいて従来のSOTAであったアンサンブルモデルの精度をMask R-CNNベースの単一モデルで超える手法「MaskProp」を提案

新規性

対象フレームのsegmentation maskの前後フレームでの位置を, フレーム間のfeature mapの差分を利用し予測するmask propagation branchをMask R-CNNに追加することを提案. 予測した前後フレームのmaskも含めて, フレーム間のmaskのIoUを計算することで, blurやocclusionに強いinstance segmentationが可能.

結果

YouTube-VIS datasetにおけるvideo instance segmentation taskにおいてICCV2019の優勝モデルであるアンサンブルモデルに対して, 1000分の1程度のラベル数でmAPを1.8ポイント改善.

その他（なぜ通ったか？等）

ヒューリスティックな手法でしか精度の出せていなかったvideo instance segmentationにおいて比較的シンプルな拡張をした単一モデルで従来手法を超える精度を出し, このtaskにおける手法の発展の基礎になりそうな提案だったから.

このページで利用されている画像は論文から引用しています．