RVOS: End-To-End Recurrent Network for Video Object Segmentation

#491

summarized by : QIUYUE

Carles Ventura, Miriam Bellver, Andreu Girbau, Amaia Salvador, Ferran Marques, Xavier Giro-i-Nieto

どんな論文か？

ビデオからマルチ物体のセグメンテーションを行う手法RVOSの提案．RVOSが２つのドメンでrecurrenceを行う：①spatial,一つのフレームからマルチ物体インスタンスを検出；②temporal,比較的に長い時系列でセグメント物体のマスクの一貫性を保持できる．提案手法をzero-shotとone-shotな物体セグメンテーションに適応できる．

新規性

DAVIS-2017及びYouTube-VOSデータセットで初めてのzero-shot物体検出精度を報告した手法．初めての前処理を行わずにEnd-to-Endなビデオからマルチ物体セグメンテーションを行う手法．

結果

YouTube-VOSデータセットでSOTAな手法と同レベル精度を達成．DAVIS-2017データセットでonline学習を行わない前提で，すべての従来手法より良い精度を達成．提案手法が従来手法より速いスピードでリアルタイムで推定できる(P100 GPUで44ms/frame)．

その他（なぜ通ったか？等）

リアルタイムでビデオ物体セグメンテーション処理を行えるスピードを達成しながら，SOTAな精度も得られた．Zero-shot, One-shotタスクに適応できる手法なので，実用性が高い．

このページで利用されている画像は論文から引用しています．