#459
summarized by : Ryunosuke Ishikawa
Per-Clip Video Object Segmentation

どんな論文か?

メモリベースのアプローチが弱教師ありビデオオブジェクトセグメンテーションにおいて有望な結果を示している。その中でSOTAを達成しているSTCNはフレームごとに動画を分割し、オブジェクトセグメンテーションを行っている。しかし、STCNの高度なメモリマッチングにより、メモリ更新が毎フレーム必要でない可能性を示している。そこで本論文ではフレーム単位ではなくクリップ単位でマスク予測を行う手法を提案する。
placeholder

新規性

メモリベース方式におけるクリップ単位の推論方式を掘り下げている。メモリ更新をある間隔で定期的に行えば、入力ビデオフレームを更新間隔に従って連続したフレーム(クリップ)の集合にグループ化し、フレーム単位ではなくクリップ単位でマスク予測を行う。 クリップ内でフレーム間がアクセスでき、最適な予測を行うことができる。 メモリ更新間隔を長くするとクリップ内の計算を並列処理できるため速度向上が得られる。

結果

Youtube-VOS 2018/2019 val(84.6%、84.6%)とDAVIS 2016/2017 val(91.9%、86.1%)で最先端の性能を達成。さらに、メモリ更新間隔を変化させることで、速度-精度のトレードオフを示し、大きな柔軟性を実現。

その他(なぜ通ったか?等)