YouMVOS: An Actor-Centric Multi-Shot Video Object Segmentation Dataset

#601

summarized by : Masanori YANO

Donglai Wei; Siddhant Kharbanda; Sarthak Arora; Roshan Roy; Nishant Jain; Akash Palrecha; Tanav Shah; Shray Mathur; Ritik Mathur; Abhijay Kemkar; Anirudh Chakravarthy; Zudi Lin; Won-Dong Jang; Yansong Tang; Song Bai; James Tompkin; Philip H.S. Torr; Hanspeter Pfister

どんな論文か？

動画からのオブジェクトのセグメンテーション(VOS)で、シーンの切り替わりを含む動画のデータセット及び手法に関する論文。

新規性

YouTubeで10種類のジャンルから20個ずつ動画を収集し、6fpsで人物のインスタンス単位のセグメンテーションを行ったYouMVOSデータセットを構築した。また、ObjPropをベースとした手法として、フレーム単位の検出にHTCフレームワークを適用したSMDと、バウンディングボックスのIoUスコアと人物の見かけに基づく追跡スコアを算出するMMDを提案した。

結果

200個の動画に対し、インスタンス数の合計431Kのマスクを作成した。また、構築したYouMVOSデータセットで比較評価を行い、ObjPropにSMDとMMDを追加すると従来手法を上回る結果。その結果に対する誤りの評価も行い、人物のトラッキング失敗が支配的な要因であることを確認している。

その他（なぜ通ったか？等）

新たなデータセットを構築し、評価を通してデータセットの特性も示したことで通ったと考えられる。プロジェクトページ( https://donglaiw.github.io/proj/youMVOS/ )が公開されているが、現時点では一部の動画を差し替え中と記載されている。

このページで利用されている画像は論文から引用しています．