SAIL-VOS: Semantic Amodal Instance Level Video Object Segmentation

#597

summarized by : maokura

SAIL-VOS: Semantic Amodal Instance Level Video Object Segmentation - A Synthetic Dataset and Baselines

Yuan-Ting Hu, Hong-Shuo Chen, Kexin Hui, Jia-Bin Huang, Alexander G. Schwing

どんな論文か？

ビデオ中の物体について，写っている領域だけでなく重なって隠れている部分についてもSegmentationを行うタスク，SAIL-VOSが近年になって注目され始めてきたが十分なデータセットが存在しない．データセット作成のため，ゲーム(GTA-V)を1msごとにストップし透過したりしてスクショを撮り，ラベルづけを行った．既存モデルでのテストを行った．データセット名はSAIL-VOS Dataset．

新規性

SAIL-VOSのためのデータセットを，ゲームのシミュレータのスクショを撮りラベルづけすることで設計．正確な物体のマスクを行うためにdepth bufferとstencil bufferを用いた．重複順の推定などにはdepth bufferを用いている．

結果

全部で162クラスで物体のアノテーションがされたデータセットができた．作成したデータセット上でMask R-CNN,MaskAmodalに物体マスクを行わせたところ，MaskR-CNNの性能が最も良かった．また実世界データで物体セグメンテーションを行うベースラインの性能を，本データセットで訓練することで向上させることができた．訓練データが少ない実世界データを対象とするモデルの助けになると言える．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．