#597
summarized by : maokura
SAIL-VOS: Semantic Amodal Instance Level Video Object Segmentation - A Synthetic Dataset and Baselines

どんな論文か?

ビデオ中の物体について,写っている領域だけでなく重なって隠れている部分についてもSegmentationを行うタスク,SAIL-VOSが近年になって注目され始めてきたが十分なデータセットが存在しない.データセット作成のため,ゲーム(GTA-V)を1msごとにストップし透過したりしてスクショを撮り,ラベルづけを行った.既存モデルでのテストを行った.データセット名はSAIL-VOS Dataset.
placeholder

新規性

SAIL-VOSのためのデータセットを,ゲームのシミュレータのスクショを撮りラベルづけすることで設計.正確な物体のマスクを行うためにdepth bufferとstencil bufferを用いた.重複順の推定などにはdepth bufferを用いている.

結果

全部で162クラスで物体のアノテーションがされたデータセットができた.作成したデータセット上でMask R-CNN,MaskAmodalに物体マスクを行わせたところ,MaskR-CNNの性能が最も良かった.また実世界データで物体セグメンテーションを行うベースラインの性能を,本データセットで訓練することで向上させることができた.訓練データが少ない実世界データを対象とするモデルの助けになると言える.

その他(なぜ通ったか?等)