Language As Queries for Referring Video Object Segmentation

#508

summarized by : Ryuichi Nakahara

Jiannan Wu; Yi Jiang; Peize Sun; Zehuan Yuan; Ping Luo

R-VOS タスク（動きも加味した言語による動画のセグメンテーションタスク）。 Transformer を用いたモデルで４つのベンチマークでよい結果。

R-VOS タスクをTransformerを用いてパイプラインを大幅に簡素化。

４つのベンチマーク(Ref-Youtube-VOS、RefDAVIS17、A2D-Sentences、JHMDB-Sentences）でよい結果

GitHubでソースを公開 https://github.com/wjn922/ReferFormer 4222と類似だがより簡素化されている

このページで利用されている画像は論文から引用しています．