#508
summarized by : Ryuichi Nakahara
Language As Queries for Referring Video Object Segmentation

どんな論文か?

R-VOS タスク(動きも加味した言語による動画のセグメンテーションタスク)。 Transformer を用いたモデルで4つのベンチマークでよい結果。
placeholder

新規性

R-VOS タスクをTransformerを用いてパイプラインを大幅に簡素化。

結果

4つのベンチマーク(Ref-Youtube-VOS、RefDAVIS17、A2D-Sentences、JHMDB-Sentences)でよい結果

その他(なぜ通ったか?等)

GitHubでソースを公開 https://github.com/wjn922/ReferFormer 4222と類似だがより簡素化されている