summarized by : Ryuichi Nakahara
Jiannan Wu; Yi Jiang; Peize Sun; Zehuan Yuan; Ping Luo
R-VOS タスク(動きも加味した言語による動画のセグメンテーションタスク)。 Transformer を用いたモデルで4つのベンチマークでよい結果。
R-VOS タスクをTransformerを用いてパイプラインを大幅に簡素化。
4つのベンチマーク(Ref-Youtube-VOS、RefDAVIS17、A2D-Sentences、JHMDB-Sentences)でよい結果
GitHubでソースを公開
https://github.com/wjn922/ReferFormer
4222と類似だがより簡素化されている