- …
- …
#32
summarized by : Akihiro FUJII
どんな論文か?
Transformerを使った Video Instance Segmentation を行うモデルTeViTを提案。時系列情報を扱うMessenger token を異なるフレームで相互作用させることで、浅い層からフレーム同士の情報をまとめ上げることができる。複数のデータセットでSotA性能を達成。
新規性
先行研究は、フレーム単位での情報を処理に注力していたが、TeVITは時系列情報を扱うMessenger token を異なるフレームで相互作用させることで、浅い層からフレーム同士の情報をまとめ上げることができる。トランスフォーマーベースのVideo Instance Segmentationは珍しいらしい。
結果
YouTube-VIS-2019, YouTube-VIS-2021, OVISでSotA性能を達成した
その他(なぜ通ったか?等)
https://github.com/hustvl/TeViT
- …
- …