#32
summarized by : Akihiro FUJII
Temporally Efficient Vision Transformer for Video Instance Segmentation

どんな論文か?

Transformerを使った Video Instance Segmentation を行うモデルTeViTを提案。時系列情報を扱うMessenger token を異なるフレームで相互作用させることで、浅い層からフレーム同士の情報をまとめ上げることができる。複数のデータセットでSotA性能を達成。

新規性

先行研究は、フレーム単位での情報を処理に注力していたが、TeVITは時系列情報を扱うMessenger token を異なるフレームで相互作用させることで、浅い層からフレーム同士の情報をまとめ上げることができる。トランスフォーマーベースのVideo Instance Segmentationは珍しいらしい。

結果

YouTube-VIS-2019, YouTube-VIS-2021, OVISでSotA性能を達成した

その他(なぜ通ったか?等)

https://github.com/hustvl/TeViT