Temporally Efficient Vision Transformer for Video Instance Segmentation

#32

summarized by : Akihiro FUJII

Shusheng Yang; Xinggang Wang; Yu Li; Yuxin Fang; Jiemin Fang; Wenyu Liu; Xun Zhao; Ying Shan

どんな論文か？

Transformerを使った Video Instance Segmentation を行うモデルTeViTを提案。時系列情報を扱うMessenger token を異なるフレームで相互作用させることで、浅い層からフレーム同士の情報をまとめ上げることができる。複数のデータセットでSotA性能を達成。

新規性

先行研究は、フレーム単位での情報を処理に注力していたが、TeVITは時系列情報を扱うMessenger token を異なるフレームで相互作用させることで、浅い層からフレーム同士の情報をまとめ上げることができる。トランスフォーマーベースのVideo Instance Segmentationは珍しいらしい。

結果

YouTube-VIS-2019, YouTube-VIS-2021, OVISでSotA性能を達成した

その他（なぜ通ったか？等）

https://github.com/hustvl/TeViT

このページで利用されている画像は論文から引用しています．