#238
summarized by : Shinnosuke Matsufusa
SeqFormer: Sequential Transformer for Video Instance Segmentation

どんな論文か?

動画のインスタンスセグメンテーションで、これまでのSOTAを大きく凌駕する性能を誇るモデル SeqFormer を提案。これまでの手法と比較して、ビデオフレーム間のインスタンスの動きを時間情報を集約することで学習し、各フレーム上のインスタンス位置を動的に予測できるようになった。
placeholder

新規性

インスタンスクエリの導入。全フレームを通して、同一のインスタンスを正しく認識するために、学習可能なEmbeddingを導入。インスタンスの位置や外観が変化したとしても、同一のインスタンスとして正しく追跡できるようになった。

結果

SeqFormer単体で、データセット YouTube-VIS 2019 において、これまでのSOTAを上回る AP (Average Precision)を達成。 さらに、最近提案された Swin Transformer と統合し、 AP は更に向上した。

その他(なぜ通ったか?等)

結論でも述べられているが、シンプルで画期的なアプローチにより大幅にSOTAを改善したため、非常に価値がある取り組みだと言える。オンラインセグメンテーションに直接の応用は難しそうだが、発想としては受け継げるものがあるのでは?と思う。