SeqFormer: Sequential Transformer for Video Instance Segmentation

#238

summarized by : Shinnosuke Matsufusa

Junfeng Wu; Yi Jiang; Song Bai; Wenqing Zhang; Xiang Bai

動画のインスタンスセグメンテーションで、これまでのSOTAを大きく凌駕する性能を誇るモデル SeqFormer を提案。これまでの手法と比較して、ビデオフレーム間のインスタンスの動きを時間情報を集約することで学習し、各フレーム上のインスタンス位置を動的に予測できるようになった。

インスタンスクエリの導入。全フレームを通して、同一のインスタンスを正しく認識するために、学習可能なEmbeddingを導入。インスタンスの位置や外観が変化したとしても、同一のインスタンスとして正しく追跡できるようになった。

SeqFormer単体で、データセット YouTube-VIS 2019 において、これまでのSOTAを上回る AP (Average Precision)を達成。さらに、最近提案された Swin Transformer と統合し、 AP は更に向上した。

結論でも述べられているが、シンプルで画期的なアプローチにより大幅にSOTAを改善したため、非常に価値がある取り組みだと言える。オンラインセグメンテーションに直接の応用は難しそうだが、発想としては受け継げるものがあるのでは？と思う。

このページで利用されている画像は論文から引用しています．