- …
- …
#238
summarized by : Shinnosuke Matsufusa
どんな論文か?
動画のインスタンスセグメンテーションで、これまでのSOTAを大きく凌駕する性能を誇るモデル SeqFormer を提案。これまでの手法と比較して、ビデオフレーム間のインスタンスの動きを時間情報を集約することで学習し、各フレーム上のインスタンス位置を動的に予測できるようになった。
新規性
インスタンスクエリの導入。全フレームを通して、同一のインスタンスを正しく認識するために、学習可能なEmbeddingを導入。インスタンスの位置や外観が変化したとしても、同一のインスタンスとして正しく追跡できるようになった。
結果
SeqFormer単体で、データセット YouTube-VIS 2019 において、これまでのSOTAを上回る AP (Average Precision)を達成。
さらに、最近提案された Swin Transformer と統合し、 AP は更に向上した。
その他(なぜ通ったか?等)
結論でも述べられているが、シンプルで画期的なアプローチにより大幅にSOTAを改善したため、非常に価値がある取り組みだと言える。オンラインセグメンテーションに直接の応用は難しそうだが、発想としては受け継げるものがあるのでは?と思う。
- …
- …