SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation

#758

summarized by : QIU YUE

Brendan Duke, Abdalla Ahmed, Christian Wolf, Parham Aarabi, Graham W. Taylor

どんな論文か？

Video Object Segmentation (VOS)のための新たなTransformerベースな手法を提案．VOSにおいて，Online fine-tuningとRecurrentモデルベースな既存手法がある．それぞれFeed-forwardではない欠点や、計算コストが大きいなどの問題点ある．提案手法が高精度を示し、scalabilityと遮蔽された物体に対してのロバスト性を向上できた．

新規性

①VOSのための初めてのFull-transformerベースな手法を提案．②いくつか既存手法の問題点を提案のTransformerベースな手法により改善でき，更に提案手法がSparseなAttention formulationを設計し、構造上シンプルになり、計算コストの削減や、今後ほかのDownstreamタスクにおいての有効性が高い．

結果

①提案の手法SSTVOSが高い精度を得られるほか，SparseなAttention操作を行うため、計算コストも既存のSequence手法より小さい；②YouTube-VOSとDAVIS2017データセットにおいて既存手法と同レベルの精度を得た．また、Scalabilityを改善でき、Occlusionに対してのロバスト性も改善できた.

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．