#758
summarized by : QIU YUE
SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation

どんな論文か?

Video Object Segmentation (VOS)のための新たなTransformerベースな手法を提案.VOSにおいて,Online fine-tuningとRecurrentモデルベースな既存手法がある.それぞれFeed-forwardではない欠点や、計算コストが大きいなどの問題点ある.提案手法が高精度を示し、scalabilityと遮蔽された物体に対してのロバスト性を向上できた.
placeholder

新規性

①VOSのための初めてのFull-transformerベースな手法を提案.②いくつか既存手法の問題点を提案のTransformerベースな手法により改善でき,更に提案手法がSparseなAttention formulationを設計し、構造上シンプルになり、計算コストの削減や、今後ほかのDownstreamタスクにおいての有効性が高い.

結果

①提案の手法SSTVOSが高い精度を得られるほか,SparseなAttention操作を行うため、計算コストも既存のSequence手法より小さい;②YouTube-VOSとDAVIS2017データセットにおいて既存手法と同レベルの精度を得た.また、Scalabilityを改善でき、Occlusionに対してのロバスト性も改善できた.

その他(なぜ通ったか?等)