#371
summarized by : 西村和也(九大)
Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation

どんな論文か?

Weakly-supervised semantic segmentationのため、classの形状を示したactivation mapを取得することが目標。複数のclass tokenを持ったvision transformerを提案し(従来のvision transformerではclass tokenが1)、複数のclass tokenから得られるattentionにより性能向上を実現。

新規性

multi-class token transformer を提案し、classに属するobjectのlocalization mapを高精度に取得可能にした。 transformerのpach間のaffinityもlocalization mapに活用することで、性能をさらに向上。

結果

weakly-supervisedで良く使用されるMS COCO, PASCAL VOCで性能評価を行い、multiple-class tokenの有効性を示した

その他(なぜ通ったか?等)

https://github.com/xulianuwa/MCTformer