Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation

#371

summarized by : 西村和也（九大）

Lian Xu; Wanli Ouyang; Mohammed Bennamoun; Farid Boussaid; Dan Xu

どんな論文か？

Weakly-supervised semantic segmentationのため、classの形状を示したactivation mapを取得することが目標。複数のclass tokenを持ったvision transformerを提案し（従来のvision transformerではclass tokenが1）、複数のclass tokenから得られるattentionにより性能向上を実現。

新規性

multi-class token transformer を提案し、classに属するobjectのlocalization mapを高精度に取得可能にした。 transformerのpach間のaffinityもlocalization mapに活用することで、性能をさらに向上。

結果

weakly-supervisedで良く使用されるMS COCO, PASCAL VOCで性能評価を行い、multiple-class tokenの有効性を示した

その他（なぜ通ったか？等）

https://github.com/xulianuwa/MCTformer

このページで利用されている画像は論文から引用しています．