- …
- …
#371
summarized by : 西村和也(九大)
どんな論文か?
Weakly-supervised semantic segmentationのため、classの形状を示したactivation mapを取得することが目標。複数のclass tokenを持ったvision transformerを提案し(従来のvision transformerではclass tokenが1)、複数のclass tokenから得られるattentionにより性能向上を実現。
新規性
multi-class token transformer を提案し、classに属するobjectのlocalization mapを高精度に取得可能にした。
transformerのpach間のaffinityもlocalization mapに活用することで、性能をさらに向上。
結果
weakly-supervisedで良く使用されるMS COCO, PASCAL VOCで性能評価を行い、multiple-class tokenの有効性を示した
その他(なぜ通ったか?等)
https://github.com/xulianuwa/MCTformer
- …
- …