Max Pooling with Vision Transformers Reconciles Class and Shape in Weakly Supervised Semantic Segmentation

#307

summarized by : Ryo Nakamura

Simone Rossetti; Damiano Zappia; Marta Sanzari; Marco Schaerf; Fiora Pirri

どんな論文か？

ViT-PCM(提案法)がCNN-CAM（Class activation map）ベースのアーキテクチャの優れた代替案であることを示唆． Weakly supervised semantic segmentation(WPSS)ではCNNにCAMを出力させる方法が一般的であったがVITはCNN機構と異なるためCAMの出力ができなかった．論文ではCAMに基づかない新しいWPSS手法を提案している．

新規性

論文では，CAMを用いない新しい擬似マスク計算法Explicit Searchを提案．この方法は、ViTの局所性を利用して、マルチラベル分類とセマンティックセグメンテーションの効果的なマッピングに近づけるものである．

結果

提案する擬似マスク計算では，最新の手法に比べ，67.7mIoU%のBPM精度が得られ，現在の最高BPM（[39]）である3.91%より改善された．平均して、我々は他の競合他社よりも5%以上mIoUを向上させることができた．MS-COCO 2014では，valセットで45.03%のmIoUを得ることが可能．計算量の面でも本手法の優位性を証明．

その他（なぜ通ったか？等）

GitHub:https://github.com/deepplants/ViT-PCM PascalVOC 2012の訓練セットにおいて67.7%のmIoU、後処理にCRFのみを用いた場合71.4%のmIoUを達成し、BPM生成において最先端を行く結果を得ることができ，計算コストを減らし，WPSSにVITを適用することに成功したから．

このページで利用されている画像は論文から引用しています．