#307
summarized by : Ryo Nakamura
Max Pooling with Vision Transformers Reconciles Class and Shape in Weakly Supervised Semantic Segmentation

どんな論文か?

ViT-PCM(提案法)がCNN-CAM(Class activation map)ベースのアーキテクチャの優れた代替案であることを示唆. Weakly supervised semantic segmentation(WPSS)ではCNNにCAMを出力させる方法が一般的であったがVITはCNN機構と異なるためCAMの出力ができなかった.論文ではCAMに基づかない新しいWPSS手法を提案している.
placeholder

新規性

論文では,CAMを用いない新しい擬似マスク計算法Explicit Searchを提案. この方法は、ViTの局所性を利用して、マルチラベル分類とセマンティックセグメンテーションの効果的なマッピングに近づけるものである.

結果

提案する擬似マスク計算では,最新の手法に比べ,67.7mIoU%のBPM精度が得られ,現在の最高BPM([39])である3.91%より改善された. 平均して、我々は他の競合他社よりも5%以上mIoUを向上させることができた.MS-COCO 2014では,valセットで45.03%のmIoUを得ることが可能. 計算量の面でも本手法の優位性を証明.

その他(なぜ通ったか?等)

GitHub:https://github.com/deepplants/ViT-PCM PascalVOC 2012の訓練セットにおいて67.7%のmIoU、後処理にCRFのみを用いた場合71.4%のmIoUを達成し、BPM生成において最先端を行く結果を得ることができ,計算コストを減らし,WPSSにVITを適用することに成功したから.