- …
- …
#307
summarized by : Ryo Nakamura
どんな論文か?
ViT-PCM(提案法)がCNN-CAM(Class activation map)ベースのアーキテクチャの優れた代替案であることを示唆.
Weakly supervised semantic segmentation(WPSS)ではCNNにCAMを出力させる方法が一般的であったがVITはCNN機構と異なるためCAMの出力ができなかった.論文ではCAMに基づかない新しいWPSS手法を提案している.
新規性
論文では,CAMを用いない新しい擬似マスク計算法Explicit Searchを提案.
この方法は、ViTの局所性を利用して、マルチラベル分類とセマンティックセグメンテーションの効果的なマッピングに近づけるものである.
結果
提案する擬似マスク計算では,最新の手法に比べ,67.7mIoU%のBPM精度が得られ,現在の最高BPM([39])である3.91%より改善された.
平均して、我々は他の競合他社よりも5%以上mIoUを向上させることができた.MS-COCO 2014では,valセットで45.03%のmIoUを得ることが可能.
計算量の面でも本手法の優位性を証明.
その他(なぜ通ったか?等)
GitHub:https://github.com/deepplants/ViT-PCM
PascalVOC 2012の訓練セットにおいて67.7%のmIoU、後処理にCRFのみを用いた場合71.4%のmIoUを達成し、BPM生成において最先端を行く結果を得ることができ,計算コストを減らし,WPSSにVITを適用することに成功したから.
- …
- …