Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning

#212

summarized by : Hirokatsu Kataoka

Richard J. Chen; Chengkuan Chen; Yicong Li; Tiffany Y. Chen; Andrew D. Trister; Rahul G. Krishnan; Faisal Mahmood

どんな論文か？

超解像の医用画像（論文中では最大150000 x 150000 pixels）から階層的に画像を抽出してVision Transformerの画像パッチとして入力できるように加工しつつ学習を進めていくHierarchical Image Pyramid Transformer（HIPT）を提案。添付画像のように画像を階層化しつつ入力する。

新規性

超解像画像を加工して自己教師あり学習を実施したVision Transformerで癌領域推定の最高水準精度まで到達。

結果

同様の文脈で提案されている弱教師あり学習ベースのMIL手法と比較。MIL/GCN-MIL/DS-MILなどと比較しても高い性能まで到達。さらに、25%の学習データにおいても性能の低下を抑えられることも明らかにし、自己教師あり学習の有効性を確認。

その他（なぜ通ったか？等）

Project Page: https://github.com/mahmoodlab/HIPT

このページで利用されている画像は論文から引用しています．