What to Hide from Your Students: Attention-Guided Masked Image Modeling

#269

summarized by : Anonymous

Ioannis Kakogeorgiou; Spyros Gidaris; Bill Psomas; Yannis Avrithis; Andrei Bursuc; Konstantinos Karantzalos; Nikos Komodakis

Vision Transformerの事前学習に、BERTのMasked Language Modelingを画像に拡張した方法が採用されている。しかし、マスクする領域の選択はランダムで行われている。自己教師学習の際、マスクする領域をself-attentionを用いて決定する手法を提案。

Teacherモデルのアテンションを出力し、注目度の高い領域をマスク領域として選択する。選択した領域をマスクした入力をstudentモデルに入力し、teacherモデルの出力とstudentモデルの出力が近づくように学習を行う。

分類、セグメンテーションタスクで提案手法を評価。ランダムにマスクする場合と比べて性能が向上するだけでなく、背景変化へのロバスト性の向上も確認した。

https://github.com/gkakogeorgiou/attmask

このページで利用されている画像は論文から引用しています．