#269
summarized by : Anonymous
What to Hide from Your Students: Attention-Guided Masked Image Modeling

どんな論文か?

Vision Transformerの事前学習に、BERTのMasked Language Modelingを画像に拡張した方法が採用されている。しかし、マスクする領域の選択はランダムで行われている。自己教師学習の際、マスクする領域をself-attentionを用いて決定する手法を提案。
placeholder

新規性

Teacherモデルのアテンションを出力し、注目度の高い領域をマスク領域として選択する。選択した領域をマスクした入力をstudentモデルに入力し、teacherモデルの出力とstudentモデルの出力が近づくように学習を行う。

結果

分類、セグメンテーションタスクで提案手法を評価。ランダムにマスクする場合と比べて性能が向上するだけでなく、背景変化へのロバスト性の向上も確認した。

その他(なぜ通ったか?等)

https://github.com/gkakogeorgiou/attmask