- …
- …
#269
summarized by : Anonymous
どんな論文か?
Vision Transformerの事前学習に、BERTのMasked Language Modelingを画像に拡張した方法が採用されている。しかし、マスクする領域の選択はランダムで行われている。自己教師学習の際、マスクする領域をself-attentionを用いて決定する手法を提案。
新規性
Teacherモデルのアテンションを出力し、注目度の高い領域をマスク領域として選択する。選択した領域をマスクした入力をstudentモデルに入力し、teacherモデルの出力とstudentモデルの出力が近づくように学習を行う。
結果
分類、セグメンテーションタスクで提案手法を評価。ランダムにマスクする場合と比べて性能が向上するだけでなく、背景変化へのロバスト性の向上も確認した。
その他(なぜ通ったか?等)
https://github.com/gkakogeorgiou/attmask
- …
- …