#114
summarized by : S Ishikawa
Towards Efficient and Scalable Sharpness-Aware Minimization

どんな論文か?

SAMは汎化性能の高い平坦な解に収束するが,SGDやAdamなどの1次最適化に比べ計算コストがかかることが問題になっている.この論文では,LookSAMと呼ばれるアルゴリズムを新たに提案することで,性能を下げることなく,1次最適化に匹敵するスピードでSAMを動かすことに成功した.
placeholder

新規性

SAMの更新を,SGDの更新ベクトルと,補正ベクトル(平坦な解へ向かうためのバイアスの学習)に分解.補正ベクトルを定期的にしか計算しないことで,SAMの性能を下げることなく学習を行うことに成功した.またVisionTransformerのラージバッチ学習では,Look-LayerSAMにより,世界で初めてバッチサイズ64kでの学習に成功した.

結果

ResnetやWideResnetを用いたCIFAR100の学習において,LookSAMはSAMに匹敵する精度を達成した.またLook-LayerSAMによりVisionTransformerを用いたImagenetの学習を行うことで,バッチサイズ64kでの学習にも成功している.結果としてLook-LayerSAMを用いたViTsによるImagenetの学習は元論文の1/8の時間で学習が完了した.

その他(なぜ通ったか?等)