#694
summarized by : Motokawa Tetsuya
Large-Scale Distributed Second-Order Optimization Using Kronecker-Factored Approximate Curvature for Deep Convolutional Neural Networks

どんな論文か?

二次最適化手法の1つであるKFACを分散学習に対応させ、ImageNetを用いたResNet50の学習に利用した
placeholder

新規性

計算量の大きい二次最適化を大規模なデータセットとネットワークに対応できるDistributed KFAC Optimizerの開発 大規模な学習に二次最適化を適用する際の様々なテクニックの提案 以下にそのテクニックを簡略に示す - Data Augmentation - フィッシャー情報行列の固有値分布の改善 - 学習率の再スケジューリング - KFACのパラメータ更新にmomentumを利用

結果

非常に大きなミニバッチを用いたImageNet分類によるResNet50の訓練のための一次確率勾配降下法(SGD)に対するKFACの利点を示した

その他(なぜ通ったか?等)

F1