- …
- …
#768
summarized by : Kiro Otsu
どんな論文か?
予測精度だけでなく、モバイル端末での推論遅延も考慮し、微分可能なNAS(DNAS)を使ってアーキテクチャを探索する手法の提案。1レイヤーに複数種類のブロック構造が全て並列に接続されているSuper Netを作り、各レイヤーの出力は全ての構造の重み付き和とする。Gumbelソフトマックスを使うことでどのブロックを選ぶことが性能向上につながるかを勾配で予測。また、レイテンシを考慮したロス関数を持つ。
新規性
Gumbel Softmaxを用いることで、強化学習を使わずに微分可能な問題としてNASを解いている。そのため探索コストが低い。
デバイスごとに、ルックアップテーブルに各ブロックのレイテンシを登録しておくことで、最終的に選ばれたアーキテクチャの遅延を予測している。これによって精度だけでなく推論速度も考慮した探索を可能にしている。
結果
他の強化学習を用いたNASや、手動での調整による強力なモデルと同等の性能で、比較的レイテンシの低いモデルを探索できた。ネットワーク探索にかかる時間は、強化学習を用いた手法に比べると200~400倍速い。
その他(なぜ通ったか?等)
- …
- …