#199
summarized by : Anonymous
GLiT: Neural Architecture Search for Global and Local Image Transformer

どんな論文か?

Image TransformerをNeural Architecture Searchにより生成する手法の1つとして提案。従来手法のDeiTよりも、小、中、大の構造の大きさで、精度を向上させている。ブロックとしては従来からの畳み込みを利用したTransformerを利用し、構造の大きさを階層型のNueral Architecture Searchを利用して規模を抑えている。

新規性

構成方法として、2段階構成となっている。最初の段階として、ネットワーク構造の最小構成であるブロックの内容(フィードフォワード層、self attention層、畳み込み層)を決定する部分と、最適な組み合わせを見つけ出す階層型Nueral Architecture Search部分からなる。このフレームワークにより自動的にTransformerを構成することに新規性がある。

結果

データセットとしてImageNetを利用。比較対象として、以前のこの手の手法であるDeiTと比較している。結果としてDeiTよりも精度(76.3%)及び処理速度(1.4GFlops)において高性能の結果を得ている。

その他(なぜ通ったか?等)