#293
summarized by : Obi
Generating Accurate Pseudo-Labels in Semi-Supervised Learning and Avoiding Overconfident Predictions via Hermite Polynomial Activations

どんな論文か?

活性化関数にエルミート多項式を利用した場合の、数値解析及び理論解析を行った論文。ReLUと比較して学習の立ち上がりの速さに着目し、Pseudo-labellingを用いた半教師有り学習に適用した結果、テスト精度の向上と計算コストの削減を達成している。また、学習データから大きく外れたデータに対して、エルミート多項式を用いた場合は予測確率が一様に近づくことを数学的に示している。
placeholder

新規性

浅いネットワークについてエルミート多項式を活性化関数に利用した場合の解析は既に研究されているが、実用的なネットワークでの性能解析は新しい。また、エルミート多項式を用いた場合の利点(学習初期の立ち上がりの速さ)を活用し、半教師有り学習に適用して検証を行っている。

結果

教師ありの分類タスクにおいては、学習の立ち上がりはエルミート多項式の方が速いが、最終的な精度はReLUの方が高く、教師あり学習では明確なメリットが少ない。しかし、半教師有り学習においては、精度及び計算コストの両面においてエルミート多項式の方が優れているという結果になった。

その他(なぜ通ったか?等)

エルミート多項式とReLUとの比較においてメリット/デメリットを明確に議論しており分かりやすい。また計算コストに関してEpoch数だけでなく1epochあたりの時間も比較し、AWSでのコストも出しているのは親切。ただ後半のノイズへの頑健性の議論や数値実験はおそらくsupplementに回されており詳細が不明。