#2
summarized by : 後藤啓太
Accelerating Sparse Matrix Operations in Neural Networks on Graphics Processing Units

概要

従来の機械翻訳モデルではビームサーチに用いられるSoftmax計算とTop-N計算が処理時間の多くを占めていた。本研究ではスパース行列に対して、その乗算と、SoftmaxとTop-Nを同時にGPUで計算できる挿入ソートを元にしたアルゴリズムを提案している。
placeholder

新規性

機械翻訳のためにスパースな行列に絞ってアルゴリズムを考案・検証している。

結果

乗算ではcuBLASやcuSPARSEを上回る性能だったが、スパース性が低く低性能なGPUを用いた場合はcuSPARSEの方が結果が良い。また、SoftmaxとTop-N計算では従来のSOTAを上回ったが、こちらもTop-NのNが大きい場合は従来手法の方が良い。