Xuran Pan; Chunjiang Ge; Rui Lu; Shiji Song; Guanfu Chen; Zeyi Huang; Gao Huang
畳み込みと自己注意機構の計算について、
1.両方とも初期段階1×1畳み込み演算の計算に分解できる。
2.初期段階の計算量が圧倒的に大きい。と観察
そこで本論文がACmixを提案。
ACmixのステージⅠで1×1畳み込み演算で、ステージIIに結果を渡す。
その後、ステージIIで畳み込みと自己注意機構の初期段階以外の計算をそれぞれ進め、
最後に2つの計算結果を足し合わせて出力とする。
新しい畳み込みと自己注意機構の融合方法を提案した。
画像認識と関連タスクにおいて、モデル性能が改善されたと示した。