GAUSSIAN ERROR LINEAR UNITS (GELUs) 2016
October 21, 2023GAUSSIAN ERROR LINEAR UNITS (GELUs)は、標準正規分布の累積分布関数を\(\Phi(x)\)とおくと、\(\text{GELU}(x)=x\Phi(x)\)で定義される活性化関数である。 GELUsは、Dropout, Zoneout, \(\text{ReLU}(x)=\max(0, x)\)の性質を兼ね備える。 Zoneoutは、RNNむけの正則化であり、ユニットが一つ前の状態を確率的に維持するしくみである。 ReLUは、非線形性により、ニューラルネットワークを非線形関数に近似できる。 ZoneoutやDropoutは正則化の役割をはたす。 ReLUsの出力が入力に依存する一方で、Dropoutの出力は入力に依存しない。 GELUsは、確率\(\Phi(x)\)で1をとるベルヌーイ分布にしたがう0-1マスクを人工ニューロンへの入力に適用することで、非線形関数への近似と正則化の両方を実現する。
GELUsには、ニューラルネットワークの出力を決定的にする効果もある。 人工ニューロンへの入力を\(x\)とすると、GeLUsの適用後の出力の期待値は\(\Phi(x)\times Ix + (1-\Phi(x))\times 0x=x\Phi(x)\)になる。
$$ \text{GELU}(x)=xP(X\le x)=x\cdot \frac{1}{2}\left[1+\text{erf}(x/\sqrt{2})\right] $$ は $$ 0.5x(1+\tanh\left[\sqrt{2/\pi}(x+0.044715x^3)\right]) $$ に近似できる。