Google的激活函数Swish是怎么设计出来的?

Google的激活函数Swish为,

$\sigma(x)$可以看做是控制$x$流通程度的阀门,那么它是怎么设计出来呢?

接着上一篇的思路Sigmoid函数导出的另外一个角度,我们获得导出Google的激活函数Swish的一个思路。首先我们知道Heaviside step函数的分段式定义,

于是激活函数$\operatorname{relu}(x)$可以使用它定义,

沿着上一篇文章的思路容易获得激活函数Swish的导出,

于是有,

也就是说,Google的激活函数Swish是激活函数$\operatorname{relu}(x)$的光滑近似,这样导出的激活函数在$x = 0$处是可微的。

类似地,考虑函数光滑近似(1):maximum函数中的结论,

取$x_1 = 0, x_2 = x$​​有特例,

$\alpha=1$即得激活函数Swish。

总结

本文从光滑近似的角度给出Google的激活函数Swish的导出思路。

转载请包括本文地址:https://allenwind.github.io/blog/9999
更多文章请参考:https://allenwind.github.io/blog/archives/