如何入参数控制softmax的smooth程度?

上一篇多分类模型的输出为什么使用softmax?中分析了多分类模型的输出为什么使用softmax?其中包括softmax的导出过程,该推导过程只要稍加修改就可以很自然地导出带参数能够控制softmax光滑程度的版本。

这里使用到max的一光滑逼近形式,

具体推导如下,

以上推导的关键要点是把logsumexp的参数例如其中。这个结果还是符合直觉的,通过$\alpha$来控制$\alpha \boldsymbol{x}$,进而控制$\operatorname{softmax}(\boldsymbol{x})$​​​​的光滑程度。

事实上,在激活函数中,也是类似的操作,

这个应用在GELU激活函数中有特例$\alpha = 1.702$,

这个结果在Attention中有重要应用,

这里$\alpha$为,

总结

本文提供一种引入参数控制softmax的smooth程度的导出思路,事实上,光靠数学直觉也能知道如何引入参数,不过多种思路多种理解。

转载请包括本文地址:https://allenwind.github.io/blog/15205
更多文章请参考:https://allenwind.github.io/blog/archives/