引入参数控制softmax的smooth程度
文章目录
如何入参数控制softmax的smooth程度?
上一篇多分类模型的输出为什么使用softmax?中分析了多分类模型的输出为什么使用softmax?其中包括softmax的导出过程,该推导过程只要稍加修改就可以很自然地导出带参数能够控制softmax光滑程度的版本。
这里使用到max的一光滑逼近形式,
具体推导如下,
以上推导的关键要点是把logsumexp的参数例如其中。这个结果还是符合直觉的,通过$\alpha$来控制$\alpha \boldsymbol{x}$,进而控制$\operatorname{softmax}(\boldsymbol{x})$的光滑程度。
事实上,在激活函数中,也是类似的操作,
这个应用在GELU激活函数中有特例$\alpha = 1.702$,
这个结果在Attention中有重要应用,
这里$\alpha$为,
总结
本文提供一种引入参数控制softmax的smooth程度的导出思路,事实上,光靠数学直觉也能知道如何引入参数,不过多种思路多种理解。
转载请包括本文地址:https://allenwind.github.io/blog/15205
更多文章请参考:https://allenwind.github.io/blog/archives/