max函数光滑逼近:一种与softmax相关的形式
一个关于max函数光滑逼近,其特例居然和均值、tanh函数、Logistics函数相关!
Transformer模型所依赖的Attention本身不具备像RNN一样的天生的对序列位置编码能力,需要借助所谓的Position Embedding来解决位置信息问题。本文总结常见的Position Embedding方案。
现在系统默认的gcc版本越来越高了,有时候我们编译某些项目需要版本更低的gcc,一种方案是使用Docker创建虚拟gcc环境,然后把编译的内容mount到container内。另外一种思路是使用Linux中的alternatives。本文介绍这种思路。
神经网络强大的表示能力应该归功于网络模型中的激活函数,深度学习中,很多数学形式其实都是光滑逼近的结果。比如激活函数,sigmoid、swish、gelu、softplus,这里从光滑近似的角度统一理解激活函数。
更新:Transformer使用的激活函数GELU。