2021
- 2021-10-16分析与拓展:Transformer中的MultiHeadAttention为什么使用scaled?
- 2021-10-09机器学习之分类问题的评估指标总结
- 2021-09-11天马行空:设计自己的激活函数
- 2021-08-24引入参数控制softmax的smooth程度
- 2021-08-23分析与拓展:多分类模型的输出为什么使用softmax?
- 2021-08-15GELU由来:从狄拉克函数到GELU激活函数
- 2021-06-08分析Mish激活函数的设计思路
2020
- 2020-11-11使用神经网络进行分布变换
- 2020-09-21漫谈注意力机制(七):Transformer模型之BERT、BERT-wwm、RoBERTa、ALBERT简述
2019
- 2019-08-30从函数光滑近似的角度统一理解激活函数
- 2019-08-17磁盘故障预测思路和有关论文(更新)
- 2019-05-18softmax:建立hard-attention到soft-attention的桥梁
- 2019-05-05集成回归的有效性证明(更新)
- 2019-04-26Google的激活函数Swish是怎么设计出来的?
- 2019-03-20深入理解神经网络中的Padding和Masking
- 2019-03-09漫谈注意力机制(六):Transformer与位置信息
- 2019-03-07漫谈注意力机制(五):自注意力与Transformer
- 2019-03-06漫谈注意力机制(四):注意力机制的退化之AttentionPooling
- 2019-03-05漫谈注意力机制(三):全局注意力与局部注意力
- 2019-03-04漫谈注意力机制(二):硬性注意力机制与软性注意力机制
- 2019-03-03漫谈注意力机制(一):人类的注意力和注意力机制基础
- 2019-03-01漫谈序列编码:MLP、CNN、RNN
- 2019-01-31优化算法系列(5):SGD改进之Adam一个综合方案和派生(更新)
2018
- 2018-12-21优化算法系列(4):SGD改进之自适应学习率调整
- 2018-12-17优化算法系列(3):SGD改进之梯度估计修正
- 2018-12-16优化算法系列(2):深入讨论SGD及其改进思路
- 2018-12-14优化算法系列(1):梯度下降算法与推导
- 2018-11-27深入理解CNN及其网络架构设计
- 2018-11-20深度学习中的参数初始化及其数学分析
- 2018-11-11概率图模型系列(5):条件随机场CRF
- 2018-11-09概率图模型系列(4):MEMM
- 2018-11-07概率图模型系列(3):隐马尔可夫模型(HMM)
- 2018-11-04概率图模型系列(2):最大熵原理和最大熵模型
- 2018-11-03概率图模型系列(1):朴素贝叶斯分类器
- 2018-10-30范数正则化的原理分析(二):参数约束与最大熵原理
- 2018-10-29范数正则化的原理分析(一):贝叶斯学派角度
- 2018-10-25集成分类的有效性证明
- 2018-10-15Logistic模型及其推广
- 2018-09-19交叉验证和数据泄漏
- 2018-09-10机器学习中分类与回归问题常用的损失函数