最大熵原理角度看参数约束

统计约束与最大熵分布

概率分布$p(x)$若满足如下约束,

那么,其最大熵分布为正太分布。通常参数以0为均值中心,因此$\operatorname {E} [x]=\mu = 0$​。​

概率分布$p(x)$若满足如下约束,

那么,其最大熵分布为拉普拉斯分布。通常参数以0为均值中心,因此$\mu=0, \operatorname {E} [|x|]=b$。

这方面的详细内容见过去文章最大熵原理、最大熵约束与概率分布

最大熵视角

引入$L_1$范数正则化的模型,相当于假设参数的先验分布为拉普拉斯分布,那么从最大熵分布的角度看,相当于要求参数满足约束$\operatorname {E} [|x|]=b$下熵最大的模型。

引入$L_2$范数正则化的模型,相当于假设参数的先验分布为正态分布,那么从最大熵分布的角度看,相当于要求参数满足约束$\operatorname {E} [x]=\mu ,\; \operatorname {E} [(x-\mu)^{2}]=\sigma^{2}$下熵最大的模型。

总结

感觉未完,待续~

转载请包括本文地址:https://allenwind.github.io/blog/7576
更多文章请参考:https://allenwind.github.io/blog/archives/