本文证明常用的概率或信息论相关的不等式,会持续更新~

k-$\sigma$ Rule

对于随机变量$X$,如果满足正态分布$N(\mu, \sigma^2)$,那么有

它的证明使用累积分布函数即可,如对于$2\sigma$区间来说,

其中,

这个不等式可以用于异常处理,例如数据服从正态分布,或者通过一定的处理后服从正态分布,那么数据的取值落到区间$[\mu - 3\sigma, \mu + 3\sigma]$外的概率为$1 - 99.73\%$,是极小概率,可以认为是异常值。

马尔可夫不等式

假设非负随机变量$X$有概率密度函数 $f(x)$定义在$\Omega$上,根据连续概率分布的均值定义,有,

这里$U = [\alpha, \infty), \Omega=[0, \alpha)$有特例。

于是有,

这是一个很强的定理,不需要假设 $f(x)$ 是具体的分布的概率密度函数。取$\mathbf{E}[X] = \mu, \alpha = 5\mu$,有

换成一个具体的语境来说是,不超过五分之一的人数收入超过平均水平的五倍。

不过马尔可夫不等式要求随机变量非负,这对于很多概率分布来说并不满足,如正态分布。那怎么办呢?一种技巧就是引入绝对值,这是一会提到的切比雪夫不等式的处理技巧,另外一种技巧是引入指数变换,因为指数变换总是非负的。以上要求$x \ge \alpha \gt 0$,那么任给$\lambda \gt 0$​有,

代入到马尔可夫不等式中,有

最后一部分是因为理论上只要$\lambda \gt 0$即可,因此为了获得更高的近似估计精度,不等式右端应该取最小值。

马尔可夫不等式可以用来推导切比雪夫不等式。

切比雪夫不等式

对于随机变量$X$,有均值和方差分别为$\mu, \sigma^2$,切比雪夫不等式为,

另外一种相似的形式,

证明,

这里$I$值指示函数。

如果只考虑单边情况,有更一般化的形式,称为Cantelli’s inequality,

Gibbs 不等式

Gibbs 不等式,

容易证明,

这不就是 KL 散度大于等于 0 的证明!

Jensen 不等式

凸函数有一个直观的几何性质,即凸函数两点间的割线在该区间函数上方,可以用数学表示,

这是实函数版本。其概率论版本如下,

基于 Jensen 不等式还能导出很多有趣的不等式。EM算法的推导也涉及 Jensen 不等式。

Hoeffding 不等式

Hoeffding 不等式可以参考资料Hoeffding’s inequality

负熵不等式

负熵不等式,

考虑到熵$H(x)$​的凹性,使用 Jensen 不等式容易证得。

大数定理

有 Weak law,

使用切比雪夫不等式易得,

另外,Strong law 如下,

数据处理不等式

设有马尔可夫链,

根据信息论,

该不等式称为数据处理不等式。

在理论上说明,机器学习或深度学习任务中,data pipeline对信息的损失只增不减,这启发我们不要对数据过度处理。这正好印证匈牙利数学家科尼利厄斯·兰佐斯的一句话:任何数学技巧都不能弥补信息的缺失

参考

[1] https://en.wikipedia.org/wiki/Fano%27s_inequality

[2] https://en.wikipedia.org/wiki/Chernoff_bound

[3] Hoeffding’s inequality

[4]《信息论基础》

[5] https://en.wikipedia.org/wiki/Jensen%27s_inequality

转载请包括本文地址:https://allenwind.github.io/blog/6631
更多文章请参考:https://allenwind.github.io/blog/archives/