漫谈概率论与信息论中的不等式
本文证明常用的概率或信息论相关的不等式,会持续更新~
k-$\sigma$ Rule
对于随机变量$X$,如果满足正态分布$N(\mu, \sigma^2)$,那么有
它的证明使用累积分布函数即可,如对于$2\sigma$区间来说,
其中,
这个不等式可以用于异常处理,例如数据服从正态分布,或者通过一定的处理后服从正态分布,那么数据的取值落到区间$[\mu - 3\sigma, \mu + 3\sigma]$外的概率为$1 - 99.73\%$,是极小概率,可以认为是异常值。
马尔可夫不等式
假设非负随机变量$X$有概率密度函数 $f(x)$定义在$\Omega$上,根据连续概率分布的均值定义,有,
这里$U = [\alpha, \infty), \Omega=[0, \alpha)$有特例。
于是有,
这是一个很强的定理,不需要假设 $f(x)$ 是具体的分布的概率密度函数。取$\mathbf{E}[X] = \mu, \alpha = 5\mu$,有
换成一个具体的语境来说是,不超过五分之一的人数收入超过平均水平的五倍。
不过马尔可夫不等式要求随机变量非负,这对于很多概率分布来说并不满足,如正态分布。那怎么办呢?一种技巧就是引入绝对值,这是一会提到的切比雪夫不等式的处理技巧,另外一种技巧是引入指数变换,因为指数变换总是非负的。以上要求$x \ge \alpha \gt 0$,那么任给$\lambda \gt 0$有,
代入到马尔可夫不等式中,有
最后一部分是因为理论上只要$\lambda \gt 0$即可,因此为了获得更高的近似估计精度,不等式右端应该取最小值。
马尔可夫不等式可以用来推导切比雪夫不等式。
切比雪夫不等式
对于随机变量$X$,有均值和方差分别为$\mu, \sigma^2$,切比雪夫不等式为,
另外一种相似的形式,
证明,
这里$I$值指示函数。
如果只考虑单边情况,有更一般化的形式,称为Cantelli’s inequality,
Gibbs 不等式
Gibbs 不等式,
容易证明,
这不就是 KL 散度大于等于 0 的证明!
Jensen 不等式
凸函数有一个直观的几何性质,即凸函数两点间的割线在该区间函数上方,可以用数学表示,
这是实函数版本。其概率论版本如下,
基于 Jensen 不等式还能导出很多有趣的不等式。EM算法的推导也涉及 Jensen 不等式。
Hoeffding 不等式
Hoeffding 不等式可以参考资料Hoeffding’s inequality。
负熵不等式
负熵不等式,
考虑到熵$H(x)$的凹性,使用 Jensen 不等式容易证得。
大数定理
有 Weak law,
使用切比雪夫不等式易得,
另外,Strong law 如下,
数据处理不等式
设有马尔可夫链,
根据信息论,
该不等式称为数据处理不等式。
在理论上说明,机器学习或深度学习任务中,data pipeline对信息的损失只增不减,这启发我们不要对数据过度处理。这正好印证匈牙利数学家科尼利厄斯·兰佐斯的一句话:任何数学技巧都不能弥补信息的缺失。
参考
[1] https://en.wikipedia.org/wiki/Fano%27s_inequality
[2] https://en.wikipedia.org/wiki/Chernoff_bound
[4]《信息论基础》
[5] https://en.wikipedia.org/wiki/Jensen%27s_inequality
转载请包括本文地址:https://allenwind.github.io/blog/6631
更多文章请参考:https://allenwind.github.io/blog/archives/