神经的贝叶斯公式
平凡的贝叶斯公式竟然蕴含归纳推理的思想。
贝叶斯公式
贝叶斯公式,从数学上看再平凡不过,只不过是条件概率的推论而已,
其中,
该式称为全概率公式,使用边缘概率分布和条件概率获得。从纯数学的角度可以证明贝叶斯公式,根据条件概率定义,
如果你没有被以上吓到,再把上式代入贝叶斯公式看看,
无非就是条件概率定义的推论而已,但是其现实意义相当深刻,
根据历史观察和先验假设,推断导致某事件发生的原因。
写成分类器的形式,
连续情况
在概率图模型中,有两类变量,一类是可观察变量集(具体的数据),用 $x$ 表示;一类是不可观察变量集,用 $z$ 表示。那么这两类变量的联合分布为 $p(x,z)$。现在的问题是,在获得观察样本 $x$ 的情况下,如何计算 $p(z|x)$ ? 即知道观察样本的情况下计算不可观察变量的后验分布。事实上,这涉及到贝叶斯公式(积分形式):
$p(z)$ 称为先验分布。
在贝叶斯主义下,统计推断问题就是在知道样本 ,样本的分布簇 使用 去推断 。这里,F 给我们提供一种和 无关的知识,但对推断 有用。样本 X 给我们提供另外一种知识,它包含关于 的知识.
为了计算 ,我们需要做两件事:
- 确定 的先验分布 (参数空间中的任一分布)
- 计算 的后验分布
我们可以看到,后验分布综合了先验知识和观察样本知识。有了后验分布后,接下来贝叶斯的处理方法和频率主义的处理方法类似,可以用于解决点估计问题,假设检验,区间估计。
从贝叶斯统计来看,分布的未知参数和隐变量都是随机变量, 因此可以一并纳入到隐变量中统一处理。假定隐变量的先验分布服从 $z \sim p(z)$,则在观察到样本 $ { x_{i} \sim p(x)| i=1,2,3,..,N}$ 情况下,隐变量的后验分布可表示为
通常情况下,上式的求解及其困难。
在具体的问题中,隐变量可以是类别,如果我们把特征条件独立假设加入其中,那么上式就成了朴素贝叶斯法。如果我们不承认特征条件独立这个假设,就得另外想办法。此处的困难主要在计算上,式子积分部分精确求解十分困难。在统计推断中,如果未知分布不带隐变量,可以通过极大似然估计方法计算未知参数。但是,如果未知分布带有隐变量,则无法直接通过极大似然估计来计算未知参数。这种情况下,有两种解决思路:
- 采样法,使用随机化方法计算积分的近似值
- 变分法,使用简单的分布来逼近复杂的后验分布
变分法进行近似的一般形式如下,
对比
离散贝叶斯公式和连续贝叶斯公式对比,
问题 | 先验分布 | 观察事件 | 后验分布 | ||
---|---|---|---|---|---|
离散贝叶斯公式 | 事件$Z_{1},\dots,Z_{n}$分别发生的概率是? | $P(Z_{i}) = p_{i}$ | 事件X发现 | $P(Z_{i} | X)$ |
连续贝叶斯公式 | $\theta$的后验概率分布是? | $h(\theta)$ | 获得样本$X_{1},\dots,X_{n}$ | 后验概率密度公式 |
(似乎表格上的LaTeX无法渲染?)
计算之难
贝叶斯理论虽然优美,但计算后验分布十分困难。
上式其实还包括概率密度函数的参数,不过在贝叶斯框架下,参数也是一种未知的变量,可以合并到隐变量中。于是,问题就变成:数据+隐变量先验分布计算隐变量的后验分布。这个过程我们也称为统计推断。
机器学习和深度学习并不仅限于数学形式的表示,还要计算具体的值以解决应用问题。最直观的思路是求出积分的解析形式,然后把数据代入。但是,精确计算上式中后验分布十分困难,主要的困难在分母部分涉及到积分计算。所以我们考虑使用近似方法。
通过MCMC或变分法计算,前者是近似方法,后者是分析方法,后期有时间再分享。
转载请包括本文地址:https://allenwind.github.io/blog/6538
更多文章请参考:https://allenwind.github.io/blog/archives/