平凡的贝叶斯公式竟然蕴含归纳推理的思想。

贝叶斯公式

贝叶斯公式,从数学上看再平凡不过,只不过是条件概率的推论而已,

其中,

该式称为全概率公式,使用边缘概率分布和条件概率获得。从纯数学的角度可以证明贝叶斯公式,根据条件概率定义,

如果你没有被以上吓到,再把上式代入贝叶斯公式看看,

无非就是条件概率定义的推论而已,但是其现实意义相当深刻,

根据历史观察和先验假设,推断导致某事件发生的原因。

写成分类器的形式,

连续情况

在概率图模型中,有两类变量,一类是可观察变量集(具体的数据),用 $x$ 表示;一类是不可观察变量集,用 $z$ 表示。那么这两类变量的联合分布为 $p(x,z)$。现在的问题是,在获得观察样本 $x$ 的情况下,如何计算 $p(z|x)$ ? 即知道观察样本的情况下计算不可观察变量的后验分布。事实上,这涉及到贝叶斯公式(积分形式):

$p(z)$ 称为先验分布。

在贝叶斯主义下,统计推断问题就是在知道样本 ​ ,样本的分布簇 ​ 使用 ​ 去推断 ​ 。这里,F 给我们提供一种和 ​ 无关的知识,但对推断 ​ 有用。样本 X 给我们提供另外一种知识,它包含关于 ​ 的知识.

为了计算 ​ ,我们需要做两件事:

  • 确定 的先验分布 (参数空间中的任一分布)
  • 计算 的后验分布

我们可以看到,后验分布综合了先验知识和观察样本知识。有了后验分布后,接下来贝叶斯的处理方法和频率主义的处理方法类似,可以用于解决点估计问题,假设检验,区间估计。

从贝叶斯统计来看,分布的未知参数和隐变量都是随机变量, 因此可以一并纳入到隐变量中统一处理。假定隐变量的先验分布服从 $z \sim p(z)$,则在观察到样本 $ { x_{i} \sim p(x)| i=1,2,3,..,N}$ 情况下,隐变量的后验分布可表示为

通常情况下,上式的求解及其困难。

在具体的问题中,隐变量可以是类别,如果我们把特征条件独立假设加入其中,那么上式就成了朴素贝叶斯法。如果我们不承认特征条件独立这个假设,就得另外想办法。此处的困难主要在计算上,式子积分部分精确求解十分困难。在统计推断中,如果未知分布不带隐变量,可以通过极大似然估计方法计算未知参数。但是,如果未知分布带有隐变量,则无法直接通过极大似然估计来计算未知参数。这种情况下,有两种解决思路:

  1. 采样法,使用随机化方法计算积分的近似值
  2. 变分法,使用简单的分布来逼近复杂的后验分布

变分法进行近似的一般形式如下,

对比

离散贝叶斯公式和连续贝叶斯公式对比,

问题 先验分布 观察事件 后验分布
离散贝叶斯公式 事件$Z_{1},\dots,Z_{n}$分别发生的概率是? $P(Z_{i}) = p_{i}$ 事件X发现 $P(Z_{i} X)$
连续贝叶斯公式 $\theta$的后验概率分布是? $h(\theta)$ 获得样本$X_{1},\dots,X_{n}$ 后验概率密度公式

(似乎表格上的LaTeX无法渲染?)

计算之难

贝叶斯理论虽然优美,但计算后验分布十分困难。

上式其实还包括概率密度函数的参数,不过在贝叶斯框架下,参数也是一种未知的变量,可以合并到隐变量中。于是,问题就变成:数据+隐变量先验分布计算隐变量的后验分布。这个过程我们也称为统计推断。

机器学习和深度学习并不仅限于数学形式的表示,还要计算具体的值以解决应用问题。最直观的思路是求出积分的解析形式,然后把数据代入。但是,精确计算上式中后验分布十分困难,主要的困难在分母部分涉及到积分计算。所以我们考虑使用近似方法。

通过MCMC或变分法计算,前者是近似方法,后者是分析方法,后期有时间再分享。

转载请包括本文地址:https://allenwind.github.io/blog/6538
更多文章请参考:https://allenwind.github.io/blog/archives/