频率学派与贝叶斯学派之争

频率学派与贝叶斯学派在参数估计中分别对应最大似然估计（MLE）与最大后验估计（MAPE），它们都是机器学习和数理统计中常见的参数估计方法。今天我们先分析一下频率学派与贝叶斯学派的出发点和基本思想差异。

频率学派的极大似然估计（MLE）

首先我们从频率学派的最大似然预计（MLE）出发，然后从若干角度理解该参数估计方法的机理。极大似然估计（MLE）是一种参数估计方法，在假定样本数据独立同分布情况下，求出似然函数极大值时的参数，该参数即为样本数据分布函数的参数的一个估计值。

假设有概率分布$f(x, \theta)$，从该分布中采样$n$个样本$x_{1}, \dots, x_{n}$。易得似然函数，

$L_{n}(x_1,\dots, x_{n}, \theta) = \prod_{i=1}^{n} f(x_{i}, \theta)$

MLE寻找让似然函数最大的参数，即，

$\hat {\theta }=\underset {\theta \in \Theta }{\operatorname {arg\;max} } \; L_{n}(x_1,\dots, x_{n}, \theta)$

也就是在假定$\theta$固定但未知的情况下，求最值。这个思路很直观吧，但是贝叶斯学派的最大后验估计方法则有点让人吃惊。

贝叶斯学派的最大后验估计（MAPE）

以上的讨论让我们意识到频率学派的最大似然估计（MLE）对参数的基本假设是，参数是一个未知但固定的常数。贝叶斯学派的最大后验估计（MAPE）则认为，参数并不是一个固定的常数，而是一个未知的随机变量，服从一个概率分布，称为先验分布。有概率分布$f(x, \theta)$，从该分布中采样$n$个样本$x_{1}, \dots, x_{n}$。这里假设参数$\theta$的先验分布为$h(\theta)$，那么根据贝叶斯公式，参数$\theta$的后验分布为，

$h(\theta | x_1, \dots, x_n) = \frac{h(\theta) f(x_1, \theta) \cdots f(x_n, \theta)}{p(x_1, x_2, \dots, x_n)}$

这里，

$p(x_1, x_2, \dots, x_n) = \int_{\Theta}h(\theta) f(x_1, \theta) \cdots f(x_n, \theta) \; d\theta$

考虑到参数$\theta$的后验分布是一个函数，那么实际使用中，需要$\theta$的具体值，那么后验分布的均值或众数或中位数（posterior mean、posteriormode、posterior median）也可以，这个使用的选择性比较灵活。例如，后验分布的众数可以表示为，

$\begin{align} \hat{\theta} &= \arg \max_{\theta} \; \frac{h(\theta) f(x_1, \theta) \cdots f(x_n, \theta)}{\int_{\Theta}h(\theta) f(x_1, \theta) \cdots f(x_n, \theta) \; d\theta} \newline &= \arg \max_{\theta} \; h(\theta) f(x_1, \theta) \cdots f(x_n, \theta) \end{align}$

这里后验分布的分母与$\theta$无关，所有可以去掉。这里也可以看到，当$h(\theta) = \text{const}$时，极大似然估计等价于最大后验估计。换句话说，极大似然估计等价于先验分布为均匀分布的最大后验估计。

频率学派与贝叶斯学派之争

机器学习中各模型的学习过程实质上是通过已有数据计算给定模型的未知参数，对于统计模型，学习过程则是一个参数估计问题。在统计学上，参数估计分为两大类方法：

频率方法
贝叶斯方法

这两种方法对未知参数的看待有着本质的区别。

频率学派

在参数估计中，频率学派统计学的观点是，分布函数（或密度函数）中的真实参数未知但为定值，通过对样本数据的计算就可以获得这个真实参数的估计值。具体的做法是使用最大似然估计，大致思路如下：假定数据集（样本）是独立同分布，计算数据集的联合概率分布，由于数据是独立同分布，那么计算结果为各样本点分布函数的乘积，称为似然函数。有时候为了方便计算，会对似然函数取对数。使似然函数取最大值的参数即为我们要估计的参数，称为最大似然估计量。

直观上很容易理解这种参数估计方法，即似然函数取得极大值的估计参数是获得这样的样本观察结果的原因，如果不是这样的参数就不会有这样的观察结果。换句话说，已经取得这样的观察样本，是因为观察到这样的样本的概率很大，即似然函数很大。

然而，观察样本的可能组合非常大，甚至无穷，最大似然估计量依赖于观察的样本，怎样能够保证最大似然估计取得的估计量接近真实的参数值？我们有什么理由认为它是合理的？

可是观察结果有很多种（每次观察都可以看做是随机过程的一个样本函数），怎样保证参数是唯一的。于是就有了参数的区间估计。根据频率学派的观点，真实分布的参数是固定。于是，估计参数的不确定性是观察导致的，既然如此，我们有什么理解相信基于极大似然估计得到的参数是有效的。

换个角度看，我们要找一个尽可能和真实数据生成分布相近的分布。在信息论上，相对熵的概念可以度量两个分布之间的差异。根据定义，在真实分布确定但未知的情况下，让相对熵最少就是让带寻找的分布函数最大（似然函数）。

贝叶斯学派

类似地，在贝叶斯学派中有类似的方法，最大后验估计，贝叶斯学派在抽样前对参数$\theta$就有了解，称为先验信息，该参数可以用一个概率分布$p(\theta)$来描述。$p(\theta)$的具体形式事先必须给出。

贝叶斯学派与频率学派在参数估计中的差异可以用下表概况，

学派	参数特点	代表方法
频率主义学派	未知但为定值	距估计、最大似然估计
贝叶斯学派	随机变量但服从先验分布	贝叶斯估计

然而，贝叶斯学派却拒绝回答中间结果的现实意义，如果使用频率学说解释，那么就跳进频率学派的基本观点上。这大概就是贝叶斯学派被频率学派抓到的把柄。

一点联想

参数估计的频率学派与贝叶斯学派的争议，容易让人联想到量子力学中两个学派的争议，

学派	波函数意义
正统学派	测量本身创造这种统计分布
现实主义学派	物理系统在测量之前就存在统计分布

总结

本文介绍了参数估计中常见的最大似然估计（MLE）与最大后验估计（MAPE），并对比频率学派与贝叶斯学派的出发点和基本思想差异。

参考

[1] 《概率论与数理统计》陈希孺

[2] 《数理统计学教程》陈希孺

[3] https://www.cs.ox.ac.uk/people/varun.kanade/teaching/ML-MT2016/lectures/lecture03.pdf