信息论视角的极大似然估计

本文介绍从信息论视角理解极大似然估计（MLE）

极大似然估计

首先我们从频率学派的最大似然预计（MLE）出发，然后从若干角度理解该参数估计方法的机理。极大似然估计（MLE）是一种参数估计方法，在假定样本数据独立同分布情况下，求出似然函数极大值时的参数，该参数即为样本数据分布函数的参数的一个估计值。

假设有概率分布$f(x, \theta)$，从该分布中采样$n$个样本$x_{1}, \dots, x_{n}$。易得似然函数，

$L_{n}(x_1,\dots, x_{n}, \theta) = \prod_{i=1}^{n} f(x_{i}, \theta)$

MLE寻找让似然函数最大的参数，即，

$\hat {\theta }=\underset {\theta \in \Theta }{\operatorname {arg\;max} } \; L_{n}(x_1,\dots, x_{n}, \theta)$

也就是在假定$\theta$固定但未知的情况下，求最值。这个思路很直观吧。

信息论视角的极大似然估计

假设样本采样$x_{1}, \dots, x_{n}$采样自$p(x; \theta)$。$q(x)$是数据的经验分布，使用狄拉克函数可以紧凑地表示，

$q(x)=\sum _{i=1}^{n}p_{i}\delta (x-x_{i})$

那么有如下推导，

$\begin{align} \hat{\theta} &= \arg \max_{\theta} \prod_{i=1}^{n} p(x_i; \theta) \\ &= \arg \max_{\theta} \sum_{i=1}^{n} \log(p(x_i; \theta)) \\ &= \arg \max_{\theta} \frac{1}{n} \sum_{i=1}^{n} \log(p(x_i; \theta)) - \frac{1}{n} \sum_{i=1}^{n} \log(q(x_{i})) \\ &= \arg \min_{\theta} \frac{1}{n} \sum_{i=1}^{n} \log \frac{q(x_i)}{p(x_i;\theta)} \\ &\approx \arg \min_{\theta} \int q(x) \log \frac{q(x_i)}{p(x_i;\theta)} dx \\ &= \arg \min_{\theta} \operatorname{KL}(q \Vert p) \end{align}$

这里KL散度的定义是，

$D_{\mathrm {KL}}(p(x)\|q(x))=\int _{-\infty }^{\infty }p(x)\ln \frac {p(x)}{q(x)}\,\rm {d}x$

用来度量两个分布的差异。

因此，极大似然估计可以看做是最小化参数模型$p(x; \theta)$与样本经验分布$q(x)$的KL散度（相对熵）。换句话说，换个角度看，我们要找一个尽可能和真实数据生成分布相近的分布。

基于KL散度（相对熵）的角度理解最大似然估计不需要关注参数的统计特点，但似然函数的计算依然依赖于样本的独立同分布假设和参数未知但为定值，因此，这种方法依然属于频率学派。

转载请包括本文地址：https://allenwind.github.io/blog/9765
更多文章请参考：https://allenwind.github.io/blog/archives/