本文分析极大似然估计与最小二乘法的关系。

参数估计

假设有概率分布$f(x, \theta)$,从该分布中采样$n$个样本$x_{1}, \dots, x_{n}$,参数估计的问题是根据这些样本估计参数$\theta$,

事实上,在机器学习中,概率模型的学习过程就是一个参数估计过程。因此,数理统计中的参数估计方法也适用于机器学习中。然而,在数理统计上,关于参数$\theta$的实质存在着深刻的学派之争,分别是频率学派的最大似然预计(MLE)与贝叶斯学派的最大后验估计(MAPE)接下来我们做一下基本的介绍。

频率学派的最大似然估计(MLE)

首先我们从频率学派的最大似然预计(MLE)出发,然后从若干角度理解该参数估计方法的机理。极大似然估计(MLE)是一种参数估计方法,在假定样本数据独立同分布情况下,求出似然函数极大值时的参数,该参数即为样本数据分布函数的参数的一个估计值。

假设有概率分布$f(x, \theta)$,从该分布中采样$n$个样本$x_{1}, \dots, x_{n}$。易得似然函数,

MLE寻找让似然函数最大的参数,即,

以正态分布为例,

根据定义,似然函数为

取对数,

求$\displaystyle \log {\Big (}{\mathcal {L}}(\mu ,\sigma ){\Big )}$最大值相当于求$\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}$的最小值。通过最值方法容易求得,均值$\mu$为,

方差$\sigma$为,

MLE与最小二乘法的关系

假设有噪声噪声

噪声叠加到线性模型上,有

每个样本 $(\boldsymbol{x}_{i}, y_{i})$的概率表示,

使用极大似然估计

两边取对数

于是有

因此,最小二乘法等价于分布为正态分布的极大似然估计。换句话说,以均方误差(MSE)最小化的学习策略的机器学习算法与分布为正太分布的极大似然估计的参数估计方法在数学计算上是等价的。类似地,以平均绝对误差(MAE)最小化学习策略,等价于分布为拉普拉斯分布的极大似然估计。

总结

通过以上推导,最小二乘法等价于分布为正态分布的极大似然估计。

转载请包括本文地址:https://allenwind.github.io/blog/6781
更多文章请参考:https://allenwind.github.io/blog/archives/