范数正则化的原理分析（一）：贝叶斯学派角度

范数正则化是机器学习和深度学习中最常用的正则化手段，本文讲述从贝叶斯角度理解范数正则化，另外还提供信息论上的解释。$L_1$、$L_2$正则化都是解决模型过拟合的方法，它们有什么数学上的解释呢？

正则化是一种修正学习算法的数学技巧，目的是降低模型的范化误差。通常的做法是在目标函数上添加一个学习惩罚项，比如范数。此外还有的做法是干扰优化过程，如训练过程中提前停止，不过这些方法在深度学习中才常见。

Lp范数

Lp范数的定义，

$\left\|x\right\|_{p}=\left(|x_{1}|^{p}+|x_{2}|^{p}+\dotsb +|x_{n}|^{p}\right)^{1/p}$

这里$p \ge 1$。当$p \rightarrow \infty$时，有

$\left\|x\right\|_{\infty }=\max \left\{|x_{1}|,|x_{2}|,\dotsc ,|x_{n}|\right\}$

这个比较容易证明。假设$|x_{1}|,|x_{2}|,\dots,|x_{n}|$中，$|x|_j$最大，那么有，

$\begin{align} L_p(x_1, \dots, x_n) &= \left(\sum _{i=1}^{n}\big|x_{i} \big|^{p}\right)^{\frac {1}{p}} \newline &\le \left(\sum _{i=1}^{n}\big|x_{j} \big|^{p}\right)^{\frac {1}{p}} \newline &= \Big(n \big|x_{j} \big|^{p}\Big)^{\frac {1}{p}} \newline &= n^{\frac{1}{p}} |x|_j \newline &= n^{\frac{1}{p}}\max(|x_{1}|,|x_{2}|,\dots,|x_{n}|) \end{align}$

类似地，

$\begin{align} L_p(x_1, \dots, x_n) &= \left(\sum _{i=1}^{n}\big|x_{i} \big|^{p}\right)^{\frac {1}{p}} \newline &\ge \Big(\big|x_{i} \big|^{p}\Big)^{\frac {1}{p}} \newline &= \max(|x_{1}|,|x_{2}|,\dots,|x_{n}|) \end{align}$

因此有，

$\max(|x_{1}|,|x_{2}|,\dots,|x_{n}|) \le \left(\sum _{i=1}^{n}\big|x_{i} \big|^{p}\right)^{\frac {1}{p}} \le n^{\frac{1}{p}}\max(|x_{1}|,|x_{2}|,\dots,|x_{n}|)$

当$p$很大的情况下，$n^{\frac{1}{p}}$接近1。因此，

$\lim_{p \rightarrow \infty} \left(\sum _{i=1}^{n}\big|x_{i} \big|^{p}\right)^{\frac {1}{p}} = \max(|x_{1}|,|x_{2}|,\dots,|x_{n}|)$

我们可视化一下不同p取值时的$L_p$，

极大似然估计与最小二乘法

假设噪声独立同分布，

$\boldsymbol{\epsilon} \sim \mathcal{N}(0, \sigma^2\boldsymbol{I}_{n})$

由于回归模型有噪声的存在，

$\boldsymbol{y}=\boldsymbol{X} \boldsymbol{w} + \boldsymbol{\epsilon}$

那么回归模型可以用概率模型表示，

$p(\boldsymbol{y}_{i}|\boldsymbol{X}, \boldsymbol{w}, \sigma^{2}) = \mathcal{N}(\boldsymbol{X} \boldsymbol{w}, \sigma^{2}\boldsymbol{I}_{n})$

对于样本$(\boldsymbol{x}_{i}, y_{i})$可以用概率模型表示，

$p\left(y_{i} | \boldsymbol{x}_{i} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2}}{2 \sigma^{2}}\right)$

那么似然函数有，

$\begin{align} L(\boldsymbol{w}) &= \prod_{i=1}^{n} p\left(y_{i} | \boldsymbol{x}_{i};\theta\right) \newline &= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2}}{2 \sigma^{2}}\right) \end{align}$

两边取对数，

$\log(L(\boldsymbol{w})) = n\log(\frac{1}{\sqrt{2 \pi} \sigma}) - \frac{1}{2\sigma^{2}}\sum_{i=1}^{n} \left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2}$

为让上式极大化，形式上等价于下式的最小化，

$\hat{\boldsymbol{w}} = \arg \min _{\boldsymbol{w}} \sum_{i=1}^{n} \left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2}$

也就是说，以均方误差最小化（MLE）的学习策略的机器学习算法与极大似然估计的参数估计方法在数学计算上是等价的。

在学习问题上，MLE有一个严重的问题，当模型参数远大于样本数量$n$时，会出现严重的过拟合，导致模型无法学习优化。为此需要引入一定的约束。

贝叶斯学派与最大后验估计

以上的讨论让我们意识到频率学派的最大似然估计（MLE）对参数的基本假设是，参数是一个未知但固定的常数。贝叶斯学派的最大后验估计（MAPE）则认为，参数并不是一个固定的常数，而是一个未知的随机变量，服从一个概率分布，称为先验分布。有概率分布$f(x, \theta)$，从该分布中采样$n$个样本$x_{1}, \dots, x_{n}$。这里假设参数$\theta$的先验分布为$h(\theta)$，那么根据贝叶斯公式，参数$\theta$的后验分布为，

$h(\theta | x_1, \dots, x_n) = \frac{h(\theta) f(x_1, \theta) \cdots f(x_n, \theta)}{p(x_1, x_2, \dots, x_n)}$

这里，

$p(x_1, x_2, \dots, x_n) = \int_{\Theta}h(\theta) f(x_1, \theta) \cdots f(x_n, \theta) \; d\theta$

考虑到参数$\theta$的后验分布是一个函数，那么实际使用中，需要$\theta$的具体值，那么后验分布的均值或众数也可以，这个使用的选择性比较灵活。例如，后验分布的众数可以表示为，

$\begin{align} \hat{\theta} &= \arg \max_{\theta} \; \frac{h(\theta) f(x_1, \theta) \cdots f(x_n, \theta)}{\int_{\Theta}h(\theta) f(x_1, \theta) \cdots f(x_n, \theta) \; d\theta} \newline &= \arg \max_{\theta} \; h(\theta) f(x_1, \theta) \cdots f(x_n, \theta) \end{align}$

这里后验分布的分母与$\theta$无关，所有可以去掉。这里也可以看到，当$h(\theta) = \text{const}$时，极大似然估计等价于最大后验估计。换句话说，极大似然估计等价于先验分布为均匀分布的最大后验估计。

$L_{2}$ 正则化与高斯分布

假设参数 $\boldsymbol{w}$ 服从正态分布，

$p\left(\boldsymbol{w}; \theta\right)=\frac{1}{\sqrt{2 \pi} \lambda} \exp \left(-\frac{\boldsymbol{w}^{2}}{2 \lambda^{2}}\right)$

其中参数$\theta=(0,\lambda^{2})$。因为我们假定模型是无偏的。

已知观察样本 $(\boldsymbol{x}_{i}, y_{i}),i=1, \dots,n$，使用最大后验估计（MAPE），有似然函数$L(\boldsymbol{w}) $，

$\begin{aligned} L(\boldsymbol{w}) &= \prod_{i=1}^{n} p\left(y_{i} | \boldsymbol{x}_{i};\theta\right) p\left(\boldsymbol{w}; \theta\right) \newline &= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2}}{2 \sigma^{2}}\right) {\color{blue} {\frac{1}{\sqrt{2 \pi} \lambda} \exp \left(-\frac{\boldsymbol{w}^{2}}{2 \lambda^{2}}\right)}} \end{aligned}$

两边取对数，

$\log(L(\boldsymbol{w})) = n\log(\frac{1}{\sqrt{2 \pi} \sigma}) - \frac{1}{2\sigma^{2}} { \color{red} {\sum_{i=1}^{n} \left(y_{i} -\boldsymbol{w}^{\mathsf{T}}\boldsymbol{x}_{i}\right)^{2} } } + \log(\frac{1}{\sqrt{2 \pi} \lambda}) - \frac{1}{2\lambda^{2}} { \color{red}{ \|\boldsymbol{w}\|^{2} }}$

为让上式极大化，形式上等价于下式的最小化，

$\hat{\boldsymbol{w}} = \arg \min _{\boldsymbol{w}} \sum_{i=1}^{n} \left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2} + \lambda|\boldsymbol{w}|^{2}$

也就是说Ridge regression，即引入$L_2$范数正则化的模型，相当于假设参数的先验分布为正态分布。根据正态分布的性质，$L_2$范数正则化的引入并不能让模型产生稀疏解。

简而言之，$L_2$正则化等价于参数服从高斯先验，其并不具有稀疏解的特性。

$L_{1}$ 正则化与拉普拉斯分布

类似以上方法，假设模型的参数$\boldsymbol{w}$为随机变量，其先验分布为拉普拉斯分布，

$f(\boldsymbol{w} | \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|\boldsymbol{w}-\mu|}{b}\right)$

通常模型是无偏的，于是$\mu=0$，参数先验分布为，

$f(\boldsymbol{w} | \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|\boldsymbol{w}|}{b}\right)$

已知观察样本 $(\boldsymbol{x}_{i}, y_{i}),i=1, \dots,n$，使用最大后验估计（MAPE），有似然函数$L(\boldsymbol{w}) $，

$\begin{align} L(\boldsymbol{w}) &= \prod_{i=1}^{n} p\left(y_{i} | \boldsymbol{x}_{i};\theta\right) p\left(\boldsymbol{w}; \theta\right) \newline &= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2}}{2 \sigma^{2}}\right) {\color{blue}{ \frac{1}{2 b} \exp \left(-\frac{|\boldsymbol{w}|}{b}\right) }} \end{align}$

两边取对数，

$\log(L(\boldsymbol{w})) = n\log(\frac{1}{\sqrt{2 \pi} \sigma}) - \frac{1}{2\sigma^{2}} {\color{red} {\sum_{i=1}^{n} \left(y_{i} -\boldsymbol{w}^{\mathsf{T}}\boldsymbol{x}_{i}\right)^{2} }} + \log(\frac{1}{2b}) - \frac{1}{b} {\color{red} { \|\boldsymbol{w}\| }}$

为让上式极大化，形式上等价于下式的最小化，

$\hat{\boldsymbol{w}} = \arg \min _{\boldsymbol{w}} \sum_{i=1}^{n} \left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2} + \lambda\|\boldsymbol{w}\|$

也就是说Lasso regression ，即引入$L_1$范数正则化的模型，相当于假设参数的先验分布为拉普拉斯分布。根据拉普拉斯分布的特点，模型参数会高概率地取0，于是就产生模型参数的稀疏性。从特征工程角度看，$L_1$正则化相当于给模型内嵌一个特征选择器。

简而言之，$L_1$正则化等价于参数服从拉普拉斯先验，使得模型其并具有稀疏解的特性。

由于$L_{1}$正则化在零点不可微，

$\Vert \boldsymbol{w} \Vert_{1} = \sum_{i=1}^{n} \sqrt{ w_{i}^{2} + \varepsilon}$

Elastic Net

一个比较自然的想法是结合$L_1$和$L_2$正则化，即Elastic Net，

$\hat{\boldsymbol{w}} = \arg \min _{\boldsymbol{w}} \sum_{i=1}^{n} \left(y_{i}-\boldsymbol{w}^{\mathsf{T}} \boldsymbol{x}_{i}\right)^{2} + \lambda_1|\boldsymbol{w}| + \lambda_2|\boldsymbol{w}|^{2}$

推广到 $L_{p}$ 正则化

注意到分母是$\Gamma(x)$函数，

$\begin{align} f(x;\beta) &= \frac{e^{-|x|^{\beta}}}{\displaystyle \int_{-\infty}^{\infty}e^{-|x|^{\beta}}dx} \newline &= \frac{\beta e^{-|x|^{\beta}}}{2\Gamma(\frac{1}{\beta})} \end{align}$

也就是说，对于一个 $L_{p}$ 正则化约束，相当于参数先验分布为 $f(x;\beta)=\frac{\beta e^{-|x|^{\beta}}}{2\Gamma(\frac{1}{\beta})}$，这个分布称为广义正态分布，其一般形式有，

$f(x;\mu, \alpha, \beta) = \displaystyle \frac {\beta }{2\alpha \Gamma (1/\beta )}\;e^{-(|x-\mu |/\alpha )^{\beta }}$

其中$\Gamma(x)$值伽马函数，$\beta$是形状参数，$\alpha$是尺度参数，$\mu$是位置参数。

结论

模型引入正则化，相当于给模型参数约定了一个取值空间，如$L_1, L_2, \dots L_p$，换成贝叶斯概率的语言来说就是给参数设定先验分布。

对于炼丹来说，正则化是一种优化手段，并不是必备的东西，也不能保证用上了就一定有效，只不过是多了一种选择，最后行不行还是取决于具体的实验。

转载请包括本文地址：https://allenwind.github.io/blog/7575
更多文章请参考：https://allenwind.github.io/blog/archives/