本系列虽然讲概率图模型,但是搞明白最大熵模型需要理解熵、最大熵原理、最大熵分布、最小熵原理与最大熵模型(MEM)。最大熵模型也是CRF模型的基础。

最大熵原理

最大熵原理就是说在未知的事情面前,我们选择不确定性最大的那一个。这样做意味着我们不引入任何假设,承认自己除了已经观察到的信息外,对其事情无知。简而言之:自知无知!

反过来想,如果我们不承认无知,而是对其引入假设(假设不是观察信息),如果正确,那对我们建模当然有用,如果错误,只会偏离正确结果更远,那么我们如何保证我们的假设是正确的。这样一来,引入假设反而有风险,既然如此,还不如不做假设,自知无知更好!

例如一颗骰子在面前,对各个点数 $\Omega = {1, 2, 3, 4, 5, 6}$,那么每颗骰子点数出现的概率是多数呢?由于没有更多信息,这里不做任何假设,自知无知。认为每个点数等可能出现是最优的做法。于是有,

有未知分布$p(x)$​​​,其具体形式和参数都不知道,满足最大熵的模型为,

最大熵模型

熵的最大化可以作为模型选择的一种策略,即在给定(满足)约束条件下,选择熵最大的模型作为目标模型。

一般来说,我们要建立的概率模型是判别模型,即条件概率$p(y|x)$​​,其熵(条件熵)为,

考虑到我们已经有观察样本$[x_1, x_2, \dots, x_n]$,即有关于$x$的经验分布$\tilde{p}(x)$,于是上式可以改为,

另外,我们从$D = [(x_1,y_1), (x_2,y_2), \dots, (x_n,y_n)]$​中获得某种观察结论,可以表示为,

例如情感倾向性分类中,

这样的观察结论称为特征,这样的特征可以感觉实际情况自行构造多个$f_1(x,y), f_2(x,y), \dots, f_m(x,y)$​​​。

在已有数据$D$中,这些特征关于经验分布$\tilde{p}(x, y)$​​的期望为,

同时,这些特征关于分布$p(x, y) = \tilde{p}(x)p(y|x)$​​的期望为,

我们要寻找的目标模型$p(y|x)$除了满足熵最大外,还需要满足以上特征函数描述的观察事实,因此还需要满足约束,

因此有带约束优化问题,

通过拉格朗日函数容易解得,

其中$\lambda_i$是模型参数。

导出逻辑回归

假设有样本$\boldsymbol{x} = [x_1, x_2, \dots, x_n]$,其包括$n$个特征,我们的目标是训练一个而分类模型,

为此,定义$n$​个约束,每个约束为,

于是,根据最大熵原理有,

类似地,

而归一化因子,

于是也就有逻辑回归,

总结

参考

[1] 信息论基础

[2] https://en.wikipedia.org/wiki/Pointwise_mutual_information

[3] https://en.wikipedia.org/wiki/Min-entropy