浅谈随机向量与随机矩阵
随机向量与随机矩阵有个反直觉的性质。
HMM引入马尔科夫假设,当前状态只与前一时刻状态有关,然而在很多情况下知道前一时刻状态与后一时刻状态对当前状态的判定有准确,例如分词。这种情况下,MEMM解决去掉了HMM的观察独立性假设,解决HMM的问题。但是,由于MEMM存在局部归一化问题,导致其倾向于选择状态转移更少的状态,引发标签偏置问题。CRF通过引入全局归一化能够解决MEMM标签偏置问题。
HMM是描述时间序列生成的概率模型,属于概率生成模型,由一个隐藏的马尔可夫链随机生成不可观测的状态序列,再由各个状态随机生成一个可观测状态,进而构成观测序列的过程。
范数正则化是机器学习和深度学习中最常用的正则化手段,本文讲述从贝叶斯角度理解范数正则化,另外还提供信息论上的解释。$L_1$、$L_2$正则化都是解决模型过拟合的方法,它们有什么数学上的解释呢?
任何学习任务,只要模型容量足够,都可以在训练集上达到最优性能,最直观的一点是,模型足够复杂,训练时它记住了训练数据中的所有输入输出的映射关系,从而达到最优性能。然而,这并不是我们想要的模型,因为模型只是“记住”训练样本,而非学习到所有样本包括测试集合从未见过的样本的一般特征。为解决这个问题,引入交叉验证方法相对有意义。需要注意,不恰当的交叉验证方法可能会引起数据泄漏。
频率学派与贝叶斯学派在参数估计中分别对应最大似然估计(MLE)与最大后验估计(MAPE),它们都是机器学习和数理统计中常见的参数估计方法。今天我们先分析一下频率学派与贝叶斯学派的出发点和基本思想差异。