机器学习中分类与回归问题常用的损失函数
分类中常用的损失函数
回归和预测中常用的指标 (损失函数)
分类问题的损失函数
评估机器学习算法的能力,必须给定其性能的衡量指标,而训练模型必须给定其损失函数。损失函数度量的是模型在一个样本上学习的好坏如交叉熵,性能指标是度量模型整体学习情况的好看,如Precision、Recall等指标。有些情况下,损失函数和性能指标可以混用。
假设有样本集,
分类器$f$预测,
最常见损失函数是0-1 loss function
,
该损失函数能够直观地刻画分类的错误率, 但是由于其非凸、 非光滑的特点,使得算法很难直接对该函数进行优化。为此,很多分类中的损失函数都是往凸性、光滑性上逼近该损失函数。
Hinge loss,
拉开正类样本与负类样本的距离。Hinge损失函数是0-1损失函数相对紧的凸上界
多分类情况的交叉熵(cross entropy loss),
其中
二分交叉熵(binary cross entropy),
Square loss,
Logistic loss,
Logistic损失函数也是0-1损失函数的凸上界, 且该函数处处光滑, 因此可以用梯度下降法进行优化。
Exponential loss
回归问题的损失函数
MSE
RMSE
MSE和RMSE容易被离群样本影响导致估计失真。
MPE (Mean percentage error)
在MPE基础上添加绝对值,即MAPE
RMSLE
MAE
绝对损失函数在f=y处无法求导数。 综合考虑可导性和对异常点的鲁棒性, 可以采用Huber损失函数。Huber损失函数为,
SMAPE
总结
loss本质是一种先验知识的引入。