ML-误差、偏差、过拟合、正则化

发布时间 2023-04-28 22:12:50作者: Viktor_Cullen

机器学习在损失函数中加入正则项,称为Regularize正则化。目的是防止过拟合。原理是:加上限制后,缩小了解空间,从而减少过拟合的可能性。

L0范数表示向量中非零元素个数,但L0范数的求解是个NP-Hard问题;L1范数也可以实现稀疏,而且更容易求解。L2范数不如L1范数更能够降低复杂度,但是处处可微,更容易计算。

L1正则化:会产生稀疏权值矩阵,即稀疏模型,用于特征选择;可以让一部分特征的系数为0,间接实现特征选择,适用于特征之间有关联的情况。

L2正则化让所有的特征系数都缩小,但不会减为0,可以优化求解,稳定且快速,适用于特征之间没有关联的情况。

所谓监督学习,任务是最小化误差,即损失函数,从而让我们的模型拟合训练数据,而规则化则是防止过度的拟合。

损失函数的类型:

Square Loss

Hinge Loss:SVM

Exp-Loss:Boosting

Log-Loss:逻辑回归等等。

正则项:

L0范数希望参数矩阵W的大部分元素为0。L1范数又叫LASSO正则项。

L1会起作用,虽然并不如L0范数直观,但是求解起来更加容易。

L1范数的图像和目标曲线的等高线很容易在角点处相交,因此会产生稀疏性,L2范数就很难了。