笔记
线性回归假设y与多个x之间的关系是线性的,且噪声符合正态分布。
线性模型则是对输入特征做仿射变换Y^ = W * X+b,其中Y^为预测值,我们希望预测值与真实值Y的误差最小。那如何衡量这个误差呢,使用损失函数来量化。
(在线性模型中,一般采用最小二乘的损失函数)
这样,将问题转化为关注最小化损失函数的优化问题。
优化得到数值解过程中用到梯度下降法。
练习
1假设我们有一些数据?1,…,??∈ℝ。我们的目标是找到一个常数?,使得最小化∑?(??−?)2。找到最优值?的解析解。这个问题及其解与正态分布有什么关系?
最优值b的解析解为1/n *∑?? . 若样本x1,x2,x3...服从正态分布,则b为样本均值mu。
2推导出使用平方误差的线性回归优化问题的解析解。为了简化问题,可以忽略偏置?
(我们可以通过向?添加所有值为1的一列来做到这一点)。
用矩阵和向量表示法写出优化问题(将所有数据视为单个矩阵,将所有目标值视为单个向量)。
计算损失对?
的梯度。
通过将梯度设为0、求解矩阵方程来找到解析解。
什么时候可能比使用随机梯度下降更好?这种方法何时会失效?
假定控制附加噪声?
的噪声模型是指数分布。也就是说,?(?)=12exp(−|?|)
写出模型−log?(?∣?)
下数据的负对数似然。
请试着写出解析解。
提出一种随机梯度下降算法来解决这个问题。哪里可能出错?(提示:当我们不断更新参数时,在驻点附近会发生什么情况)请尝试解决这个问题。