《机器学习——数学公式推导合集》1. 线性模型之最小二乘法（least square method）求解线性模型

机器学习数学公式推导之小小二乘法求解线性回归

smile-yan

12441人浏览 · 2022-08-26 23:52:12

smile-yan · 2022-08-26 23:52:12 发布

1.1 什么是最小二乘法（least square method）

最小二乘法： 基于均方误差最小化来进行模型求解的方法称为 “最小二乘法（least square method）”。

1.2 线性模型（linear model）基本形式

线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即
$f(\mathbb{x}) = w_1x_1 + w_2x_2+...+w_dx_d+b \tag{1.1}$
一般用向量形式写成
$f(\mathbb{x})=\mathbf{w}^\text{T}\mathbf{x}+{b} \tag{1.2}$
其中 $w=(w1;w2;...;wd)\mathbf{w}=(w_1;w_2;...;w_d)$ 。 $w\mathbf{w}$ 和 $b$ 学得之后，模型就得以确定。

摘录自《机器学习》周志华著清华大学出版社

1.3 公式推导 1

假设第 $i$ 个数据 $x_i$ 对应的真实值为 $y_i$ ，模型的输出值为 $f(x_i)$ ，所以我们的目标是使得 $f(x_i)$ 尽可能等于真实值 $y_i$ ，假设训练后 $f(xi)≈yif(x_i) \approx y_i$ 时，对应的参数为 $w^*$ 、 $b^*$ ，其中 $w^*$ 代表一组参数（ $w_1,w_2,...,w_m$ ，其中 $m$ 是特征的数目）。

此时 求解目标 可以表示为：
$(w^*,b^*)=\argmin_{(w,b)} \sum_{i=1}^m(f(x_i)-y_i)^2 \\ = \argmin_{(w,b)} \sum_{i=1}^m(y_i - (wx_i+b))^2 \tag{1.3}$

即求解当 $E(w,b)=∑i=1m(f(xi)−yi)2E_{(w, b)} = \sum_{i=1}^m(f(x_i)-y_i)^2$ 取得最小值时参数 $w^*$ 与 $b^*$ 的值。

现在分别对这两参数求偏导，可得
$\frac{\partial_{E_{(w,b)}}}{\partial_w}=2 \Bigl( w\sum_{i=1}^mx_i^2 - \sum_{i=1}^m(y_i-b)x_i \Bigr) \tag{1.4}$

$\frac{\partial_{E_{(w,b)}}}{\partial_b}=2 \Bigl( mb - \sum_{i=1}^m(y_i-wx_i)\Bigr) \tag{1.5}$

当公式 (1.4) 与公式 (1.5) 等于 0，可得到 $w$ 和 $b$ 的最优解的闭式解（closed-form）。

先求解公式 (1.5) ，如下：

$\Bigl( mb - \sum_{i=1}^m(y_i-wx_i)\Bigr) = 0 \\ \Longrightarrow mb = \sum_{i=1}^m(y_i-wx_i) \\ \Longrightarrow b = \frac{1}{m} \sum_{i=1}^m(y_i-wx_i) \ \Longrightarrow b = \overline{y} -w\overline{x} \tag{1.6}$

再来求解公式 (1.4)，需要代入刚刚求解得到的公式 (1.6)，

$\Bigl( w\sum_{i=1}^m x_i^2 - \sum_{i=1}^m(y_i-b)x_i \Bigr) = 0 \\ \Longrightarrow w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m(y_i-b)x_i \\ \Longrightarrow w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m(y_i- (\overline{y}-w\overline{x}))x_i \\ \Longrightarrow w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m (y_i - \overline{y})x_i + w\overline{x}\sum_{i=1}^m x_i \\ \Longrightarrow w\Bigl(\sum_{i=1}^mx_i^2 - \overline{x}\sum_{i=1}^mx_i\Bigr) = \sum_{i=1}^m(y_i-\overline y)x_i \\ \Longrightarrow w=\frac{\sum_{i=1}^m(y_i-\overline y)x_i}{\sum_{i=1}^mx_i^2 - \overline{x}\sum_{i=1}^mx_i} \tag{1.7}$

为了方便也可以变形为：
$\frac{\sum_{i=1}^m x_iy_i - m\overline{x} \ \overline{y}}{\sum_{i=1}^mx_i^2 - m\overline{x}^2} \tag{1.8}$

也可以变形为：
$w=\frac{\sum_{i=1}^m(y_i-\overline y)x_i}{\sum_{i=1}^mx_i^2 - \overline{x}\sum_{i=1}^mx_i} \\ = \frac{\sum_{i=1}^m(y_i - \frac{1}{m}\sum_{i=1}^m y_i)x_i}{\sum_{i=1}^mx_i^2 - \frac{1}{m}\sum_{i=1}^mx_i \sum_{i=1}^mx_i} \\ = \frac{\sum_{i=1}^m y_i(x_i-\frac{1}{m}\sum_{i=1}^n x_i)}{\sum_{i=1}^mx_i^2 - \frac{1}{m}(\sum_{i=1}^mx_i )^2} \\ = \frac{\sum_{i=1}^m y_i(x_i - \overline{x})}{\sum_{i=1}^mx_i^2 - \frac{1}{m}(\sum_{i=1}^mx_i )^2} \tag{1.9}$

1.4 公式推导 2

当样本的特征更多时，上面的推导公式也应做相应的调整，以适应更一般的情况。

假设数据样本集 $D$ ，每个样本由 $d$ 个属性描述，此时学习目标转换为

$f(x_i) = w^\text{T}x_i + b \tag{1.10}$

使得 $f(xi)≈yif(x_i) \approx y_i$ 。

接下来会基于矩阵运算来推导参数的表达式，为了方便，让常量 $b^*$ 凑如到 $w^*$ 中，即，原表达式转换为

$f(x_i ) = w_1x_1 + w_2x_2 + \cdots + w_mx_m + b \cdot 1$
也就是说，对于原数据集，补充一列全部为 1 的特征，方便乘以孤孤单单无人作伴的 $b^*$ ，此时 $X\mathbf{X}$ 可表示为：

$\mathbf{X} = \begin{pmatrix} x_{11} & x_{12} & x_{13} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & x_{23} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \vdots & \ddots & \vdots & 1 \\ x_{m1} & x_{m2} & x_{m3} & \cdots & x_{md} & 1 \\ \end{pmatrix} = \begin{pmatrix} \mathbf{x}_1^\textbf{T} & 1 \\ \mathbf{x}_2^\textbf{T} & 1 \\ \vdots & \vdots \\ \mathbf{x}_m^\textbf{T} & 1 \\ \end{pmatrix}$

为了方便，记 $;ym)\mathbf{y} = (y_1; y_2; \cdots;y_m)$ ，接着同样引用最小二乘法，注意此时对矩阵运行不能单纯的平方了，而是转置后相乘。

$w^∗=arg min⁡w^(y−Xw^)T(y−Xw^)(1.11) \hat{\mathbf{w}}^* = \argmin_{\hat{\mathbf{w}}}(\mathbf{y}-\mathbf{X\hat{w}})^\text{T}(\mathbf{y}-\mathbf{X\hat{w}}) \tag{1.11}$

令 $Ew^=(y−Xw^)T(y−Xw^)E_{\hat{\mathbf{w}}}=(\mathbf{y}-\mathbf{X\hat{w}})^\text{T}(\mathbf{y}-\mathbf{X\hat{w}})$ ，对 $w^\hat{\mathbf{w}}$ 求导，得

$∂Ew^∂w^=2XT(Xw^−y)(1.12) \frac{\partial_{E_{\hat{\mathbf{w}}}}}{\partial_{\hat{\mathbf{w}}}} = 2 \mathbf{X}^{\text{T}}(\mathbf{X}\hat{\mathbf{w}} - \mathbf{y}) \tag{1.12}$

类似地，这里不考虑数据不足、特征量不足、特征量过多的情况，只从数学角度推导，可以得知，当公式 1.12 等于 0 时，得到对应的 $w^∗\hat w^*$ 。

$2XT(Xw^−y)=0⟹XTXw^=XTy⟹w^∗=(XTX)−1XTy(1.13) 2 \mathbf{X}^{\text{T}}(\mathbf{X}\hat{\mathbf{w}} - \mathbf{y}) = 0\\ \Longrightarrow \mathbf{X}^{\text{T}}\mathbf{X}\hat{\mathbf{w}} = \mathbf{X}^{\text{T}}\mathbf{y} \\ \Longrightarrow \hat w^* = (\mathbf{X}^{\text{T}}\mathbf{X})^{-1}\mathbf{X}^{\text{T}}\mathbf{y} \tag{1.13}$

从第二行到第三行的过程是在等式等号两边分别在左边乘以 $(XTX)−1(\mathbf{X}^{\text{T}}\mathbf{X})^{-1}$ 而得到的。

其中 $(XTX)−1(\mathbf{X}^{\text{T}}\mathbf{X})^{-1}$ 时矩阵 $(XTX)(\mathbf{X}^{\text{T}}\mathbf{X})$ 的逆矩阵。

1.5 本章总结

因为验证拟合效果是比较各个点的预测值与真实值之间的差异，为了避免 差异抵消 情况的出现，也是为了求导的方便，对目标表达式平方以后再求最小值时的参数情况更加合理一些。这里的差异抵消是指，前一行预测值比真实值小，而后一行预测值比真实值大，如果简单把差异总和加起来的可能出现抵消的情况，不能反应整体的拟合结果。

此外，这个公式推导的过程应该是比较简单的，可以考虑自己多推导推导，就当做是打发时间好了。

Smileyan
2022.8.26 23:50

技术共进，成长同行——讯飞AI开发者社区

更多推荐

PHP与人工智能：结合案例与可能性探索

讯飞AI开发者社区

通用人工智能(AGI)发展现状：从科幻到现实的跨越

通用人工智能(AGI)正从科幻走向现实。2025年，多模态融合、递归推理引擎和能效革命三大技术突破推动AGI发展，国际科技巨头和中国企业加速布局。AI Agent在金融、医疗、教育等领域广泛应用，企业自动化效率显著提升。然而，数据隐私、算法透明度和就业替代等伦理挑战亟待解决。未来，AGI将向多模态量子计算融合、具身智能和世界模型方向发展，需要建立人机协作新模式和完善的政策法规框架。AGI既带来机遇

讯飞AI开发者社区

C++与人工智能框架

重新排列范围，使得指定位置的元素等于排序后的元素，并且左边的元素都不大于它，右边的元素都不小于它。算法的原理是 “覆盖” 要删除的元素，将保留的元素移到前面，返回新的逻辑尾迭代器，但。对范围内的每个元素应用一个函数，并将结果存储在另一个范围内。移除范围内连续的重复元素，返回新的逻辑结尾迭代器。旋转范围内的元素，使中间元素成为新的第一个元素。这些算法不会改变它们所操作的容器中的元素。这些算法会修改它