【机器学习:二、线性回归模型】

ywTxby=w^Tx+bywTxb符号说明：x∈Rnx∈Rn：输入特征向量（维度为 𝑛）。w∈Rnw∈Rn：权重向量，表示每个特征的系数。b∈Rb∈R：偏置（bias），表示线性模型的截距。y∈Ry∈R：输出变量，通常是一个连续值。目标：根据训练数据集Dxiyii1mD{(xiyii1m，学习参数 𝑤 和 𝑏，使得模型能对未知数据的输出 𝑦 做出准确预测。ywTxbϵ。

weixin_43086101

1198人浏览 · 2025-01-04 18:58:08

weixin_43086101 · 2025-01-04 18:58:08 发布

线性回归是一种基本的监督学习方法，广泛用于回归问题中。它通过学习输入变量与输出变量之间的线性关系来对数据进行建模。以下从定义到求解的角度系统介绍线性回归模型。

线性回归模型的定义

线性回归假设输出变量 𝑦和输入变量 𝑥 之间满足线性关系： $y=w^Tx+b$

符号说明：
- $x∈Rnx\in\mathbb{R}^n$ ：输入特征向量（维度为 𝑛）。
- $w∈Rnw\in\mathbb{R}^n$ ：权重向量，表示每个特征的系数。
- $b∈Rb\in\mathbb{R}$ ：偏置（bias），表示线性模型的截距。
- $y∈Ry\in\mathbb{R}$ ：输出变量，通常是一个连续值。
目标：根据训练数据集 $D=\{(x_i,y_i)\}_{i=1}^m$ ，学习参数 𝑤 和 𝑏，使得模型能对未知数据的输出 𝑦 做出准确预测。
假设：假定输出 𝑦 和输入 𝑥 满足以下关系： $y=wTx+b+ϵy=w^Tx+b+\epsilon$
其中 𝜖 是独立同分布的噪声项，通常服从正态分布 $N(0,σ2)N(0,\sigma^2)$ 。

线性回归模型的代价函数

在机器学习中，代价函数用来衡量模型预测值与真实值之间的误差。

平方误差损失函数：在线性回归中，常用平方误差作为损失函数来衡量单个样本预测值 $y^i\hat{y}_i$ 与真实值 $y_{i}$ 的差异： $L(yi,y^i)=(yi−y^i)2L(y_i,\hat{y}_i)=(y_i-\hat{y}_i)^2$
线性回归的代价函数（均方误差, Mean Squared Error, MSE）：对于 𝑚 个训练样本，定义代价函数 J(w,b) 为： $J(w,b)=12m∑i=1m(yi−(wTxi+b))2J(w,b)=\frac{1}{2m}\sum_{i=1}^m\left(y_i-(w^Tx_i+b)\right)^2$
- 其中：
  - $y_{i}$ ：第 𝑖 个样本的真实值。
  - $w^Tx_i+b$ ：第 𝑖 个样本的预测值。
  - $12m\frac{1}{2m}$ :引入1/2是为了在求导时简化计算。
目标：寻找参数 𝑤 和 𝑏，使得代价函数 J(w,b) 最小。

梯度下降法求解线性回归模型

梯度下降是一种常用的优化算法，用于最小化代价函数 J(w,b) 并求解模型参数。

梯度下降法原理

梯度下降通过不断更新参数 𝑤 和 𝑏，逐步减小代价函数值，直到达到最优解。
更新规则： $w:=w−α∂J(w,b)∂w,b:=b−α∂J(w,b)∂bw:=w-\alpha\frac{\partial J(w,b)}{\partial w},\quad b:=b-\alpha\frac{\partial J(w,b)}{\partial b}$
- 其中：
  - $a\mathrm{a}$ ：学习率（控制每次更新的步长）。
  - $∂J(w,b)∂b\frac{\partial J(w,b)}{\partial w}\text{ 和 }\frac{\partial J(w,b)}{\partial b}$
    ：代价函数对 𝑤 和 𝑏 的梯度。

代价函数的梯度计算

对于代价函数 $J(w,b)=12m∑i=1m(yi−(wTxi+b))2J(w,b)=\frac{1}{2m}\sum_{i=1}^m\left(y_i-(w^Tx_i+b)\right)^2$ ，其梯度为：

对 𝑤 求偏导： $∂J(w,b)∂w=−1m∑i=1m(yi−(wTxi+b))xi\frac{\partial J(w,b)}{\partial w}=-\frac{1}{m}\sum_{i=1}^m(y_i-(w^Tx_i+b))x_i$
对 b 求偏导： $∂J(w,b)∂b=−1m∑i=1m(yi−(wTxi+b))\frac{\partial J(w,b)}{\partial b}=-\frac{1}{m}\sum_{i=1}^m(y_i-(w^Tx_i+b))$

梯度下降算法流程

初始化参数：随机初始化 𝑤 和 𝑏。
迭代更新参数：按照以下公式更新 𝑤 和 𝑏： $w:=w+αm∑i=1m(yi−(wTxi+b))xiw:=w+\frac{\alpha}{m}\sum_{i=1}^m(y_i-(w^Tx_i+b))x_i$
$b:=b+αm∑i=1m(yi−(wTxi+b))b:=b+\frac{\alpha}{m}\sum_{i=1}^m(y_i-(w^Tx_i+b))$
停止条件：当代价函数 J(w,b) 的变化值小于某个阈值，或者达到最大迭代次数时停止。

线性回归模型的优点和局限性

优点：

模型简单，易于理解和实现。
具有很好的可解释性，权重𝑤可以反映每个特征对输出的影响。
对小规模数据和线性关系数据表现良好。

局限性：

只能捕捉输入与输出之间的线性关系，无法处理非线性关系。
对异常值敏感，容易受噪声影响。
需要手动选择特征，无法自动提取特征。

总结

线性回归模型是一种简单但有效的回归方法，适用于线性关系的数据。
模型的核心是通过最小化均方误差（MSE）来找到最佳参数。
梯度下降是一种常用的优化方法，可以有效求解线性回归模型参数。
尽管线性回归存在一定局限性，但其直观性和高效性使其在许多场景中仍有广泛应用。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

程序员必学！大模型五大核心技术(MCP/Agent/RAG/RPA/A2A)全解析（收藏版）

讯飞AI开发者社区

38_多模态模型：CLIP的视觉-语言对齐_深度解析

讯飞AI开发者社区

自然语言处理（NLP）基础

苹果”可以指一种水果，也可能指Apple 公司；“我今天早上没吃饭”中的“没”是否表示“完全没有”需要结合上下文。NLP 的任务就是让计算机能够“读懂”这些文字和语音，抽取其中的语义信息，从而与人类进行自然交流。简单来说，NLP 是计算机科学、人工智能与语言学的交叉学科。自然语言处理（NLP）让计算机能够理解和生成自然语言，是人工智能最贴近人类日常生活的技术之一。随着深度学习和大模型的发展，NLP