机器学习基础——支持向量机1

间隔与支持向量给定训练样本集D={(x1,y1),(x2,y2)⋯ ,(xn,yn)},yi∈{−1,+1}D=\{(x_1,y_1),(x_2,y_2)\cdots, (x_n,y_n)\},y_i\in \{-1, +1\}D={(x1,y1),(x2,y2)⋯,(xn,yn)},yi∈{−1,+1}，分类学习的最基本的思想就是基于样本空间中找个一个划分超平面，将不同类别的样本.

绝尘花遗落

447人浏览 · 2019-09-25 10:26:38

绝尘花遗落 · 2019-09-25 10:26:38 发布

间隔与支持向量

给定训练样本集 $,(xn,yn)},yi∈{−1,+1}D=\{(x_1,y_1),(x_2,y_2)\cdots, (x_n,y_n)\},y_i\in \{-1, +1\}$ ，分类学习的最基本的思想就是基于样本空间中找个一个划分超平面，将不同类别的样本分开，但是超平面可能有很多种
在这里插入图片描述

直观上应该找最中间的划分超平面，因为该超平面对训练样本局部的扰动的容忍最好的。由于训练集的局限性或噪声的因素，训练集外的样本可能更接近两个类的分隔界，这个划分超平面所产生的分类结果是最鲁棒的，对未见的示例泛化能力最强。

超平面的线性方程描述：
${\rm\pmb{\omega}}^Tx + b = 0$
其中 $;ωd)\pmb\omega=(\omega_1;\omega_2;\cdots;\omega_d)$ 为法向量，决定超平面的方向， $b$ 为位移项，决定了超平面与原点之间的距离。

样本空间中任意点 $x$ 到超平面 $(ω,b)(\omega,b)$ 的距离可写成：
$\frac{|\rm \omega^Tx +b|}{||\omega||}$
假设超平面 $(ω,b)(\omega ,b)$ 能将训练样本正确分类，即对于 $(xi,yi)∈D(x_i,y_i)\in D$ ，若 $y_i=+1$ ，则有 $wTxi+b>0\pmb{w^Tx_i}+b>0$ ，若 $y_i=-1$ ，则有 $ωTxi+b<0\pmb{\omega^Tx_i}+b<0$
$\begin{cases} \pmb{\omega^Tx_i}+b \ge +1 & y_i=+1\\ \pmb{\omega^Tx_i} + b \le -1 & y_i=-1 \end{cases}$
推导：

假设这个超平面是 $ω′Tx+b′=0\omega^{'T}x+b^{'}=0$ ，则对于 $(xi,yi)∈D(x_i,y_i)\in D$ ，有：
$\begin{cases} \omega^{'T}x_i+b^{'}> 0 & y_i=+1 \\ \omega^{'T}x_i+b^{'}< 0 & y_i=-1 \end{cases}$
根据几何间隔，将以上关系修正为
$\begin{cases} \omega^{'T}x_i+b^{'}\ge +\zeta & y_i=+1 \\ \omega^{'T}x_i+b^{'}\le -\zeta & y_i=-1 \end{cases}$
其中 $ζ\zeta$ 为某个大于零的常数，两边同时除以 $ζ\zeta$ ，再次修改以上关系
$\begin{cases} \frac{1}{\zeta}\omega^{'T}x_i+\frac{1}{\zeta}b^{'}\ge +1 & y_i=+1 \\ \frac{1}{\zeta}\omega^{'T}x_i+\frac{1}{\zeta}b^{'}\le -1 & y_i=-1 \end{cases}$
令 $ω=1ζω′,b=b′ζ\omega = \frac{1}{\zeta}\omega^{'},b=\frac{b^{'}}{\zeta}$ ，就可以得到公式。

距离超平面最近的这几个训练样本使等号成立，它们称之为支持向量（support vector）,两个异类支持向量到超平面的距离之和为
$\gamma = \frac{2}{||\pmb{\omega}||}$
在这里插入图片描述

找到具有最大间隔的划分超平面，就要找到满足条件参数的 $ω\omega$ 和 $b$ ，使 $γ\gamma$ 最大
$\underset{w,b}{\max} \frac{2}{||w||}\\ s.t. \ y_i(\pmb{w^Tx_i}+b) \ge 1,i=1,2,\cdots,m$
为了最大化间隔，仅需要最大化 $w||^{-1}$ ，这等价于最下化 $w||^2$
$\underset{w,b}{\min} \frac{1}{2} ||w||^2 \\ s.t. \ y_i(\pmb{w^Tx_i} + b) \ge 1,i=1,2,\cdots,m$

对偶问题

对于最大间隔划分超平面对应的模型
$f(\pmb{x}) = \pmb{w^Tx} + b$
这是一个凸二次规划（convex quadratic programming）问题

使用拉格朗日乘子法可以得到其对偶问题，对于每个约束添加拉格朗日乘子 $αi≥0\alpha_i \ge 0$ ，则该问题是拉格朗日函数为：
$L(\pmb{\omega},b,\alpha) = \frac{1}{2}||\pmb{w}||^2 + \sum_{i=1}^m \alpha_i(1-y_i(w^Tx_i+b))$
其中 $,αm)\pmb{\alpha}=(\alpha_1,\alpha_2,\cdots,\alpha_m)$ 。令 $L(ω,b,α)L(\pmb\omega,b,\alpha)$ 对 $ω\pmb\omega$ 和 $b$ 的偏导为零可得
$\pmb\omega = \sum_{i=1}^m \alpha_iy_i\pmb{x_i}\\ 0 = \sum_{i=1}^m \alpha_iy_i$
推导：
$\begin{aligned} L(\pmb w,b,\alpha) & =\frac{1}{2}||w||^2 + \sum_{i=1}^m \alpha_i(1-y_i(w^tx_i+b)) \\ &=\frac{1}{2} ||w||^2 + \sum_{i=1}^m(\alpha_i - \alpha_iy_iw^Tx_i - \alpha_iy_ib)\\ &= \frac{1}{2} \omega^T\omega + \sum_{i=1}^m \alpha_i-\sum_{i=1}^m\alpha_iy_iw^Tx_i -\sum_{i=1}^m \alpha_iy_ib \end{aligned}$
对 $ω\omega$ 和 $b$ 分别求偏函数并令等于0
$\frac{\partial L}{\partial \pmb w} = \omega + 0 -\sum_{i=1}^m a_iy_ix_i-0 =0\Rightarrow \pmb w = \sum_{i=1}^m \alpha_iy_ix_i \\ \frac{\partial L}{\partial b} = 0+0-0-\sum_{i=1}^{m} \alpha_iy_i=0\Rightarrow \sum_{i=1}^m \alpha_iy_i=0$
可以得到对偶问题
$\underset{\alpha}{\max} \sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_j y_iy_jx_i^Tx_j \\ s.t. \ \sum_{i=1}^m \alpha_iy_i=0 \\ \alpha_i \ge 0, i=1,2,\cdots,m$
推导：
$\begin{aligned} \underset{w,b}{\min} L(w,b,\alpha) &= \frac{1}{2}w^w + \sum_{i=1}^m \alpha_i - \sum_{i=1}^m \alpha_iy_iw^Tx_i - \sum_{i=1}^m \alpha_iy_ib \\ &= \frac{1}{2}\omega^T\sum_{i=1}^m \alpha_iy_ix_i -w^T\sum_{i=1}^m \alpha_i y_ix_i + \sum_{i=1}^m \alpha_i - b\sum_{i=1}^m \alpha_iy_i \\ &=-\frac{1}{2} w^T\sum_{i=1}^m \alpha_i y_i x_i + \sum_{i=1}^m \alpha_i - b\sum_{i=1}^m \alpha_iy_i \end{aligned}$
由于 $∑i=1mαiyi=0\sum_{i=1}^m \alpha_iy_i=0$ ，所以
$\begin{aligned} \underset{w,b}{\min} L(w,b,\alpha) & = -\frac{1}{2}w^T\sum_{i=1}^m \alpha_iy_ix_i + \sum_{i=1}^m \alpha_i \\ &=-\frac{1}{2}(\sum_{i=1}^m \alpha_iy_ix_i)^T(\sum_{i=1}^m \alpha_iy_ix_i) + \sum_{i=1}^m \alpha_i \\ & = -\frac{1}{2} (\sum_{i=1}^m \alpha_iy_ix_i^T)(\sum_{i=1}^m \alpha_iy_ix_i) + \sum_{i=1}^m \alpha_i \\ &=\sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_j y_iy_jx_i^Tx_j \end{aligned}$
所以
$\underset{\alpha}{\max}\underset{w,b}{\min} = \underset{\alpha}{\max}\sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_j y_iy_jx_i^Tx_j$
解出 $α\alpha$ 后，求出 $w, b$ 即可得到模型

上述过程需要满足KKT(Karush-Kuhn-Tucker)条件，即要求
$\begin{cases} \alpha_i \ge 0 \\ y_if(x_i)-1\ge 0 \\ \alpha_i(y_if(x_i)-1) = 0 \end{cases}$
对于任意训练样本 $x_i,y_i)$ ，总有 $αi=0\alpha_i=0$ 或 $y_if(x_i)=1$ ，若 $αi=0\alpha_i=0$ ，则这样的样本不会出现在求和中，对 $f (x)$ 有任何影响。若 $αi>0\alpha_i >0$ ，则必有 $y_if(x_i)=1$ ，则对应的样本点在于最大分隔边界上，是一个支持向量。

如何求解呢，这是一个二次规划问题，可以使用通用的二次规划算法来求解，其中高效的算法有很多，其中SMO（Sequential Minimal Optimization）是其中一个著名的代表。

SMO的基本思想是先管你的固定 $αi\alpha_i$ 之外的所有参数，然后求 $αi\alpha_i$ 上的极限。。由于存在约束 $∑i=1mαiyi=0\sum_{i=1}^m \alpha_iy_i=0$ ，若固定 $αi\alpha_i$ 之外的其他变量，则 $αi\alpha_i$ 可由其他变量导出。于是，SMO每次选择两个变量 $αi\alpha_i$ 和 $αj\alpha_j$ ，并固定其他参数。

选择一对需要更新的变量 $αi\alpha_i$ 和 $αj\alpha_j$
固定 $αi\alpha_i$ 和 $αj\alpha_j$ 以外的参数，求解更新后的 $αi\alpha_i$ 和$\alpha_j $

注意到只需选取的 $αi\alpha_i$ 和 $αj\alpha_j$ 中有一个不满足KKT条件，目标函数就会在迭代后减少，于是，SMO先选取违背KKT条件的最大的变量，第二个变量应选择一个使目标函数值减少最快的变量，但是比较各变量所对应的目标函数值减少幅度复杂度过高，因此SMO采用了一个启发式：使选择的两变量所对应样本之间的间隔最大，一种直观解释就是，这样的两个变量有很大的差别，与对两个相似的变量进行更新相比，对他们更新会给目标函数值更大的变化。

SMO算法值所以高效，由于在固定其他参数后，优化两个参数的过程能够非常有效。具体来说，仅考虑 $αi\alpha_i$ 和 $αj\alpha_j$ 时，约束可以重新写成：
$\alpha_iy_i+a_jy_j = c , \alpha_i \ge 0, \alpha_j \ge 0$
其中
$-\sum_{k\ne i,j} a_ky_k$
消去 $αj\alpha_j$ ，则得到一个关于 $αi\alpha_i$ 的单变量二次规划问题，仅有约束 $αi≥0\alpha_i \ge 0$ 。这样的二次规划问题具有闭式解，于是不必调用数值优化算法即可高效的计算出更新后的 $αi\alpha_i$ 和 $αj\alpha_j$

对于 $ySf(xS=1)y_Sf(\pmb{x_S}=1)$
$y_s(\sum_{i\in S}\alpha_iy_i\pmb{x_i^Tx_s}+b)=1$
其中 $\{i|\alpha_i>0,i=1,2,3,\cdot,m\}$ 所支持向量的下标集。
$\frac{1}{|S|} \sum_{s\in S} (y_s-\sum{\alpha_iy_i\pmb{x_i^Tx_s}})$

核函数

在这里插入图片描述

异或问题的非线性映射

在实际的任务中，原始样本空间内也许不存在一个能正确划分两类样本的超平面，对于这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。

令 $ϕ(x)\phi(\pmb{x})$ 表示将 $x\pmb{x}$ 映射后的特征向量，于是，在特征空间中划分超平面所对应的模型可表示为
$f(\pmb{x}) = \pmb{w}^T\phi(\pmb{x}) +b$
其中 $w\pmb{w}$ 和 $b$ 是参数模型
$\underset{\pmb{w},b}{\min} \frac{1}{2} ||\pmb{w}||^2 \\ s.t. \ y_i(\pmb{w}^T\phi(\pmb{x_i})+b) \ge 1,i=1,2,\cdots,m$
对偶问题是：
$\underset{\alpha}{\max} \sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j \phi(\pmb{x_i})^T\phi(\pmb{x_j}) \\ s.t. \ \sum_{i=1}^m \alpha_iy_j = 0, \alpha_i \ge 0,i=1,2,3\cdots,m$
设计到计算 $ϕ(xi)Tϕ(xj)\phi(\pmb{x_i})^T\phi(\pmb{x_j})$ ,由于映射后的特征空间维数可能很高，甚至可能是无穷维的，因此直接计算 $ϕ(xi)Tϕ(xj)\phi(\pmb{x_i})^T\phi(\pmb{x_j})$ 通常是困难的。可以设想这样的一个函数
$\kappa(\pmb{x_i,x_j}) = \langle \phi(\pmb{x_i}),\phi(\pmb{x_j}) \rangle =\phi(\pmb{x_i})^T\phi(\pmb{x_j})$
于是 $x_i$ 与 $x_j$ 在特征空间的内积等于他们在原始样本空间中通过函数 $κ\kappa$ 来计算的结果。
$\underset{\alpha}{\max} \sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m \alpha_i\alpha_j y_iy_j\kappa(\pmb{x_i,x_j}) \\ s.t. \ \sum_{i=1}^m \alpha_iy_i=0 , \alpha_i \ge 0, i=1,2,\cdots,m$
求解后可得到
$\begin{aligned} f(x) &= \pmb{w}^T\phi(\pmb{x})+b \\ &= \sum_{i=1}^m \alpha_i y_i\phi(\pmb{x_i})^T\phi(\pmb{x_i}) + b \\ &= \sum_{i=1}^m \alpha_i y_i \kappa(\pmb{x_i,x_j}) + b \end{aligned}$
这里的 $κ\kappa$ 就是核函数，显示出来的模型最优解可通过训练样本的核函数展开，称为支持向量展式

核函数

令 $X\mathcal{X}$ 为输入空间， $κ(⋅,⋅)\kappa(\cdot, \cdot)$ 是定义在 $X×X\mathcal{X}\times \mathcal{X}$ 上的对称函数，则 $κ\kappa$ 是核函数当且仅当对于任意数据 $,xm}D=\{\pmb{x_1,x_2,,\cdots,x_m}\}$ 。核矩阵 $K\pmb{K}$ 总是半正定的
$\pmb{K} = \begin{bmatrix} \kappa(\pmb{x_1,x_1}) & \cdots & \kappa(\pmb{x_1,x_j}) & \cdots & \kappa(\pmb{x_1,x_m}) \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ \kappa(\pmb{x_i,x_1}) & \cdots & \kappa(\pmb{x_i,x_j}) &\cdots & \kappa(\pmb{x_i,x_m}) \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ \kappa(\pmb{x_m,x_1}) & \cdots & \kappa(\pmb{x_m,x_j}) & \cdots & \kappa(\pmb{x_m,x_m}) \end{bmatrix}$
表明只要一个对称函数所对应的的核矩阵半正定，就能作为核函数使用。任何一个核函数都隐式地定义一个称为再生核希尔伯特空间(Reproducing Kernel Hilbert Sapce,RKHS)的特征空间。

常用的核函数

名称	表达式	参数
线性核	$κ(xi,xj)=xiTxj\kappa(x_i,x_j)=x_i^Tx_j$
多项式核	$κ(xi,xj)=(xiTxj)d\kappa(x_i,x_j)=(x_i^Tx_j)^d$	$d≥1d\ge 1$ 为多项式的次数
高斯核	$\kappa(x_i,x_j)=\exp(-\frac{
拉普拉斯核	$\kappa(x_i,x_j)=\exp(-\frac{
Sigmoid核	$κ(xi,xj)=tanh⁡(βjxiTxi+θ)\kappa(x_i,x_j)=\tanh(\beta jx_i^Tx_i+\theta)$	$tanh⁡\tanh$ 为双曲正切函数， $β>0,θ<0\beta>0,\theta <0$

还可以通过函数组合通过

若 $κ1\kappa_1$ 和 $κ2\kappa_2$ 为核函数，则对于任意整数 $γ1,γ2\gamma_1,\gamma_2$ 其线性组合为
$\gamma_1\kappa_1 + \gamma_2 \kappa_2$
也是核函数
若 $κ1\kappa_1$ 和 $κ2\kappa_2$ 是核函数，则核函数的直积
$\kappa_1\otimes\kappa_2(x,z) =\kappa_1(x,z)\kappa_2(x,z)$
也是核函数
若 $κ1\kappa_1$ 为核函数，则对于任意函数 $g (x)$
$\kappa(x,z) = g(x)\kappa_1(x,z)g(z)$

技术共进，成长同行——讯飞AI开发者社区

更多推荐

程序员必学！大模型五大核心技术(MCP/Agent/RAG/RPA/A2A)全解析（收藏版）

讯飞AI开发者社区

自然语言处理（NLP）基础

苹果”可以指一种水果，也可能指Apple 公司；“我今天早上没吃饭”中的“没”是否表示“完全没有”需要结合上下文。NLP 的任务就是让计算机能够“读懂”这些文字和语音，抽取其中的语义信息，从而与人类进行自然交流。简单来说，NLP 是计算机科学、人工智能与语言学的交叉学科。自然语言处理（NLP）让计算机能够理解和生成自然语言，是人工智能最贴近人类日常生活的技术之一。随着深度学习和大模型的发展，NLP

讯飞AI开发者社区

构建综合交通运输大模型：驱动交通强国建设的智能技术底座

最后，本文前瞻性地指出了在数据融合、模型复杂性、安全伦理等方面面临的挑战，并提出了相应的对策建议，以期为我国“人工智能+交通运输”的战略实施提供理论参考与实践指引。通过夯实“数据、算法、工具链”三大支柱，成功打造这一强大的智能技术底座，必将为我国构建安全、便捷、高效、绿色、经济的现代化综合交通体系提供核心驱动力，最终实现“人享其行、物畅其流”的美好愿景。通过对桥梁、隧道、轨道等基础设施的实时监测数