机器学习算法——支持向量机SVM6(软间隔)

前面的文章中我们一直假定训练样本在样本空间或特征空间中是线性可分的，即存在一个超平面能将不同类的样本完全划分开。然而，在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分。退一步说，即使恰好找到了某个核函数使训练样本在特征空间中线性可分，也很难判定这个貌似线性可分的结果不是由于过拟合造成的。缓解该问题的方法就是要引入“软间隔”概念，即允许支持向量机在一些样本上出错。在机器学习算法—

Vicky_xiduoduo

2095人浏览 · 2022-04-22 17:58:17

Vicky_xiduoduo · 2022-04-22 17:58:17 发布

$\xi$ 前面的文章中我们一直假定训练样本在样本空间或特征空间中是线性可分的，即存在一个超平面能将不同类的样本完全划分开。然而，在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分。退一步说，即使恰好找到了某个核函数使训练样本在特征空间中线性可分，也很难判定这个貌似线性可分的结果不是由于过拟合造成的。

缓解该问题的方法就是要引入“软间隔”概念，即允许支持向量机在一些样本上出错。

在机器学习算法——支持向量机SVM2(硬间隔与支持向量)_Vicky_xiduoduo的博客-CSDN博客中讲解的硬间隔，软间隔就是允许某些样本不满足以下约束

当然，在最大化间隔的同时，不满足约束的样本应尽可能地少。

故，需要放松原始判别函数中地不等式条件，来让决策边界能够适用于异常点，所以引入松弛变量 $\xi_i \geqslant 0$ 来帮助优化原始的判别函数：

$\left\{\begin{matrix} w^Tx_i+b \geqslant 1-\xi_i, y_i=+1\\ w^T x_i+b \leqslant -1+\xi_i, y_i =-1\\ \end{matrix}\right.$

即 $y_i(w^Tx_i+b) \geqslant 1-\xi_i$

所以此时，“软间隔支持向量机”可以写为

$\underset{w,b, \xi}{min} \frac{1}{2} ||w||^2 + C \sum_{i=1}^{m} \xi_i \\ \\ s.t. y_i(w^Tx_i+b) \geqslant 1-\xi_i\\ \\ \xi_i \geqslant0, i=1,2,...,m$
所以，和之前推导的拉格朗日函数一样，仍是一个二次规划问题，也是得到上式的拉格朗日函数为：

$L(w,b, \alpha, \xi,\mu )= \frac{1}{2} ||w||^2+C\sum_{i=1}^{m}\xi_i +\sum_{i=1}^{m} \alpha_i(1-\xi_i-y_i(w^Tx_i+b)) -\sum_{i=1}^{m} \mu_i \xi_i$

其中， $\alpha_i \geqslant 0, \mu_i \geqslant 0$ 是拉格朗日乘子。

令 $L(w,b,\alpha,\xi,\mu)$ 对 $w,b,\xi_i$ 的偏导为零可得，

$w=\sum_{i=1}^{m} \alpha_i y_ix_i\\ \\ 0=\sum_{i=1}^{m} \alpha_iy_i \\ \\ C=\alpha_i+\mu_i$

然后将上式带回到拉格朗日函数中，得到对偶问题为：

$\underset{\alpha}{max} \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_jy_i y_j x_i^Tx_j\\ \\ s.t. \sum_{i=1}^{m} \alpha_i y_i =0 \\ \\ 0\leqslant \alpha_i\leqslant C,i=1,2,...,m$

与硬间隔相比，两者唯一的差别在对偶变量的约束不同。

然后采用SMO算法求解上式a，在引入核函数后也能得到之前章节讲的支持向量展式。

对软间隔支持向量机，KTT条件要求为：

$\left\{\begin{matrix} \alpha_i , \mu_i \geqslant 0\\ y_if(x_i)-1+\xi_i \geqslant 0\\ \alpha_i(y_if(x_i)-1+\xi_i) =0 \\ \xi_i \geqslant 0, \mu_i \xi_i=0 \end{matrix}\right.$

若对于任意的样本（xi,yi），总有ai=0或 $y_if(x_i)=1-\xi_i$ ,若 $\alpha_i=0$ 不会对f(x)有任何影响.若 $\alpha_i> 0$ ，则必有 $y_if(x_i)=1-\xi_i$ 即该样本是支持向量。由 $C=\alpha_i+\mu_i$ 可知，若 $\alpha_i<C$ ,则 $\mu_i > 0$ ,则 $\xi_i=0$ ，即该样本恰好在最大间隔边界上。若 $\alpha_i=C$ ,则 $\mu_i=0$ ,此时若 $\xi_i\leqslant 1$ ，则该样本落在最大间隔内部，若 $\xi_i>0$ ，则样本被错误分类。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

大数据领域数据架构的人工智能融合应用

随着企业数据规模以年均40%的速度爆炸式增长（Gartner, 2023），传统数据架构在处理多模态数据、支撑实时智能决策时面临效率瓶颈。如何通过AI实现数据治理的自动化与智能化机器学习如何优化数据存储与查询效率深度学习模型在实时数据流处理中的应用范式智能决策系统与数据中台的架构耦合机制背景部分定义核心概念与技术演进路径核心章节解析融合架构的技术组件与算法实现实战篇提供完整的端到端解决方案应用篇呈