【机器学习基础】第十八课：支持向量机之核函数

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。

qq_34222839

1070人浏览 · 2025-04-07 21:06:31

qq_34222839 · 2025-04-07 21:06:31 发布

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。

1.核函数

在之前的博客中，我们假设训练样本是线性可分的，即存在一个划分超平面能将训练样本正确分类。然而在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面。例如下图中的“异或”问题就不是线性可分的：

对这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。例如在上图中，若将原始的二维空间映射到一个合适的三维空间，就能找到一个合适的划分超平面。⚠️幸运的是，如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分。

令 $\phi (\mathbf x)$ 表示将 $\mathbf x$ 映射后的特征向量，于是，在特征空间中划分超平面所对应的模型可表示为：

$f(\mathbf x)=\mathbf w ^T \phi (\mathbf x)+b \tag{1}$

其中 $\mathbf w,b$ 是模型参数，类似【机器学习基础】第十六课：支持向量机之间隔与支持向量中学到的SVM的基本型，有：

在这里插入图片描述

其对偶问题是：

在这里插入图片描述

求解式(3)涉及到计算 $\phi (\mathbf x_i)^T \phi (\mathbf x_j)$ ，这是样本 $\mathbf x_i$ 与 $\mathbf x_j$ 映射到特征空间之后的内积。由于特征空间维数可能很高，甚至可能是无穷维，因此直接计算 $\phi (\mathbf x_i)^T \phi (\mathbf x_j)$ 通常是困难的。为了避开这个障碍，可以设想这样一个函数：

$\kappa (\mathbf x_i,\mathbf x_j)=<\phi (\mathbf x_i)^T,\phi (\mathbf x_j)>=\phi (\mathbf x_i)^T \phi (\mathbf x_j) \tag{4}$

即 $\mathbf x_i$ 与 $\mathbf x_j$ 在特征空间的内积等于它们在原始样本空间中通过函数 $\kappa (\cdot,\cdot)$ 计算的结果。有了这样的函数，我们就不必直接去计算高维甚至无穷维特征空间中的内积，于是式(3)可重写为：

在这里插入图片描述

求解后即可得到：

$\begin{align} f(\mathbf x) & = \mathbf w^T \phi(\mathbf x) +b \\ & = \sum_{i=1}^m \alpha_i y_i \phi (\mathbf x_i)^T \phi (\mathbf x) + b \\ & = \sum_{i=1}^m \alpha_i y_i \kappa (\mathbf x, \mathbf x_i) + b \end{align} \tag{6}$

这里的函数 $\kappa(\cdot,\cdot)$ 就是 “核函数(kernel function)” 。式(6)显示出模型最优解可通过训练样本的核函数展开，这一展式亦称 “支持向量展式(support vector expansion)”。

显然，若已知合适映射 $\phi (\cdot)$ 的具体形式，则可写出核函数 $\kappa(\cdot,\cdot)$ 。但在现实任务中我们通常不知道 $\phi (\cdot)$ 是什么形式，那么，合适的核函数是否一定存在呢？什么样的函数能做核函数呢？我们有下面的定理：

核函数定理： 令 $\chi$ 为输入空间， $\kappa(\cdot,\cdot)$ 是定义在 $\chi \times \chi$ 上的对称函数，则 $\kappa$ 是核函数当且仅当对于任意数据 $D=\{\mathbf x_1,\mathbf x_2,...,\mathbf x_m \}$ ，“核矩阵”(kernel matrix) $K$ 总是半正定的：

$\mathbf K = \begin{bmatrix} \kappa (\mathbf x_1,\mathbf x_1) & \cdots & \kappa (\mathbf x_1,\mathbf x_j) & \cdots & \kappa (\mathbf x_1,\mathbf x_m) \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ \kappa (\mathbf x_i,\mathbf x_1) & \cdots & \kappa (\mathbf x_i,\mathbf x_j) & \cdots & \kappa (\mathbf x_i,\mathbf x_m) \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ \kappa (\mathbf x_m,\mathbf x_1) & \cdots & \kappa (\mathbf x_m,\mathbf x_j) & \cdots & \kappa (\mathbf x_m,\mathbf x_m) \end{bmatrix}$

上述定理表明，只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。事实上，对于一个半正定核矩阵，总能找到一个与之对应的映射 $\phi$ 。换言之，任何一个核函数都隐式地定义了一个称为 “再生核希尔伯特空间”(Reproducing Kernel Hilbert Space，简称RKHS) 的特征空间。

通过前面的讨论可知，我们希望样本在特征空间内线性可分，因此特征空间的好坏对支持向量机的性能至关重要。需注意的是，在不知道特征映射的形式时，我们并不知道什么样的核函数是合适的，而核函数也仅是隐式地定义了这个特征空间。

⚠️于是，“核函数选择”成为支持向量机的最大变数。若核函数选择不合适，则意味着将样本映射到了一个不合适的特征空间，很可能导致性能不佳。