机器学习与高维信息检索 - Note 6 - 核，核方法与核函数（Kernels and the Kernel Trick）

到目前为止，我们所讨论的机器学习算法的成功都依赖于对输入数据分布的假设。例如，PCA的效果越好，数据围绕线性子空间分布。或者在线性判别分析中，我们假设类的高斯分布，甚至有相同的协方差矩阵。为了更好地考虑输入数据的其他更复杂的分布，扩展方法的一种方式是采用所谓的核方法。它允许概括所有基本上只有标准内积作为输入数据的方法。在机器学习中，核是一类用于模式分析的算法，其最著名的成员是支持向量机(SVM)。

Stan Fu

1563人浏览 · 2022-01-27 01:48:51

Stan Fu · 2022-01-27 01:48:51 发布

Note 6 核，核方法与核函数

到目前为止，我们所讨论的机器学习算法的成功都依赖于对输入数据分布的假设。例如，PCA的效果越好，数据围绕线性子空间分布。或者在线性判别分析中，我们假设类的高斯分布，甚至有相同的协方差矩阵。

为了更好地考虑输入数据的其他更复杂的分布，扩展方法的一种方式是采用所谓的核方法。它允许概括所有基本上只有标准内积作为输入数据的方法。

更确切地说，考虑一个ML算法，其输入数据可以是无标签的，即 $x1,…,xn\mathbf{x}_{1}, \ldots, \mathbf{x}_{n}$ 或有标签的，即 $(x1,y1),…,(xn,yn)\left(\mathbf{x}_{1}, \mathbf{y}_{1}\right), \ldots,\left(\mathbf{x}_{n}, \mathbf{y}_{n}\right)$ 。此外，假设该算法实际上只使用了输入数据的 $⟨xi,xj⟩:=xi⊤xj\left\langle\mathbf{x}_{i}, \mathbf{x}_{j}\right\rangle:=\mathbf{x}_{i}^{\top} \mathbf{x}_{j}$ 。然后，将 $⟨xi,xj⟩\left\langle\mathbf{x}_{i}, \mathbf{x}_{j}\right\rangle$ 替换为某个函数 $κ(xi,xj)\kappa\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)$ ，该函数是内积的适当概括（即核），称为核方法，参见图6.1。由此产生的学习方法通常被命名为 "核 "一词的前缀。这个技巧通常可以将基于数据分布的线性假设的方法扩展到更复杂的非线性分布。

在这里插入图片描述

图6.1：核方法的说明。用核代替机器学习算法中的标准内积，以获得该方法的 "核 "版本。

Kernel method $^{[1]}$

[1] 这部分来自于wikipedia，对于核有更详细的说明与介绍。

核方法可以被认为是基于实例的学习器：它们不是学习一些与输入特征相对应的固定参数集，而是 "记住"第 $i$ 个训练实例 $(xi,yi)(\mathbf {x} _{i},y_{i})$ ，并为其学习相应的权重 $w_{i}$ 。对未标记的输入，即那些不在训练集中的输入的预测，是通过应用一个相似性函数 $k$ ，称为核。核是在未标记的输入 $x′\mathbf {x'}$ 和每个训练输入 $xi\mathbf {x} _{i}$ 之间的相似度函数，它衡量它们之间的相似性。例如，一个核的二元分类器通常计算相似性的加权和

$y^=sgn⁡∑i=1nwiyik(xi,x′),{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} ),$
其中

$y^∈{−1,+1}{\hat {y}}\in \{-1,+1\}$ 是核化二元分类器对未标记的输入的预测标签。
$x′\mathbf {x'}$ 其隐藏的真实标签y是我们感兴趣的。
$⁣:X×X→Rk\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ 是衡量任何一对输入 $x,x′∈X;\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}};$ 之间相似性的内核函数。
$∑\sum$ 的范围是分类器训练集中的 $n$ 个已标记的例子， $(xi,yi)i=1n{(\mathbf {x} _{i},y_{i})}_{i=1}^{n}$ ，其中 $yi∈{−1,+1}y_{i} \in \{-1,+1\}$ 。
$wi∈Rw_{i}\in \mathbb {R}$ 是训练实例的权重，由学习算法决定。
符号函数 ${sgn}$ 决定了预测的分类 $y^{\hat {y}}$ 的结果是正还是负。

核分类器早在20世纪60年代就被描述过，当时发明了核感知器。随着支持向量机（SVM）在20世纪90年代的流行，核分类器的地位大为提高，当时SVM被发现在手写数字识别等任务上可以与神经网络相竞争。

因此，核的定义如下。它概括了标准的内积。

Definition 6.1

一个（半正定）核是一个函数 $κ:Rp×Rp→R\kappa: \mathbb{R}^{p} \times \mathbb{R}^{p} \rightarrow \mathbb{R}$ 对于所有有限集合 $X={x1,…,xn}\mathbf{X}=\left\{\mathbf{x}_{1}, \ldots, \mathbf{x}_{n}\right\}$ 的 $\times n$ 矩阵
$\mathbf{K}:=\left[\begin{array}{ccc} \kappa\left(\mathbf{x}_{1}, \mathbf{x}_{1}\right) & \ldots & \kappa\left(\mathbf{x}_{1}, \mathbf{x}_{n}\right) \\ \vdots & \ddots & \vdots \\ \kappa\left(\mathbf{x}_{n}, \mathbf{x}_{1}\right) & \ldots & \kappa\left(\mathbf{x}_{n}, \mathbf{x}_{n}\right) \end{array}\right] \tag{6.1}$

是对称的和正半定的。矩阵 $K\mathbf{K}$ 被称为 $κ\kappa$ 和X的Gram-Matrix。 对于一个给定的函数 $κ\kappa$ ，通常很难说它是否是一个核函数。然而，必要的条件，如对称性和正定性是很容易检查的。

Example 6.2

函数 $κ(x,y)=∥x∥∥y∥−1\kappa(\mathbf{x}, \mathbf{y})=\|\mathbf{x}\|\|\mathbf{y}\|-1$ 不能是核，因为存在一个有限集合，即 ${0}⊂Rp\{0\} \subset \mathbb{R}^{p}$ ，这样相关的Gram-Matrix（在这种情况下是 $\times 1$ ） $K=−1\mathbf{K}=-1$ 是负定的。

或者考虑函数 $κ(x,y)=e−∥x−y∥−∥y∥\kappa(\mathbf{x}, \mathbf{y})=\mathrm{e}^{-\|\mathbf{x}-\mathbf{y}\|-\|\mathbf{y}\|}$ 。很容易看出，一般来说， $κ(x,y)≠κ(y,x)\kappa(\mathbf{x}, \mathbf{y}) \neq \kappa(\mathbf{y}, \mathbf{x})$ ，因此它不可能是一个核函数。

几个常见的核是

the linear Kernel $κ(x,y)=x⊤y+c,c≥0\kappa(\mathbf{x}, \mathbf{y})=\mathbf{x}^{\top} \mathbf{y}+c, c \geq 0$ ;
the polynomial Kernel $κ(x,y)=(αx⊤y+c)d,c,α,d≥0\kappa(\mathbf{x}, \mathbf{y})=\left(\alpha \mathbf{x}^{\top} \mathbf{y}+c\right)^{d}, c, \alpha, d \geq 0$ ;
the Gaussian Kernel $κ(x,y)=exp⁡(−∥x−y∥22σ2),σ>0\kappa(\mathbf{x}, \mathbf{y})=\exp \left(-\frac{\|\mathbf{x}-\mathbf{y}\|^{2}}{2 \sigma^{2}}\right), \sigma>0$ ;
the exponential Kernel $κ(x,y)=exp⁡(−∥x−y∥2σ2),σ>0;\kappa(\mathbf{x}, \mathbf{y})=\exp \left(-\frac{\|\mathbf{x}-\mathbf{y}\|}{2 \sigma^{2}}\right), \sigma>0 ;$

从半正定矩阵的属性中可以直接得出，如果 $κ1\kappa_{1}$ 和 $κ2\kappa_{2}$ 是核，并且如果 $c > 0$ ，那么也就是

$\kappa_{1}$
$c+κ1c+\kappa_{1}$
$κ1+κ2\kappa_{1}+\kappa_{2}$
$κ1κ2\kappa_{1} \kappa_{2}$ .

此外，对于任何实值函数 $\mathbb{R}^{p} \rightarrow \mathbb{R}$ ，我们可以通过 $κ:=\kappa:=$ $f(x)⋅f(y)f(\mathbf{x}) \cdot f(\mathbf{y})$ 构造一个核。注意，在这种情况下，相应的Gram-Matrix的秩最多为1。
在这里插入图片描述

图6.2： $R2\mathbb{R}^{2}$ 中的数据集和映射 $ϕ:R2→R3,ϕ(x1,x2)=[x1,x2,x12+x22]⊤\phi: \mathbb{R}^{2} \rightarrow \mathbb{R}^{3}, \phi\left(x_{1}, x_{2}\right)=\left[x_{1}, x_{2}, x_{1}^{2}+x_{2}^{2}\right]^{\top}$ 。

Mercer’s Theorem

Theorem 6.3 （Mercer）

对于任何对称函数 $κ:X×X\kappa: \mathcal{X} \times \mathcal{X}$ 在 $X×X\mathcal{X} \times \mathcal{X}$ 中是平方可积的，并且满足 $∫X×Xf(x)κ(x,y)f(y)dxdy≥0\int_{\mathcal{X} \times \mathcal{X}} f(x) \kappa(x, y) f(y) d x d y \geq 0$ 对于所有 $\in L_{2}(\mathcal{X})$ 存在函数 $ϕi\phi_{i}$ 和标量 $λi≥0\lambda_{i} \geq 0$ 的情况。因此有

$\kappa(x, y)=\sum_{i} \lambda_{i} \phi_{i}(x) \phi_{i}(y) \quad \text { for all } x, y \in \mathcal{X} . \tag{6.2}$

核是一个连续函数，它取两个变量 $x, y$ 并将它们映射为一个实值， $κ(x,y)=κ(y,x)\kappa(x, y)=\kappa(y, x)$ 。当且仅当 $∬f(x)κ(x,y)f(y)dxdy≥0\iint f(x) \kappa(x, y) f(y) d x d y \geq 0$ 时，核是正半定的。与核 $κ\kappa$ 相关，我们可以定义一个积分算子 $TκT_{\kappa}$ ，当它应用于一个函数 $f (x)$ 时，会产生另一个函数。

$T_{\kappa}(f(x))=\int \kappa(x, y) f(y) d y=\left[T_{\kappa} f\right](x) .$

这是一个线性函数，因此有特征值 $λi\lambda_{i}$ 和特征函数 $ϕi(⋅)\phi_{i}(\cdot)$ 。它们被定义为

$T_{\kappa}\left(\phi_{i}(x)\right)=\int \kappa(x, y) \phi(y) d y=\lambda_{i} \phi_{i}(x)$

特征值 $λi\lambda_{i}$ 是非负的，特征函数 $ϕi(x)\phi_{i}(x)$ 是正定的，即 $∫ϕi(x)ϕj(x)dx=δij\int \phi_{i}(x) \phi_{j}(x) d x=\delta_{i j}$ 。一组基础函数的非零特征值所对应的特征函数，以便内核可以通过以下方式进行分解
$\kappa(x, y)=\sum_{i=1}^{\infty} \lambda_{i} \phi_{i}(x) \phi_{i}(y) . \tag{6.3}$

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

机器学习是人工智能的核心子领域，通过算法让计算机从数据中自动学习规律并做出预测或决策。人工智能则更广泛，涵盖模拟人类智能的所有技术，包括推理、知识表示、自然语言处理等。机器学习是人工智能的核心子领域，通过算法让计算机从数据中自动学习规律并做出预测或决策。人工智能则更广泛，涵盖模拟人类智能的所有技术，包括推理、知识表示、自然语言处理等。

讯飞AI开发者社区

李飞飞最新成果：AI不再只会说话，大世界模型（LWMs）叙事开启！

她认为，正如五亿多年前生物视觉的进化，以前所未有的方式点燃了生命形态与智能的爆炸性增长，赋予机器空间智能，也将为AI带来一次类似的范式飞跃。在她看来，任何缺少空间智能的通用人工智能（AGI）都是不完整的。同时，这也与李飞飞长期关注的医疗健康“环境智能”理念不谋而合——具备空间感知力的AI系统，可以在不侵犯隐私的前提下，默默守护病患安全，辅助医护工作。从google的最新进展，到这次李飞飞的成果展示