《菜菜的机器学习sklearn课堂》降维算法PCA和SVD

降维算法PCA和SVD什么是维度sklearn中的降维算法PCA 与 SVD降维究竟是怎样实现的？重要参数 n_components什么是维度对于数组和Series来说，维度就是方法shape返回的结果。索引以外的数据：不分行列的叫一维（shape返回唯一的维度上的数据个数）有行列之分叫二维（shape返回行x列），也称为表一张非复数的表最多二维，复数的表可以构成更高的维度当一个数组中存在2张3行

萌宅鹿同学

1274人浏览 · 2021-02-21 01:25:23

萌宅鹿同学 · 2021-02-21 01:25:23 发布

降维算法PCA和SVD

什么是维度?
sklearn中的降维算法
PCA 与 SVD
降维究竟是怎样实现的？
PCA重要参数 n_components
迷你案例：高维数据的可视化
附录

什么是维度?

对于数组和Series来说，维度就是方法shape返回的结果。

索引以外的数据：

不分行列的叫一维（shape返回唯一的维度上的数据个数）
有行列之分叫二维（shape返回行x列），也称为表
一张非复数的表最多二维，复数的表可以构成更高的维度
当一个数组中存在2张3行4列的表时，shape返回的是(2, 3, 4)
当数组中存在2组2张3行4列的表时，数据就是4维，shape返回(2, 2, 3, 4)

数组中的每一张表，都可以是一个特征矩阵或一个DataFrame，这些结构永远只有一张表，所以一定有行列，其中行是样本，列是特征。针对每一张表，维度指的是样本的数量或特征的数量，一般无特别说明，指的都是特征的数量。

除了索引之外，一个特征是1维，两个特征是2维，n个特征是n维。
在这里插入图片描述

对图像来说，维度就是图像中特征向量的数量。特征向量可以理解为是坐标轴：

一个特征向量定义一条直线，是一维
两个相互垂直的特征向量定义一个平面，即一个直角坐标系，是二维
三个相互垂直的特征向量定义一个空间，即一个立体直角坐标系，是三维
三个以上的特征向量相互垂直，定义人眼无法看见，也无法想象的高维空间

降维算法中的”降维“，指的是降低特征矩阵中特征的数量。

降维的目的是：

让算法运算更快，效果更好
数据可视化（3维以上数据就无法可视化）

sklearn中的降维算法

sklearn中的降维算法都在模块decomposition中，该模块本质是一个矩阵分解模块。

在过去的十年中，如果要讨论算法的进步，矩阵分解可以说是独树一帜。
矩阵分解可以用在降维、深度学习、聚类分析、数据预处理、低纬度特征学习、推荐系统、大数据分析等领域。在2006年，Netflix曾经举办了一个奖金为100万美元的推荐系统算法比赛，最后的获奖者就使用了矩阵分解中的明星：奇异值分解SVD。

在这里插入图片描述
SVD 和 主成分分析PCA 都属于矩阵分解算法中的入门算法（难度并不简单），都是通过分解特征矩阵来进行降维。想了解更多原理性的数学知识需要自己读论文，我们将简单学习降维算法的原理。

PCA 与 SVD

在降维过程中，我们会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受影响。同时，在高维数据中，必然有一些特征是不带有有效的信息的（比如噪音），或者有一些特征带有的信息和其他一些特征是重复的（比如一些特征可能会线性相关）。我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量，让我们在降维的过程中，能够既减少特征的数量，又保留大部分有效信息——将那些带有重复信息的特征合并，并删除那些带无效信息的特征等等——逐渐创造出能够代表原特征矩阵大部分信息的，特征更少的，新特征矩阵。

上周的特征工程课中，我们提到过一种重要的特征选择方法：方差过滤。如果一个特征的方差很小，则意味着这个特征上很可能有大量取值都相同（比如90%都是1，只有10%是0，甚至100%是1），那这一个特征的取值对样本而言就没有区分度，这种特征就不带有有效信息。从方差的这种应用就可以推断出：如果一个特征的方差很大，则说明这个特征上带有大量的信息。因此，在降维中，PCA使用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的信息量越多。
$V_{ar} = \frac 1 {n-1} \sum _{i=1} ^n (x_i - \hat{x}) ^2$
$V_{ar}$ 代表一个特征的方差，n代表样本量， $x_i$ 代表一个特征中的每个样本取值， $\hat x$ 代表这一列样本的均值。

面试高频问题：
方差计算公式中为什么除数是 n-1?
这是为了得到样本方差的无偏估计，更多可以自己去探索。

降维究竟是怎样实现的？

class sklearn.decomposition.PCA(
	n_components=None, 
	copy=True, 
	whiten=False, 
	svd_solver='auto', 
	tol=0.0,
	iterated_power='auto', 
	random_state=None
)

PCA作为矩阵分解算法的核心算法，其实没有太多参数，但每个参数的意义和运用都很难，因为几乎每个参数都涉及到高深的数学原理。为了参数的运用和意义变得明朗，我们来看一组简单的二维数据的降维。

在这里插入图片描述
我们现在有一组简单的数据，有特征x₁和x₂，三个样本数据的坐标点分别为(1,1)，(2,2)，(3,3)。我们可以让x₁和x₂分别作为两个特征向量，很轻松地用一个二维平面来描述这组数据。这组数据现在每个特征的均值都为2，方差则等于：
$x_1\_{var} = x_2\_var = \frac {(1-2)^2 + (2-2)^2 + (3-2)^2} 2 = 1$
每个特征的数据一模一样，因此方差也都为1，数据的方差总和是2。

现在我们的目标是：只用一个特征向量来描述这组数据，即将二维数据降为一维数据，并且尽可能地保留信息量，即让数据的总方差尽量靠近2。于是，我们将原本的直角坐标系逆时针旋转45°，形成了新的特征向量x₁*和x₂*组成的新平面，在这个新平面中，三个样本数据的坐标点可以表示为： $(\sqrt2,0)$ ， $(2\sqrt2,0)$ ， $(3\sqrt2,0)$ 。可以注意到，x₂*上的数值此时都变成了0，因此x₂*明显不带有任何有效信息了（此时x₂*的方差也为0了）。此时，x₁*特征上的数据均值是 $2\sqrt2$ ，而方差则可表示成：
$x_2^*\_var = \frac {(\sqrt2 - 2\sqrt2)^2 + (2\sqrt2 -2\sqrt2)^2 + (3\sqrt2 - 2\sqrt2)^2} 2 = 2$
x₁* 上的数据均值为0，方差也为0。

此时，我们根据信息含量的排序，取信息含量最大的一个特征，因为我们想要的是一维数据。所以我们可以将x₂*删除，同时也删除图中的x₂*特征向量，剩下的x₁*就代表了曾经需要两个特征来代表的三个样本点。通过旋转原有特征向量组成的坐标轴来找到新特征向量和新坐标平面，我们将三个样本点的信息压缩到了一条直线上，实现了二维变一维，并且尽量保留原始数据的信息。一个成功的降维就实现了。

在这里插入图片描述

在这个降维过程中，有几个重要的步骤，同时将2维延伸到n维：
在这里插入图片描述
在步骤3当中，我们用来找出n个新特征向量，让数据能够被压缩到少数特征上并且总信息量不损失太多的技术就是矩阵分解。

PCA和SVD是两种不同的降维算法，但他们都遵从上面的过程来实现降维，只是两种算法中矩阵分解的方法不同，信息量的衡量指标不同罢了。

PCA使用方差作为信息量的衡量指标，并且特征值分解来找出空间V。
降维时，它会通过一系列数学的神秘操作（比如说，产生协方差矩阵 $\frac 1 n XX^T$ ）将特征矩阵X分解为以下三个矩阵，其中 $Q$ 和 $Q^{-1}$ 是辅助的矩阵， $\Sigma$ 是一个对角矩阵（即除了对角线上有值，其他位置都是0的矩阵），其对角线上的元素就是方差。
降维完成之后，PCA找到的每个新特征向量就叫做“主成分”，而被丢弃的特征向量被认为信息量很少，这些信息很可能就是噪音。
$\rightarrow 数学神秘的宇宙 \rightarrow Q \Sigma Q^{-1}$
SVD使用奇异值分解来找出空间V，其中 $\Sigma$ 也是一个对角矩阵，不过它对角线上的元素是奇异值，这也是SVD中用来衡量特征上的信息量的指标。
U和 $V^{T}$ 分别是左奇异矩阵和右奇异矩阵，也都是辅助矩阵。
$\rightarrow 另一个数学神秘宇宙 \rightarrow U\Sigma V^T$

在数学原理中，无论是PCA和SVD都需要遍历所有的特征和样本来计算信息量指标。并且在矩阵分解的过程之中，会产生比原来的特征矩阵更大的矩阵，比如原数据的结构是(m,n)，在矩阵分解中为了找出最佳新特征空间V，可能需要产生(n,n)，(m,m)大小的矩阵，还需要产生协方差矩阵去计算更多的信息。而现在无论是Python还是R，或者其他的任何语言，在大型矩阵运算上都不是特别擅长，无论代码如何简化，我们不可避免地要等待计算机去完成这个非常庞大的数学计算过程。因此，降维算法的计算量很大，运行比较缓慢，但无论如何，它们的功能无可替代，它们依然是机器学习领域的宠儿。

思考：PCA和特征选择技术都是特征工程的一部分，它们有什么不同？
特征工程中有三种方式：特征提取，特征创造和特征选择。
特征选择是从已存在的特征中选取携带信息最多的，选完之后的特征依然具有可解释性，我们依然知道这个特征在原数据的哪个位置，代表着原数据上的什么含义。

而PCA，是将已存在的特征进行压缩，降维完毕后的特征不是原本的特征矩阵中的任何一个特征，而是通过某些方式组合起来的新特征。通常来说，在新的特征矩阵生成之前，我们无法知晓PCA都建立了怎样的新特征向量，新特征矩阵生成之后也不具有可读性，我们无法判断新特征矩阵的特征是从原数据中的什么特征组合而来，新特征虽然带有原始数据的信息，却已经不是原数据上代表着的含义了。以PCA为代表的降维算法因此是特征创造（feature creation，或feature construction）的一种。

可以想见，PCA一般不适用于探索特征和标签之间的关系的模型（如线性回归），因为无法解释的新特征和标签之间的关系不具有意义。在线性回归模型中，我们使用特征选择。

PCA重要参数 n_components

n_components是我们降维后需要的维度，即降维后需要保留的特征数量，一般输入[0, min(X.shape)]范围中的整数。

如果我们希望可视化一组数据来观察数据分布，我们往往将数据降到三维以下，很多时候是二维，即n_components的取值为2。

…

迷你案例：高维数据的可视化

1.调用库和模块

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris # 鸢尾花数据集
from sklearn.decomposition import PCA

2.提取数据集

iris = load_iris()

y = iris.target # 分类
# iris.target_names # 分类的名字

X = iris.data # 数据
# 作为数组，X是几维？
# X.shape #作为数组，它有150行4列，是2维

#作为数据表或特征矩阵，X是几维？
import pandas as pd
pd.DataFrame(X) #作为特征矩阵，它有4个特征，所以是4维

3.建模

#调用PCA
pca = PCA(n_components=2) #实例化
pca = pca.fit(X) #拟合模型
X_dr = pca.transform(X) #获取降维后的新特征矩阵

# fit_transform可以代替上面三行代码
# X_dr = PCA(2).fit_transform(X)

# X_dr.shape # 150行，2列

# pd.DataFrame(X_dr) # 降维后特征矩阵有2个特征，所以是二维

4.可视化

# 要将三种鸢尾花的数据分布显示在二维平面坐标系中，
# 对应的两个坐标（两个特征向量）应该是三种鸢尾花降维后的x1和x2，
# 怎样才能取出三种鸢尾花下不同的x1和x2呢？
y # 结果显示为3分类
 
"""
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])
"""

X_dr[y == 0, 0] # 布尔索引，表示取分类为0的第一列
X_dr[y == 1, 0] # 取分类为1的第一列


# 要展示三种分类的分布，需要对三种鸢尾花分别绘图
# 可以写成三行代码，也可以写成for循环
# iris.target_names #分类的名字

# 画法1
plt.figure()
plt.scatter(X_dr[y==0, 0], X_dr[y==0, 1], c="red", label=iris.target_names[0])
plt.scatter(X_dr[y==1, 0], X_dr[y==1, 1], c="black", label=iris.target_names[1])
plt.scatter(X_dr[y==2, 0], X_dr[y==2, 1], c="orange", label=iris.target_names[2])
plt.legend()
plt.title('PCA of IRIS dataset')
plt.show()

# 画法2
colors = ['red', 'black', 'orange']

plt.figure()
for i in [0, 1, 2]:
    plt.scatter(X_dr[y == i, 0], 
                X_dr[y == i, 1],
                alpha=.7, #点的透明程度70%
                c=colors[i],
                label=iris.target_names[i])
plt.legend()
plt.title('PCA of IRIS dataset')
plt.show()

在这里插入图片描述
鸢尾花的分布被展现在我们眼前了，明显这是一个分簇的分布，并且每个簇之间的分布相对比较明显，也许 versicolor 和 virginia 这两种花之间会有一些分类错误，但setosa肯定不会被分错。

这样的数据很容易分类，可以遇见：KNN，随机森林，神经网络，朴素贝叶斯，Adaboost这些分类器在鸢尾花数据集上，未调整的时候都可以有95%上下的准确率。

5.探索降维后的数据

#属性explained_variance_，查看降维后每个新特征向量上所带的信息量大小（可解释性方差的大小）
pca.explained_variance_

array([4.22824171, 0.24267075])

#属性explained_variance_ratio，查看降维后每个新特征向量所占的信息量占原始数据总信息量的百分比
#又叫做可解释方差贡献率
pca.explained_variance_ratio_

array([0.92461872, 0.05306648])

#大部分信息都被有效地集中在了第一个特征上
pca.explained_variance_ratio_.sum()
#降维后保留了97.768%的信息

0.977685206318795

6.选择最好的n_components：累积可解释方差贡献率曲线

当参数n_components中不填写任何值，则默认返回min(X.shape)个特征，一般样本量都会大于特征数目，所以什么都不填就相当于转换了新特征空间，但没有减少特征的个数。

一般来说，不会使用这种输入方式。但我们却可以使用这种输入方式来画出累计可解释方差贡献率曲线，以此选择最好的n_components的整数取值。

累积可解释方差贡献率曲线：

横坐标：降维后保留的特征个数
纵坐标：降维后新特征矩阵捕捉到的可解释方差贡献率

累积可解释方差贡献率曲线能够帮助我们决定 n_components 最好的取值。

import numpy as np
pca_line = PCA().fit(X)

pca_line.transform(X).shape # (150, 4) 特征值个数没有变

# 降维后新特征矩阵捕捉到的可解释方差贡献率
pca_line.explained_variance_ratio_
"""
array([0.92461872, 0.05306648, 0.01710261, 0.00521218])
"""

# [1,2,3,4]是设置横坐标，默认是0,1,2,3
plt.plot([1,2,3,4], np.cumsum(pca_line.explained_variance_ratio_))
plt.xticks([1,2,3,4]) #这是为了限制坐标轴显示为整数
plt.xlabel("number of components after dimension reduction")
plt.ylabel("cumulative explained variance ratio")
plt.show()

在这里插入图片描述

附录

PCA参数列表

在这里插入图片描述

PCA属性列表

在这里插入图片描述

PCA接口列表

在这里插入图片描述

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，