机器学习之PCA降维

svd_solver:设置特征值分解的方法，默认为'auto',其他可选有‘full’,‘arpack’,‘randomized’。n_components:指定主要成分的个数，即降维后数据的维度。下面是实现的具体代码。运行后会画出一个散点图。

发光发热小流星

322人浏览 · 2023-04-26 12:41:18

发光发热小流星 · 2023-04-26 12:41:18 发布

sklearn.decomposition.PCA
主要参数：
n_components:指定主要成分的个数，即降维后数据的维度
svd_solver:设置特征值分解的方法，默认为'auto',其他可选有‘full’,‘arpack’,‘randomized’。

这里一鸢尾花数据为例，这个数据集是4维的，结构如下：

使用PCA对其降维2维后结构如下：

下面是实现的具体代码

import matplotlib.pyplot as plt
#加载matplotlib用于数据的可视化
from sklearn.decomposition import PCA
#加载PCA算法包
from sklearn.datasets import load_iris
#加载鸢尾花数据
data = load_iris()#以字典形式加载数据
y=data.target#使用y表示数据集中的标签
x=data.data#使用x表示数据集的属性数据
pca=PCA(n_components=2)
#加载PCA算法，设置降维后的维度为2
reduced_x=pca.fit_transform(x)
#对原始数据进行降维，保存在reduced_x中
red_x,red_y=[],[]
blue_x,blue_y=[],[]
green_x,green_y=[],[]
#三类数据点
#按照鸢尾花的类别进行降维处理
for i in range(len(reduced_x)):
    if y[i]==0:
        red_x.append(reduced_x[i][0])
        red_y.append(reduced_x[i][1])
    elif y[i]==1:
        blue_x.append(reduced_x[i][0])
        blue_y.append(reduced_x[i][1])
    else:
        green_x.append(reduced_x[i][0])
        green_y.append(reduced_x[i][1])
#对降维后的数据可视化
plt.scatter(red_x,red_y,c='r',marker='x')
plt.scatter(blue_x,blue_y,c='b',marker='D')
plt.scatter(green_x,green_y,c='g',marker='.')
plt.show()

运行后会画出一个散点图

技术共进，成长同行——讯飞AI开发者社区

更多推荐

[深度学习]卷积神经网络

本实验基于Python和PyTorch框架比较了LeNet、AlexNet、VGG和ResNet四种经典CNN模型在FashionMNIST数据集上的表现，并重点研究了超参数调整对模型性能的影响。实验结果表明：1）对于所有模型，SGD优化器普遍比Adam表现更好；2）学习率在0.05左右时模型性能最佳；3）增加训练轮数可以提高准确率但会延长训练时间；4）批量大小对模型性能影响相对较小。此外，通过简

讯飞AI开发者社区

华为云Flexus+DeepSeek征文｜基于华为云Flexus云服务的Dify一键部署

讯飞AI开发者社区

基于嵌入式系统的智能宠物行为模式预测模型

这种设计使系统在持续运行72小时后仍保持98%的在线率（Table 1）。数据采集系统整合了六类传感器网络：运动传感器（加速度计+陀螺仪）、环境传感器（温湿度+光照）、生物传感器（心率+皮肤电）、视觉传感器（RGB摄像头）、音频传感器（麦克风阵列）和定位传感器（GPS+蓝牙信标）（Figure 1）。数据预处理采用三级流水线：原始数据经过滑动窗口截断（窗口长度5s）、小波变换去噪（db6小波基）和