机器学习基础---聚类方法---k-Means&模糊C均值聚类（fuzzy C-Means）

K-Means方法 & fuzzy C-Means方法算法描述核心思想：k-means方法无监督聚类算法，输入数据为样本矩阵D=[x1,x2,...xn]D=[x_1,x_2,...x_n]D=[x1,x2,...xn]，目标是获得簇划分C={C1,C2,...,Ck}C=\{C_1,C_2,...,C_k\}C={C1,C2,...,Ck}，每个簇对应簇心u={u1,u2,.

Guanxiong He

850人浏览 · 2021-11-06 23:13:40

Guanxiong He · 2021-11-06 23:13:40 发布

K-Means方法 & fuzzy C-Means方法

算法描述

核心思想：

k-means方法
- 无监督聚类算法，输入数据为样本矩阵 $D=[x_1,x_2,...x_n]$ ，目标是获得簇划分 $C=\{C_1,C_2,...,C_k\}$ ，每个簇对应簇心 $u=\{u_1,u_2,...,u_k\}$
- 同时做出假设，样本 $x_i$ 所属类别为距离其最近的簇心对应类别
- 聚类的优劣可以通过划分的k个簇的集中程度来表示
- K-Means算法的核心目的为最小化各样本到其对应簇簇心距离之和，即最小化：
  $J=\sum_{i=1}^k\sum_{x\in{C_i}}^k ||x_-u_i||_2^2$
fuzzy C-Means方法：
- 对于k-means方法，每个样本对应唯一的类别
- 当样本无法划分出明显分离的簇时，指派一个样本到一个特定的簇可能出错，因此对每个样本和每个簇赋予一个权值表明该样本属于该簇的程度
- 与k-means方法相比，优化目标中增加了参数 $f_{ij}$ 用来表示样本 $x_i$ 属于j类的程度
  $J=\sum_{i=1}^k\sum_{x\in{C_i}}^k f_{ij}^m||x-u_i||_2^2$

目标优化推导：

K-Means方法
- 目标函数：
  $J=\sum_{i=1}^k\sum_{x\in{C_i}}^k ||x-c_i||_2^2=\sum_{i=0}^k\sum_{j=0}^N||x_i-u_j||f_{ij}$
  $f_{ij}$ 为指示矩阵i行j列内容，表示样本 $x_i$ 是否为第j类，若是，则为1，否则为0
- 优化内容：
  $\underset{F,M}{arg\ min}\sum_{i=0}^k\sum_{j=0}^N||x_i-u_j||f_{ij}\\ s.t.\ \ \sum_{j=1}^Cf_{ij}=1\ \ (f_{ij}\in\{0,1\})$
- 矩阵形式推导：
  
  代数形式的目标函数可以被转化为如下矩阵形式目标：
  $\begin{aligned} J &=||X-MF^T||_F^2\\ &=tr[(X-MF^T)(X-MF^T)^T]\\ &=tr(XX^T-XFM^T-MF^TX^T+MF^TFM) \end{aligned}$
  因此该优化问题为针对两矩阵变量（F，M）的最小化问题，采用交替优化方法进行优化，即先确定一个参数，再确定另一个
  - 求解M：
    - 矩阵M是簇中心矩阵，其中数取值为实数域，可以通过求偏导，令为零的方法求解：
      $\frac{\partial{J}}{\partial{M}}=-XF-XF+2MF^TF=2MF^TF-2XF$
      
      $\begin{aligned} &\frac{\partial{J}}{\partial{M}}=0\\ &=>2MF^TF-2XF=0\\ &=>MF^TF=XF\\ &=>M=XF(F^TF)^{-1}\\ \end{aligned}$
      
      即，在已知指示矩阵F（分类情况）下，使损失最小化的簇心即为各类样本向量均值 $u_1,u_2,...,u_k]$
  - 求解F：
    - 对于k-Means方法，指示矩阵F存在约束，元素 $fij∈{0,1}f_{ij}\in\{0,1\}$
    - 因为F元素不连续，不能直接求导，因此将目标重新表示：
      $X-MF^T=[x_1,x_2,...,x_n]-[u_1,u_2,...,u_k] \left[ \begin {matrix} f_{11} & f_{21} & ... & f_{n1}\\ f_{12} & f_{22} & ... & f_{n2}\\ ... & ... & ... & ...\\ f_{1k} & f_{2k} & ... & f_{nk}\\ \end{matrix} \right]$
      矩阵 $F^T$ 第j列的列向量 $f_j$ 代表样本 $x_j$ 的分类情况，对每个样本都有k种情况（一个样本可能是k类中的一类）
      
      因此可以对每一个样本向量 $x_j$ 枚举其类别，然后计算在该样本处产生的误差，选择误差最小的作为其预测类别
      
      因此对n个样本，需要进行n*k次枚举
      
      该方法等价于"将每个样本分到离其最近簇心对应的类"
  - 采用的交替优化方法即为先选取当前簇心矩阵下的最优指示矩阵，再选取当前指示矩阵下最优簇心矩阵，不断迭代
  - 由于迭代过程的每一步都能对目标函数进行优化，即目标函数值 $J$ 每次都在下降，又 $J$ 作为F范数平方大于0，有下界，因此必收敛
fuzzy C-Means方法：
- 将K-means方法中的标签矩阵F替换为权值F’，其元素 $f'_{ij}$ 代表第i个样本属于第j类的程度
- 优化目标：
  $J=\sum_{i=1}^k\sum_{x\in{C_i}}^k {f'}_{ij}^m||x-u_i||_2^2 \ \ \ \ \ \ \ (m\geq2)$
  - 权值 $f'_{ij}$ 与标签 $f_{ij}$ 相比的区别：
    - $fij′∈[0,1]f'_{ij}\in{[0,1]}$ 而 $fij∈{0,1}f_{ij}\in{\{0,1\}}$
    - 在优化目标中，权值需要进行m次方运算，若 $m = 1$ ，则最终问题与k-means等价，F’会收敛于F（最小损失一定出现在分类唯一时）
- 同样使用交替优化方法分别求解 $F^{'} 与 M$ ，得：
  $f'_{ij}=\frac1{\sum_{i=1}^k[\frac{||x_i-u_i||}{||x_i-u_k||}]^{\frac2{m-1}}}$
  
  $u_j=\frac{\sum_{i=1}^N{f'}_{ij}^mx_i}{\sum_{i=1}^Nf'_{ij}}$

算法流程

K-Means 与 fuzzy C-Means聚类流程
- 1）指定类别数k
- 2）初始化簇心矩阵与指示/权值矩阵
- 3）迭代：
  - 根据目前簇心矩阵更新指示/权值矩阵
  - 根据目前指示/权值矩更新阵簇心矩阵
  - 当相邻两次簇心更新量小于阈值时迭代停止
- 4）得到指示/权值矩阵
超参数K选择：
- 肘部法：
  
  以误差平方和SSE为指标，计算给定k值下所有样本的聚类误差和，用于代表聚类效果好坏
  
  当k小于真实类别时，随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，误差平方和会变小，且下降幅度会很大；
  
  当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓

在这里插入图片描述

轮廓系数法：
- 对样本点 $x_i$
  - 定义凝聚度a，是样本点与同类其他样本平均距离
  - 定义分离度b，是样本点与最近簇中所有样本的平均距离
- 最近簇：
  $C_j=\underset{C_k}{arg min}\frac1n \sum_{x\in{C_k}}||x-u_k||$
- 定义轮廓系数
  $S=\frac{b-a}{max(a,b)}$
- 求出所有样本的轮廓系数后再求平均值，得到对数据集X的平均轮廓系数
- 簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好
- 即令平均轮廓系数最大的k值即为最优k值

参考资料

【1】《机器学习》周志华

【2】《统计学习方法》李航

【3】[K-means中K值的选取][https://blog.csdn.net/sxllllwd/article/details/82151996]

技术共进，成长同行——讯飞AI开发者社区

更多推荐

程序员必学！大模型五大核心技术(MCP/Agent/RAG/RPA/A2A)全解析（收藏版）

讯飞AI开发者社区

38_多模态模型：CLIP的视觉-语言对齐_深度解析

讯飞AI开发者社区

自然语言处理（NLP）基础

苹果”可以指一种水果，也可能指Apple 公司；“我今天早上没吃饭”中的“没”是否表示“完全没有”需要结合上下文。NLP 的任务就是让计算机能够“读懂”这些文字和语音，抽取其中的语义信息，从而与人类进行自然交流。简单来说，NLP 是计算机科学、人工智能与语言学的交叉学科。自然语言处理（NLP）让计算机能够理解和生成自然语言，是人工智能最贴近人类日常生活的技术之一。随着深度学习和大模型的发展，NLP