机器学习基础---降维方法---局部保持投影（LPP）推导

LPP方法概述核心思想有映射Ym∗n=f(Xd∗n)\underset{m*n}{Y}=f(\underset {d*n}X)m∗nY=f(d∗nX)，能够实现将d维的样本变换到m维空间之中假设：对于一个好的降维方法，在高维空间下距离近（相似度高）的两个点，在低维空间下依旧保持相近的关系考虑映射Y=WTXY=W^TXY=WTX，即原样本空间中有xix_ixi与xjx_jxj距离近，yiy_

Guanxiong He

2651人浏览 · 2021-11-01 22:11:51

Guanxiong He · 2021-11-01 22:11:51 发布

LPP

方法概述

核心思想

有映射 $\underset{m*n}{Y}=f(\underset {d*n}X)$ ，能够实现将d维的样本变换到m维空间之中
假设：对于一个好的降维方法，在高维空间下距离近（相似度高）的两个点，在低维空间下依旧保持相近的关系
考虑映射 $Y=W^TX$ ，即原样本空间中有 $x_i$ 与 $x_j$ 距离近， $y_i$ 与 $y_j$ ( $y_i=W^Tx_i$ )仍保持相近关系

优化目标

定义优化目标：
$min\sum_{i}\sum_{j}||y_i-y_j||^2s_{ij}$
即在原始空间中近的点（ $s_{ij}$ 大），其在降维后应该尽可能接近（ $y_i$ 与 $y_j$ 距离更小）

方法推导

对于LPP方法，有目标：
$\underset{W}{arg\ min}\sum_i\sum_j||y_i-y_j||^2s_{ij}$
对于目标：
$\begin{aligned} &\ \ \ \ \ \sum_i^N\sum_j^N||y_i-y_j||^2s_{ij} \\ &= \sum_i^N\sum_j^N(y_i^Ty_i-y_i^Ty_j-y_j^Ty_i+y_j^Ty_j)s_{ij} \\ &= 2\sum_i^N y_i^Ty_id_{ii}-2\sum_i^N\sum_j^N y_i^Ty_js_{ij} \\ &= 2tr(YDY^T)-2tr(YSY^T)\\ &= 2tr(YLY^T) \end{aligned}$
去除乘数，最小化目标为：
$tr(YLY^T)$
带入 $Y=W^TX$ ，得最小化目标：
$tr(W^TXLX^TW)$
该目标存在平凡零解： $W=O_{m*d}$

此时L取最小值0，出现维度坍缩，所有样本映射到同一个点上，此解无意义
当W不取零矩阵时，由于没有添加尺度约束，在降维子空间一定（组成基向量方向一致）情况下，当尺度不断变小时，目标L会同时变小，无限趋于0，不存在最小值
因此，考虑对最小化目标变形为：
$\frac{tr(YLY^T)}{tr(YDY^T)}=\frac{tr(W^TXLX^TW)}{tr(W^TXDX^TW)}$
考虑到尺度因素，加以约束 $YDY^T=I$ 也即 $W^TXDX^TW=I$
参考LDA中提到的广义瑞利商，可知：
$\lambda_{min}((XDX^T)^{-1}(XLX^T))\leq\frac{tr(W^TXLX^TW)}{tr(W^TXDX^TW)}\leq\lambda_{max}((XDX^T)^{-1}(XLX^T))$
变换矩阵： $W=[w_1,w_2,...,w_m]$ 由 $XDX^T)^{-1}(XLX^T)$ 最小m个特征向量构成
矩阵形式推导：

由拉格朗日乘子法，构建L：
$tr(W^TXLX^TW)-tr(\Lambda(W^TXDX^TW-I))$
对W求偏导并令为0：
$2XLX^TW-2XDX^TW\Lambda=0\\ XLX^TW= XDX^TW \Lambda\\ 有：(XDX^T)^{-1}XLX^TW=W\Lambda$
W由 $XDX^T)^{-1}XLX^T$ 的特征向量作为列向量构成，且为了最小化目标函数，选取的特征向量应该是最小m个特征值对应的特征向量

LPP与PCA

对PCA方法，其优化目标为 $\underset {W}{argmax} = tr(W^TXX^TW)$ ，有约束 $W^TW=I$

构建的拉格朗日乘式解： $XX^T W=W\Lambda$ ，可变为 $XX^TXX^T W=XX^TW\Lambda$

与LPP对比，是 $L=X^TX$ 且 $D = I$ 的特例
即PCA可以看成是一种特殊的LPP，区别在于LPP更关注局部关系，而PCA关注的是全局方差信息