机器学习面试-降维算法LDA和PCA(白板推导)

    技术2022-07-11  123

    降维算法分为:

    1.直接降维, 特征选择 2. 线性降维, PCA, MDS等 3. 分流线, 流线包括lsomap , LLE等

    降维的目的:

    1. 减少预测变量的个数 2. 确保这些变量是相互独立的 3. 数据在低纬度时候更容易处理, 更容易使用 4. 去除噪数据噪声 5. 降低算法的运算开销

    1. 线性判别分析LDA

    LDA的 核心思想就是投影后类内方差小, 类间方差最大

    LDA算法的优缺点:

    优点:

    可以使用类别的先验知识以标签, 类别衡量差异性的 有监督降维算法, 相对于PCA的模糊性, 其目的更明确, 更能反映样本间的差异。

    缺点:

    LDA不适合对非高斯分布样本进行降维LDA最多降到K-1维LDA可能会过度拟合数据LDA在样本分类信息依赖方差而不是均值, 降维效果不好

    2. 主成分分析PCA

    PCA可以用来分析主方向,降维,特征筛选,具体方法是用svd分解得到特征值矩阵和特征向量矩阵,然后根据不同的任务对选择特征值或向量进行计算。

    PCA算法的优缺点:

    优点:

    仅仅需要已方差衡量信息量, 不受数据集以外的因素影响各自主成分之间必须正交, 可消除原始数据成分之间的相互影响的因素计算简单方便, 主要运算是特征分解, 易于实现

    缺点:

    主成分各个特征之间维度的含义具有一定的模糊性, 不如原始样本的可解释性强降维后可能丢失方差小的非主成分的信息, 可能会对后续数据处理有影响

    LDA和PCA的区别和联系

    相同点:

    两者都可以对数据进行降维两者在降维的时候均使用科矩阵特征分解的思想两者假设数据都是高斯分布

    不同点:

    1 . LDA 为有监督的降维算法, PCA为无监督降维算法 2. LDA最多降到K-1维, PCA降维没有限制 3. LDA可以用于降维和分类, PCA 只能用于降维 4. LDA选择特征性能最好的投影方向, PCA选择样本点投影具有最大方差的方向 5. LDA更明确, 更能反映样本间的差异, PCA目的较为模糊

    参考资源: 哔哩哔哩《机器学习白板推导合集》

    Processed: 0.011, SQL: 9