可以利用一些数据挖掘的方法:如回归模型、分类和回归树等,这些方法可以用于剔除冗余变量,以及合并分类型变量中的相似类别。
和feature selection不同之处在于feature extraction是,但是feature selection则只是在原有特征上进行筛选。
特征提取是在原有特征基础之上去创造凝练出一些新的特征出来,好比从杂乱无章的世界中,去到更高层的世界去俯瞰原始世界,你会发现很多杂乱无章的物理现象中背后暗含的道理是想通的,这时候你想用一个更加普世的观点和理论去解释原先的理论,这个是特征提取要做的事情。
Feature extraction有多种方法,包括PCA,LDA,LSA等等,相关算法则更多,pLSA,LDA,ICA,FA,UV-Decomposition,LFM,SVD等等。这里面有一个共同的算法,那就是鼎鼎大名的SVD。
而你仍呆在原始世界中,只是想对现有的“取其精华,去其糟粕”,这个是所谓特征选择。只是对现有进行筛选。
特征提取和特征选择统称为降维。(Dimension Reduction)
