sklearn

    技术2022-07-16  57

    文章目录

    来源数据预处理模型交叉验证迭代器分类 超参数 模型的评估分类模型回归模型聚类模型直观化

    来源

    数据预处理

    preprocessing train_test_split MinMaxScaler->[0,1] MaxAbsScaler->[-1,1] 含极端值的处理Rebust… 非线性转换:OneHotEncoder 缺失值插补:SimpleImputer 标记缺失值:MissingIndicator

    模型

    random_state 机器学习

    监督学习 分类 预测值y为有限的标签值集合 支持向量机 sklearn.svm.SVC()K-近邻 sklearn.neighbors.KNeighborsClassifier()决策树 sklearn.tree.DecisionTreeClassifier() 回归 预测值y是一个连续的目标变量 简单回归分析 sklearn.linear_model.LinearRegression()带惩罚项的回归模型 Lasso sklearn.linear_model.LassoRidge sklearn.linear_model.Ridge 非监督学习 K-均值聚类 sklearn.cluster.KMeans()分层聚类 sklearn.SpectralClustering() 降维技术 主成分分析 sklearn.decomposition.PCA()

    交叉验证迭代器

    cross_val_score cross_validate

    分类

    KFoldStratifiedKFoldShuffleSplit

    超参数

    GridSearchCV

    RandomizedSearchCV

    模型的评估

    分类模型

    ROC roc_curve roc_aur_score

    回归模型

    metrices模块

    explain_variance_scoref2_scoremean_squared_error

    聚类模型

    sihouette coefficient 轮廓系数

    直观化

    验证曲线 从而发现是否过拟合学习曲线 模型从数据中学习的进步
    Processed: 0.012, SQL: 9