上一节,我们总结了离散型数据的处理方法,这一节我们整理下连续型数据的处理方法。一般来讲,离散型数据都是类别值,如:男生,女生,商务座,一等座,二等座等等。连续型数据基本上都是数值型数据,如年龄(10岁,11岁…),身高(110cm, 175cm…),海拔,薪资等等。 既然连续型数据都是数值,是可以直接拿来供计算机使用的,那么连续型数据该如何处理?这里我们提出一个处理思想:连续型数据离散化。连续型数据离散化以后的建模效果一定会比原来的好吗?这个答案是不一定的,任何时候我们都需要对两者结果进行比较,从而做出判断–连续型数据是否需要离散化?
连续型数据离散化的方法:对连续型数据进行分组处理。假如高三一班的学生身高从150cm~185cm,那么我们可以将身高数据划分为几组,如[150 ~ 160, 161 ~ 170,171 ~ 180,181 ~ 185],同时可以给每个组贴一个标签[稍矮,矮,高,非常高]。
接下来,我们将使用Pandas库来对具体的连续型数据进行分组处理。 数据集导入: 下载链接:链接:https://pan.baidu.com/s/1RhK-qrlLTOTv5FgQGEN1wQ 提取码:tga9 代码演示:
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns;sns.set() fcc = pd.read_csv('D:\\Py_dataset\\fcc_2016_coder_survey_subset.csv',encoding = 'utf-8') fcc_df = fcc[['ID.x','Age','EmploymentField','Income']]#从原始数据集中,抽出几列供我们分析 #对数据集中的"Income"特征进行可视化展示 fig,ax = plt.subplots() fcc_df['Income'].hist(color = 'blue') ax.set_xlabel('Income') ax.set_ylabel('quantity') ax.set_title('The distribution of Income')接下来我们使用两种方法对fcc_df数据集的"Income"特征进行分组。
通过pandas.cut()方法,我们将连续的"Income"特征切分成了low_incoem,middle_income,middle_high_income,high_income四种类别。
查看切分后的数据集
quantile_labels = ['0~25%','25%~50%','50%~75%','75%~100%'] fcc_df['Income_range'] = pd.qcut(fcc_df['Income'],q = quantile_list) fcc_df['Income_label'] = pd.qcut(fcc_df['Income'],q = quantile_list,labels = quantile_labels) fcc_df.head()总结: 本小节的连续数据离散化作为数据预处理的一种方式,目的是增加更多的数据特征。我们需要通过对比两者的建模效果,来做出判断 – 是否需要对连续数据进行离散化处理。