(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。
df=pd.read_csv('F:\Datewheel资料\pandas组队学习\Pandas(下)综合练习数据集\端午粽子数据.csv') df.head() df.info() #查看列名 df.columns()注意列名中含有空格,后面处理的时候要特别注意。
#删除最后一列为缺失值的行 df_1=df.copy().dropna(axis=0,subset=['发货地址 ']) df_1 #求所有在杭州发货的商品单价均值 pd.to_numeric(df_1[df_1['发货地址 '].str.contains('杭州')][' 价格'],errors='coerce').mean()(2)商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?
df_1[df_1['标题'].str.contains('嘉兴')][~df_1['发货地址 '].str.contains('嘉兴')].shape[0](3) 请按照分位数将价格分为“高、较高、中、较低、低” 5 个类别,再将类别结果插入到标题一列之后,最后对类别列进行降序排序。
# 找出不正常的数字 df_1.loc[~df_1[' 价格'].str.match(r'^\d+\.?\d+$')] df_1[' 价格'].iloc[[538,4376]]=[45.9,45] df_1[' 价格'] = df_1[' 价格'].astype('float') df_1['类别'] = pd.qcut(df_1[' 价格'],[0,0.2,0.4,0.6,0.8,1.],labels=['低','较低','中','较高','高']) df_2 = df_1.reindex(columns=['标题','价格类别',' 价格','付款人数','店铺','发货地址 ']).sort_values('价格类别',ascending=False) df_2(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。
df_1[df_1['付款人数'].isnull()](5)请将数据后四列合并为如下格式的 Series:商品发货地为 ××,店铺为××,共计 ×× 人付款,单价为 ××。
df_3=df_1.astype(str) s= ('商品发货地为'+df_3['发货地址 ']+',店铺为'+df_3['店铺']+',共计'+df_3['付款人数']+',单价为'+df_3[' 价格']+'。') sps:综合练习题目题量太大了,也很难,自己基础不好做起来很吃力,慢慢来吧,加油!