pandas基础知识(一)

    技术2025-11-10  24

    这里讲到的都是比较常用的,如果需要其他的话,可以自行百度查阅 每个函数详细的解释后面也会发

    1.导入我们需要的包

    import pandas as pd import numpy as np

    2.读取数据

    pd.read_csv() #读取csv文件 pd.read_excel()#读取Excel文件 pd.read_table() #读取TXT文件

    3.查看数据形状结构

    df.shape (5000,13) #逗号左边代表行数,右边是列数 5000行13列

    4.了解数据结构

    df.info <class 'pandas.core.frame.DataFrame'> Index: 614 entries, LP001002 to LP002990 Data columns (total 12 columns): Gender 601 non-null object Married 611 non-null object Dependents 599 non-null object Education 614 non-null object Self_Employed 582 non-null object ApplicantIncome 614 non-null int64 CoapplicantIncome 614 non-null float64 LoanAmount 592 non-null float64 Loan_Amount_Term 600 non-null float64 Credit_History 564 non-null float64 Property_Area 614 non-null object Loan_Status 614 non-null object dtypes: float64(4), int64(1), object(7) memory usage: 82.4+ KB

    这样每一列有什么数据类型,有什么数据缺失就一目了然了。

    5.查看数据的描述性统计信息

    df.describe() #显示数值型数据的描述统计 价格 节省 count 5072.000000 5083.000000 mean 1765.714905 474.139878 std 2580.129644 168.893780 min 578.000000 306.000000 25% 1253.000000 358.000000 50% 1632.000000 436.000000 75% 2028.250000 530.000000 max 179500.000000 3500.000000

    这样可以比较轻松的找出数据的异常值

    6.数据的选择

    df.loc[]

    7.缺失值处理

    df.isnull() #查看缺失值 df.notnull() #查看不是缺失值的数据 df.dropna() #删除缺失值 df.fillna() #填补缺失值
    Processed: 0.019, SQL: 10