pandas基础知识（一）

技术2025-11-10 35

这里讲到的都是比较常用的，如果需要其他的话，可以自行百度查阅每个函数详细的解释后面也会发

1.导入我们需要的包

import pandas as pd import numpy as np

2.读取数据

pd.read_csv() #读取csv文件 pd.read_excel()#读取Excel文件 pd.read_table() #读取TXT文件

3.查看数据形状结构

df.shape (5000,13) #逗号左边代表行数，右边是列数 5000行13列

4.了解数据结构

df.info <class 'pandas.core.frame.DataFrame'> Index: 614 entries, LP001002 to LP002990 Data columns (total 12 columns): Gender 601 non-null object Married 611 non-null object Dependents 599 non-null object Education 614 non-null object Self_Employed 582 non-null object ApplicantIncome 614 non-null int64 CoapplicantIncome 614 non-null float64 LoanAmount 592 non-null float64 Loan_Amount_Term 600 non-null float64 Credit_History 564 non-null float64 Property_Area 614 non-null object Loan_Status 614 non-null object dtypes: float64(4), int64(1), object(7) memory usage: 82.4+ KB

这样每一列有什么数据类型，有什么数据缺失就一目了然了。

5.查看数据的描述性统计信息

df.describe() #显示数值型数据的描述统计价格节省 count 5072.000000 5083.000000 mean 1765.714905 474.139878 std 2580.129644 168.893780 min 578.000000 306.000000 25% 1253.000000 358.000000 50% 1632.000000 436.000000 75% 2028.250000 530.000000 max 179500.000000 3500.000000

这样可以比较轻松的找出数据的异常值

6.数据的选择

df.loc[]

7.缺失值处理

df.isnull() #查看缺失值 df.notnull() #查看不是缺失值的数据 df.dropna() #删除缺失值 df.fillna() #填补缺失值

Processed: 0.009, SQL: 10