一、三个常用库 1、numpy–数据科学计算 2、pandas–专门做数据处理 3、matplotlib–做可视化
①是数据科学计算的基础模块,用于数值计算 ②基于数组运算,效率高 ③拥有许多高级函数,可以对数据进行高效处理 ④可以进行线性代数相关运算 例如:
import numpy as np #一维数组的创建
a=np.array([2,-2,34,6]) type(a) 类似Python list,也可以切片和索引访问 a.[-1] ----返回6 a.min() ---返回数组中的最小值-2 a.max() ---返回数组中的最大值34#二维数组的创建
b=np.array([[1,2,3],[3,4,5]]) print(b)----返回值为 [[1,2,3], [3,4,5]] b*b ----对应位置的元素相乘import Pandas as pd ①series
s=pd.Series([1,2,3],index=['a','b','c']) print(s) a 1 b 2 c 3 dtype: int64 type(s)----pandas.core.series.Series②
data=pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c']) print(data) a b c 0 1 2 3 1 4 5 6③数据读取
data=pd.read_excel('目标文件路径url') data.head(5) ----只读取前五行1.series只支持序列,不能有columns索引; 2.创建多维数组时,必须加外部[ ] ,r如 [ [ ], [ ] , [ ] ]