07-04 python数据分析常用库(numpy,pandas,matplotlib)

    技术2025-06-12  47

    一、三个常用库 1、numpy–数据科学计算 2、pandas–专门做数据处理 3、matplotlib–做可视化

    1、Numpy

    ①是数据科学计算的基础模块,用于数值计算 ②基于数组运算,效率高 ③拥有许多高级函数,可以对数据进行高效处理 ④可以进行线性代数相关运算 例如:

    import numpy as np #一维数组的创建

    a=np.array([2,-2,34,6]) type(a) 类似Python list,也可以切片和索引访问 a.[-1] ----返回6 a.min() ---返回数组中的最小值-2 a.max() ---返回数组中的最大值34

    #二维数组的创建

    b=np.array([[1,2,3],[3,4,5]]) print(b)----返回值为 [[1,2,3], [3,4,5]] b*b ----对应位置的元素相乘

    2、Pandas

    Pandas是专门用作数据处理和分析的,使用起来十分高效和简洁,拥有许多各种复杂 的函数,其使用十分高效和便捷,十数据分析领域使用最广泛的库之一。 Pandas功能强大,支持类似于SQL的数据处理,并且具有丰富的数据处理函数,支持时间序 列分析等。

    import Pandas as pd ①series

    s=pd.Series([1,2,3],index=['a','b','c']) print(s) a 1 b 2 c 3 dtype: int64 type(s)----pandas.core.series.Series

    data=pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c']) print(data) a b c 0 1 2 3 1 4 5 6

    ③数据读取

    data=pd.read_excel('目标文件路径url') data.head(5) ----只读取前五行

    1.series只支持序列,不能有columns索引; 2.创建多维数组时,必须加外部[ ] ,r如 [ [ ], [ ] , [ ] ]

    3、matplotlib

    import matplotlib.pyplot as plt x=np.linspace(0,10,1000) #0-10之间创建1000个数字的等差数列 y=np.sin(x) plt.plot(x,y,label='y=sinx',color='red',linewidth=2) plt.xlabel('times') #x轴的名称 plt.ylabel('VOL')#y轴的名称 plt.title('this is line') # 图的标题 plt.legend(loc='center')# 图例的意思 plt.show()
    Processed: 0.013, SQL: 9