pyspark入门整理

    技术2022-07-16  77

    最近工作需要对千万以上数据做特征处理,为了提升运(zao)算(ri)效(xia)率(ban),开始使用pyspark做分布式运算。

    也是从基本开始学习,先把用到的一些资料贴在这里,日后有空结合业务进一步整理。

    (一)原理篇

    一文弄懂PySpark原理与实践

     https://blog.csdn.net/oTengYue/article/details/88417186

    (二)上手篇

    官方文档 spark.apache.org

    内部tdw spark文档 https://git.code.oa.com/tdw/tdw-spark-common

    常用api https://blog.csdn.net/ten_sory/article/details/80897648

    (三)性能篇

    spark 体验点滴- executor 数量 和task 并行数 https://blog.csdn.net/wangguohe/article/details/80645978

    pyspark:dataframe与rdd的一点小事 https://www.jianshu.com/p/5e593510313b

    (四)入门快速上手篇(一周搞定)

    B站学习视频:spark编程基础(python版) 厦门大学-林子雨

    配套教材:spark编程基础(python版) 厦门大学-林子雨

    Processed: 0.017, SQL: 9