由于一门课程的总结上说:无论编程效率还是计算速度,都是非常快,因此为了走捷径,先选择学习sql部分
其实之前已经看了一段时间spark的官方文档,但是看只是看,不敲总是没有深刻的理解,因此开始敲代码之旅
最初买的spark学习书籍是基于1.x版本的。因此一直纠结于Spark对象初始化。 #1.x 版本入口–python
from pyspark import SparkConf,SparkContext conf=SparkConf().setMaster("local").setAppName("my app") sc=SparkContext(conf=conf) lines=sc.TextFlie("README.md") lines.count().collect()当我学习到Spark sql的时候也按照这个模式去创建sql对象,怎么也run不通,出现各种问题,尤其是按照官方中文文档也创建不成功的时候,内心是极度崩溃的。 在这探索的过程中发现,以下几个方法还是比较有用的。无论是学习脚本编写还是debug,供大家参考。
dir(function)funtion.docrun 官方文档下 example.py阅读源码 from pyspark.sql import SparkSession ss=SparkSession.builder.appName("test").master('local[2]').getOrCreate()其实这里有个小小的坑 按照官文中文文档,ss对象还有个.config(),但是按照其提供的模式都是不能成功,最后参考了其他博主的博客,发现.config选项是可以不加的。这样就没有问题了。具体可以参考以下两篇连接: SparkSession.builder SparkSession与SparkContext
更新于20200704