Spark SQL学习之旅

技术2025-01-26 82

Spark SQL学习总结

由于一门课程的总结上说：无论编程效率还是计算速度，都是非常快，因此为了走捷径，先选择学习sql部分

其实之前已经看了一段时间spark的官方文档，但是看只是看，不敲总是没有深刻的理解，因此开始敲代码之旅

最初买的spark学习书籍是基于1.x版本的。因此一直纠结于Spark对象初始化。 #1.x 版本入口–python

from pyspark import SparkConf,SparkContext conf=SparkConf().setMaster("local").setAppName("my app") sc=SparkContext(conf=conf) lines=sc.TextFlie("README.md") lines.count().collect()

当我学习到Spark sql的时候也按照这个模式去创建sql对象，怎么也run不通，出现各种问题，尤其是按照官方中文文档也创建不成功的时候，内心是极度崩溃的。在这探索的过程中发现，以下几个方法还是比较有用的。无论是学习脚本编写还是debug，供大家参考。

dir(function)funtion.docrun 官方文档下 example.py阅读源码 from pyspark.sql import SparkSession ss=SparkSession.builder.appName("test").master('local[2]').getOrCreate()

其实这里有个小小的坑按照官文中文文档，ss对象还有个.config()，但是按照其提供的模式都是不能成功，最后参考了其他博主的博客，发现.config选项是可以不加的。这样就没有问题了。具体可以参考以下两篇连接： SparkSession.builder SparkSession与SparkContext

更新于20200704

Processed: 0.009, SQL: 9