02 2019 档案
摘要:开始直接在 CDH Pyspark 的环境里面运行 Ipython 。 In [3]: spark.sql('show databases').show()+ +|databaseName|+ +| default|+ + 可以用看到,我们直接使用这个配置去读取 hive 数据库并不能获得我们想要的
阅读全文
摘要:在 Pyspark 操纵 spark-SQL 的世界里借助 session 这个客户端来对内容进行操作和计算。里面涉及到非常多常见常用的方法,本篇文章回来梳理一下这些方法和操作。 class pyspark.sql.SparkSession 类 下面是一个初始化 spark session 的方法,
阅读全文