摘要: [Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子 from pyspark.sql.types import * schema = StructType( [ StructField("age",IntegerType(),True), Str 阅读全文
posted @ 2017-10-07 22:35 健哥的数据花园 阅读(419) 评论(0) 推荐(0) 编辑
摘要: [Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleRDD = peopleDF.map( 阅读全文
posted @ 2017-10-07 22:02 健哥的数据花园 阅读(733) 评论(0) 推荐(0) 编辑
摘要: [Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("p 阅读全文
posted @ 2017-10-07 16:24 健哥的数据花园 阅读(965) 评论(0) 推荐(0) 编辑
摘要: [Spark][Python][DataFrame][Write]DataFrame写入的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("peo 阅读全文
posted @ 2017-10-07 16:10 健哥的数据花园 阅读(8461) 评论(0) 推荐(0) 编辑
摘要: [Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子 $cat people.json $ hdfs dfs -put people.json $pyspark sqlContext = HiveContext(sc)peopleDF 阅读全文
posted @ 2017-10-07 10:33 健哥的数据花园 阅读(1199) 评论(0) 推荐(0) 编辑
摘要: [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive hive> > CREATE TABLE IF NOT EXISTS customers( > cus 阅读全文
posted @ 2017-10-07 10:18 健哥的数据花园 阅读(2750) 评论(0) 推荐(0) 编辑