健哥的数据花园

2017年10月21日

摘要：返回: 大数据索引页 [Flume]使用 Flume 来传递web log 到 hdfs 的例子：在 hdfs 上创建存储 log 的目录： $ hdfs dfs -mkdir -p /test001/weblogsflume 指定log 输入的目录： $ sudo mkdir -p /flume 阅读全文

posted @ 2017-10-21 21:21 健哥的数据花园阅读(1058) 评论(0) 推荐(0) 编辑

2017年10月18日

[Spark][Flume]Flume 启动例子

摘要： Flume 启动例子： flume-ng agent --conf /etc/flume-ng/conf --conf-file /etc/flume-ng/conf/flume.conf --name agent1 \ -Dflume.root.logger=INFO,console 阅读全文

posted @ 2017-10-18 21:13 健哥的数据花园阅读(646) 评论(0) 推荐(0) 编辑

2017年10月16日

[Spark][kafka]kafka 生产者，消费者互动例子

摘要： [Spark][kafka]kafka 生产者，消费者互动例子 # pwd/usr/local/kafka_2.11-0.10.0.1/bin 创建topic:# ./kafka-topics.sh --create --zookeeper localhost:2181 --replication 阅读全文

posted @ 2017-10-16 10:15 健哥的数据花园阅读(1490) 评论(0) 推荐(0) 编辑

[Spark][kafka]kafka 的topic 创建和删除试验

摘要： kafka 的topic 创建和删除试验 zookeeper和kafka 的安装，参考： http://www.cnblogs.com/caoguo/p/5958608.html 参考上述URL后，在个人的伪分布式环境下，安装了kafka 确认 zookeeper 为运行状态： $ service 阅读全文

posted @ 2017-10-16 08:58 健哥的数据花园阅读(1109) 评论(0) 推荐(0) 编辑

2017年10月7日

[Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子

摘要： [Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子 from pyspark.sql.types import * schema = StructType( [ StructField("age",IntegerType(),True), Str 阅读全文

posted @ 2017-10-07 22:35 健哥的数据花园阅读(419) 评论(0) 推荐(0) 编辑

[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

摘要： [Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleRDD = peopleDF.map( 阅读全文

posted @ 2017-10-07 22:02 健哥的数据花园阅读(733) 评论(0) 推荐(0) 编辑

[Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子

摘要： [Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("p 阅读全文

posted @ 2017-10-07 16:24 健哥的数据花园阅读(965) 评论(0) 推荐(0) 编辑

[Spark][Python][DataFrame][Write]DataFrame写入的例子

摘要： [Spark][Python][DataFrame][Write]DataFrame写入的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("peo 阅读全文

posted @ 2017-10-07 16:10 健哥的数据花园阅读(8461) 评论(0) 推荐(0) 编辑

[Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子

摘要： [Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子 $cat people.json $ hdfs dfs -put people.json $pyspark sqlContext = HiveContext(sc)peopleDF 阅读全文

posted @ 2017-10-07 10:33 健哥的数据花园阅读(1199) 评论(0) 推荐(0) 编辑

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子

摘要： [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive hive> > CREATE TABLE IF NOT EXISTS customers( > cus 阅读全文

posted @ 2017-10-07 10:18 健哥的数据花园阅读(2750) 评论(0) 推荐(0) 编辑

健哥的数据花园

公告