摘要: http://www.mamicode.com/info-detail-976861.html sc.textFile("hdfs://...").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect val hadoopRDD0 =  阅读全文
posted @ 2016-11-17 22:18 Uncle_Nucky 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 实时数据处理方案FlumeKafka 日志收集Spark Streaming 实时处理 将数据写入到kafka持久化存储;Spark Streaming消费kafka数据,业务级别分析;将分析结果写入HBase或者HDFS。 业界《百度海量日志分析架构及处理》对于互联网企业来说,最有价值的数据,往往 阅读全文
posted @ 2016-11-17 11:20 Uncle_Nucky 阅读(2545) 评论(0) 推荐(1) 编辑
摘要: 本文搭建环境为:Mac + Parallel Desktop + CentOS7 + JDK7 + Hadoop2.6 + Scala2.10.4 + IDEA14.0.5 —————————————————————————————————————————————————— 一、CentOS安装 ■ 阅读全文
posted @ 2016-11-17 08:45 Uncle_Nucky 阅读(641) 评论(0) 推荐(0) 编辑