2015年3月6日

大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合

摘要: http://www.aboutyun.com/thread-6855-1-1.html个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm... 阅读全文

posted @ 2015-03-06 15:44 白乔 阅读(217) 评论(0) 推荐(0) 编辑

Spark Shuffle实现

摘要: Apache Spark探秘:Spark Shuffle实现http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Sp... 阅读全文

posted @ 2015-03-06 10:24 白乔 阅读(247) 评论(0) 推荐(0) 编辑

spark下统计单词频次

摘要: 写了一个简单的语句,还没有优化:scala> sc. | textFile("/etc/profile"). | flatMap((s:String)=>s.split("\\s")). | map(_.toUpperCase). | map((s:S... 阅读全文

posted @ 2015-03-06 08:51 白乔 阅读(506) 评论(0) 推荐(0) 编辑

导航