2015 年 3月 6 日随笔档案 - 白乔

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

摘要： http://www.aboutyun.com/thread-6855-1-1.html个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm... 阅读全文

posted @ 2015-03-06 15:44 白乔阅读(217) 评论(0) 推荐(0) 编辑

Spark Shuffle实现

摘要： Apache Spark探秘：Spark Shuffle实现http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言，Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Sp... 阅读全文

posted @ 2015-03-06 10:24 白乔阅读(247) 评论(0) 推荐(0) 编辑

spark下统计单词频次

摘要：写了一个简单的语句，还没有优化：scala> sc. | textFile("/etc/profile"). | flatMap((s:String)=>s.split("\\s")). | map(_.toUpperCase). | map((s:S... 阅读全文

posted @ 2015-03-06 08:51 白乔阅读(506) 评论(0) 推荐(0) 编辑

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

Spark Shuffle实现

spark下统计单词频次

导航

公告