摘要: Spark总结 Spark Engine RDD 弹性分布式数据集 partitons组成的,partition一定是一个具体的概念,就是一段连续的数据在某个物理节点 1,由一组partitions组成 2,应用在RDD上面的算子,会被应用到每一个partitions上面去 3,每一个RDD需要有依 阅读全文
posted @ 2016-12-05 18:28 花心土豆 阅读(1514) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/spark-tuning-basic.html 阅读全文
posted @ 2016-12-05 09:09 花心土豆 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/spark-tuning-pro.html 阅读全文
posted @ 2016-12-05 09:09 花心土豆 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/kafka-fs-design-theory.html 阅读全文
posted @ 2016-12-05 09:06 花心土豆 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/presto.html Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hiv 阅读全文
posted @ 2016-12-05 08:57 花心土豆 阅读(462) 评论(0) 推荐(0) 编辑