摘要: 为什么之前的MapReduce系统比较慢 常理上有几个理由使得MapReduce框架慢于MPP数据库: 容错所引入的昂贵数据实体化(data materialization)开销。 孱弱的数据布局(data layout),比如缺少索引。 执行策略的开销[1 2]。 而我们对于Hive的实验也进一步证明了上述的理由,但是通过对Hive“工程上”的改进,如改变存储引擎(内存存储引擎)、改善执行... 阅读全文
posted @ 2017-01-17 11:48 一人浅醉- 阅读(3068) 评论(0) 推荐(0) 编辑
摘要: 关系计算问题描述 二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型,二度关系则得到关注的关注、关注的好友、好友的关注、好友的好友四种类型。 如果要为全站亿级用户根据二度关系和四种桥梁类型推荐桥梁权重最高 TopN 个用户,大致估算了下总关系量在千亿级别,按照原有的 Mapreduce 模式计算整个二度关... 阅读全文
posted @ 2017-01-17 11:38 一人浅醉- 阅读(3849) 评论(1) 推荐(0) 编辑
摘要: 参考: https://github.com/JerryLead/SparkInternals/blob/master/markdown/english/5-Architecture.md?winzoom=1 相关文献: 《Spark源码分析之Storage模块》 《详细探究Spark的shuffl 阅读全文
posted @ 2017-01-17 11:37 一人浅醉- 阅读(283) 评论(0) 推荐(0) 编辑