摘要:
如果想要将问题变得清晰、精准和优雅, 需要关注 MapReduce 作业所需要的系统资源,尤其是集群内部网络资源使用情况。 MR 可以运行在共享集群上处理 TB 级 甚至 PB 级的数据。同时,改作业与共享集群的机器上数以百计的任务存在竞争关系。MapReduce 关注点: hadoop MapReduce 作业被分成一系列运行在分布式集群中的 map 任务和 reduce 任务。因此负载是... 阅读全文
摘要:
自己设计的时序图。来自为知笔记(Wiz) 阅读全文
摘要:
大小文件通吃, 热点hash功能。 全局唯一KV索引。 百度网盘模式。断点续传功能。MR分析功能。来自为知笔记(Wiz) 阅读全文
摘要:
预分Region 与 不预分Region 的测试:1 不预分Region: 23~29秒插入100W数据 并且蛋疼的是每次都写入一个 RegionServer 且 只在一个 Region 相当于人为制造的网络风暴。2 预分Region(3节点分了3个Region) 写入 18~19秒 100W 数据。 55555 每秒。(本机网络请求已满。否则应该线性增长)下面是代码... 阅读全文