摘要:
CDH 简介与优点: 1,像 linux 发行版一样, 将 大数据 大部分技术,挑选合适的版本号打成的包. 2,提供了大数据技术的整合,解决了技术之间的版本依赖问题 3,只需要web页面点击,就可以完成部署(hadoop,spark等) 4,可以监控集群的健康状况 5, 版本划分清晰,版本更新速度快 阅读全文
摘要:
一,map 阶段: 1,切片是由输入格式化类来实现的,默认切片大小等于block size 2,一个切片(逻辑概念,一个map处理数据的大小)对应一个map, 所有的 map 执行完之后才执行 reduce 3,默认的情况下 一个 block对应一个map程序,也可以使用窗口机制(切片) 使得一个 阅读全文