随笔分类 - hadoop
摘要:一、背景 MapReduce的局限性 仅支持Map,Reduce两种语义操作 执行效率低,时间开销大 主要用于大规模离线批处理 不适合迭代计算,交互式计算,实时流处理等场景 计算框架种类多,选型难 批处理:MapReduce 流处理:Storm,Flink 交互式计算:Impala,Presto 需
阅读全文
摘要:MapReduce(Hadoop 1.x)的设计缺陷 身兼两职:计算框架+资源管理框架 JobTracker+TaskTracker(1:N) JobTracker - 既做资源管理,又做任务调度 - 任务太重,开销过大 - 存在单点故障 资源描述模型过于简单,资源利用率较低 - 仅把Task数量看
阅读全文
摘要:Hadoop的分布式文件系统 hadoop的三大核心子项目(HDFS,YARN,MapReduce)之一,用来解决海量数据存储问题 优点: 海量数据存储,典型文件大小GB~TB,百万以上文件数量,PB以上数据规模(文件切分分散存储,128M) 高容错(多副本策略),高可用(HA,安全模式),高可扩展
阅读全文