摘要: MapReduce原理 MapRedcue采用‘分而治之’的思想,对大规模数据集的操作,分发给一个主节点下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。Mapreduce就是任务的分解,与结果的汇总 MapReduce任务机器有两个一个是jobTracker,另一个是TaskT 阅读全文
posted @ 2017-07-31 10:53 菜鸟的进击 阅读(1194) 评论(0) 推荐(0) 编辑
摘要: Hive架构图 Hive产生原因 1 关系型数据库以产生多年sql成熟 2 简化开发降低成本 3 java成员可编写udf函数 Hive是什么 Hive是基于hadoop的一个数据库工具,使用Hql作为接口,maprduce作为执行层 Hdfs作为储存层。设计的目的是让sql开发人员java技能较弱 阅读全文
posted @ 2017-07-31 10:50 菜鸟的进击 阅读(1824) 评论(0) 推荐(0) 编辑
摘要: Yarn的产生 mapReduc1.0 1单点故障 2扩展效率低 3资源利用率高 降低运维成本 方便数据共享 多计算框架支持 MapReduce Spark Storm Yarn的架构图 Yarn模块介绍 ResourceManger 负责集群资源的统一管理和调度 处理客户端请求 启动/监控Appl 阅读全文
posted @ 2017-07-31 10:48 菜鸟的进击 阅读(1426) 评论(0) 推荐(0) 编辑
摘要: 一 . Namenode Namenode 是整个系统的管理节点 就像一本书的目录,储存文件信息,地址,接受用户请求,等 二 . Datanode 提供真实的文件数据,存储服务 文件块(block)是基础的最基本的储存单元 2.1块储存原理 hdfs为什么分块而不是分文件 大小不一 io不均衡:负载 阅读全文
posted @ 2017-07-31 10:43 菜鸟的进击 阅读(360) 评论(0) 推荐(0) 编辑