2017 年 7月 31 日随笔档案 - 菜鸟的进击

2017年7月31日

摘要： MapReduce原理 MapRedcue采用‘分而治之’的思想，对大规模数据集的操作，分发给一个主节点下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。Mapreduce就是任务的分解，与结果的汇总 MapReduce任务机器有两个一个是jobTracker，另一个是TaskT 阅读全文

posted @ 2017-07-31 10:53 菜鸟的进击阅读(1200) 评论(0) 推荐(0) 编辑

hadoop hive组件介绍及常用cli命令

摘要： Hive架构图 Hive产生原因 1 关系型数据库以产生多年sql成熟 2 简化开发降低成本 3 java成员可编写udf函数 Hive是什么 Hive是基于hadoop的一个数据库工具，使用Hql作为接口，maprduce作为执行层 Hdfs作为储存层。设计的目的是让sql开发人员java技能较弱阅读全文

posted @ 2017-07-31 10:50 菜鸟的进击阅读(1826) 评论(0) 推荐(0) 编辑

hadoop yarn组件介绍

摘要： Yarn的产生 mapReduc1.0 1单点故障 2扩展效率低 3资源利用率高降低运维成本方便数据共享多计算框架支持 MapReduce Spark Storm Yarn的架构图 Yarn模块介绍 ResourceManger 负责集群资源的统一管理和调度处理客户端请求启动/监控Appl 阅读全文

posted @ 2017-07-31 10:48 菜鸟的进击阅读(1430) 评论(0) 推荐(0) 编辑

hadoop 组件 hdfs架构及读写流程

摘要：一 . Namenode Namenode 是整个系统的管理节点就像一本书的目录，储存文件信息，地址，接受用户请求，等二 . Datanode 提供真实的文件数据，存储服务文件块（block）是基础的最基本的储存单元 2.1块储存原理 hdfs为什么分块而不是分文件大小不一 io不均衡：负载阅读全文

posted @ 2017-07-31 10:43 菜鸟的进击阅读(367) 评论(0) 推荐(0) 编辑

菜鸟的进击

公告