博客二:Hadoop演进与Hadoop生态
Q:了解对比Hadoop不同版本的特性,可以用图表的形式呈现。
A:图表:
Q:Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。
A:图例:
1、HDFS(分布式文件系统):Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力,具有很好的容错能力,兼容廉价的硬件设备,因此适合于以较低成本利用现有机器实现大流量和大数据的读写
2、MapReduce(分布式并行变成模型):用于大规模数据集的并行运算,他讲复杂的、运行于大规模集群上的并行计算过程高度抽象到两个函数:Map、Reduce,极大方便了分布式编程工作
3、YARN(集群资源调度和管理组件框架):目标是:实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架,比如:MapReduce..等,有YARN为这些计算框架提供统一的资源丢啊哦度管理服务,并且能够根据各种计算框架的负载需求,调整各自占用的资源,实现集群资源共享和资源弹性收缩。
4、HBase(分布式数据库):可支持超大规模的数据存储
5、Hive(Hadoop的数据仓库工具):用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理
6、Fulume(日志分析采集系统):高可靠、高可用的分布式海量日志采集、聚合和传输系统
7、Sqoop(数据库ETL):主要用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性
Q:官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
http://www.apache.org/
A:
1、在Linux系统各个发行版中CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高,所以建议使用CentOS系统和Ubuntu系统 2、在学习Hadoop方面,虽然系统没有多大区别,但是推荐使用Ubuntu操作系统
-
系统安装方式:建议虚拟机
二、Hadoop安装方式
-
单机模式
-
伪分布式模式
-
分布式模式
-
DKH安装包下载
-
集群指定主机(安装过程中请不要刷新页面)
-
集群安装(DKM各组件安装):这里有3种安装方式 “基本安装”,“完整安装”,“自定义安装
-
完整安装:DKM集成了相对完整的大数据开发环境组件。
-
自定义安装:用户可以根据自己的需求,选择安装的组件并且给组件分配角色
-