博客二：Hadoop演进与Hadoop生态

Q：了解对比Hadoop不同版本的特性，可以用图表的形式呈现。

A：图表：

Q:Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

A：图例：

1、HDFS（分布式文件系统）：Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现，它是Hadoop两大核心组成部分之一，提供了在廉价服务器集群中进行大规模分布式文件存储的能力，具有很好的容错能力，兼容廉价的硬件设备，因此适合于以较低成本利用现有机器实现大流量和大数据的读写

2、MapReduce（分布式并行变成模型）：用于大规模数据集的并行运算，他讲复杂的、运行于大规模集群上的并行计算过程高度抽象到两个函数：Map、Reduce，极大方便了分布式编程工作

3、YARN（集群资源调度和管理组件框架）：目标是：实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架YARN，在YARN之上可以部署其他各种计算框架，比如：MapReduce..等，有YARN为这些计算框架提供统一的资源丢啊哦度管理服务，并且能够根据各种计算框架的负载需求，调整各自占用的资源，实现集群资源共享和资源弹性收缩。

4、HBase（分布式数据库）：可支持超大规模的数据存储

5、Hive（Hadoop的数据仓库工具）：用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理

6、Fulume（日志分析采集系统）：高可靠、高可用的分布式海量日志采集、聚合和传输系统

7、Sqoop（数据库ETL）：主要用来在Hadoop和关系数据库之间交换数据，可以改进数据的互操作性

Q：官网学习Hadoop的安装与使用，用文档的方式列出步骤与注意事项。
http://www.apache.org /

A：

一、选择Linux的发行版本

1、在Linux系统各个发行版中CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高，所以建议使用CentOS系统和Ubuntu系统 2、在学习Hadoop方面，虽然系统没有多大区别，但是推荐使用Ubuntu操作系统

系统安装方式：建议虚拟机

二、Hadoop安装方式

单机模式
伪分布式模式
分布式模式

三、安装

DKH安装包下载
集群指定主机（安装过程中请不要刷新页面）
集群安装（DKM各组件安装）：这里有3种安装方式 “基本安装”，“完整安装”，“自定义安装
- 完整安装：DKM集成了相对完整的大数据开发环境组件。
- 自定义安装：用户可以根据自己的需求，选择安装的组件并且给组件分配角色

posted @ 2020-09-19 13:33 ZiKiii 阅读(264) 评论(0) 收藏举报

王仙森还没来呢

博客二：Hadoop演进与Hadoop生态

一、选择Linux的发行版本

二、Hadoop安装方式

三、安装

公告