博客二:Hadoop演进与Hadoop生态

Q:了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

A:图表:

 

Q:Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

A:图例:

1、HDFS(分布式文件系统):Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力,具有很好的容错能力,兼容廉价的硬件设备,因此适合于以较低成本利用现有机器实现大流量和大数据的读写

2、MapReduce(分布式并行变成模型):用于大规模数据集的并行运算,他讲复杂的、运行于大规模集群上的并行计算过程高度抽象到两个函数:Map、Reduce,极大方便了分布式编程工作

3、YARN(集群资源调度和管理组件框架):目标是:实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架,比如:MapReduce..等,有YARN为这些计算框架提供统一的资源丢啊哦度管理服务,并且能够根据各种计算框架的负载需求,调整各自占用的资源,实现集群资源共享和资源弹性收缩。

4、HBase(分布式数据库):可支持超大规模的数据存储

5、Hive(Hadoop的数据仓库工具):用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理

6、Fulume(日志分析采集系统):高可靠、高可用的分布式海量日志采集、聚合和传输系统

7、Sqoop(数据库ETL):主要用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性

 

Q:官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
http://www.apache.org/

A:

一、选择Linux的发行版本

1、在Linux系统各个发行版中CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高,所以建议使用CentOS系统和Ubuntu系统 2、在学习Hadoop方面,虽然系统没有多大区别,但是推荐使用Ubuntu操作系统

  • 系统安装方式:建议虚拟机

二、Hadoop安装方式

  • 单机模式

  • 伪分布式模式

  • 分布式模式

三、安装

  1. DKH安装包下载

  2. 集群指定主机(安装过程中请不要刷新页面)

  3. 集群安装(DKM各组件安装):这里有3种安装方式 “基本安装”,“完整安装”,“自定义安装

    • 完整安装:DKM集成了相对完整的大数据开发环境组件。

    • 自定义安装:用户可以根据自己的需求,选择安装的组件并且给组件分配角色

 

posted @ 2020-09-19 13:33  ZiKiii  阅读(257)  评论(0编辑  收藏  举报