hadoop初解
轻松了一个月,被老师拉来搞hadoop和hbase,而且时间紧,任务重。每天要上交大于100字的学习日记。
先草草看了下hadoop权威指南,记录下。
Hadoop提供了一个可靠的共享存储和分析系统,HDFS实现存储,而MapReduce实现分析处理。这两个是核心。
HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随即读取)。
MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务(task)来执行,其中包括两类任务:map任务和reduce任务。
有两类节点控制着作业执行过程:一个jobtracker及一系列tasktracker。jobtracker通过调度tasktracker上运行的任务,来协调所有运行在系统上的作业。tasktracker在运行任务的同时将运行进度报告发送给jobtracker,jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败,jobtracker可以在另外一个tasktracker节点上重新调度该任务。
Hadoop将MapReduce的输入数据划分成等长的小数据块,称为输入分片。Hadoop为每个分片构建一个map任务,并由该任务来运行用户定义的map函数从而处理分片中的每条记录。
Hadoop在存储有输入数据(HDFS中的数据)的节点运行map任务,可以获得最佳性能。这就使所谓的数据本地化优化。
map任务将其输入写入本地硬盘,而非HDFS。因为map的输出是中间结果:该中间结果由reduce任务处理后才产生最终输出结果。
HDFS块大小默认为64MB。
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个namenode和多个datanode。namenode管理文件系统的命名空间。它维护者文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。namenode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息会在系统启动时由数据节点重建。