Hadoop原理与代码分析 - 随笔分类 - 刘超觉先

Hadoop学习总结之五：Hadoop的运行痕迹

摘要：Hadoop 学习总结之一：HDFS简介Hadoop学习总结之二：HDFS读写过程解析Hadoop学习总结之三：Map-Reduce入门Hadoop学习总结之四：Map-Reduce的过程解析在使用hadoop的时候，可能遇到各种各样的问题，然而由于hadoop的运行机制比较复杂，因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹，方便出现问题的时候可以通过这些痕迹来解决问题。一、环境的搭建为了能够跟踪这些运行的痕迹，我们需要搭建一个特殊的环境，从而可以一步步的查看上一节提到的一些关键步骤所引起的变化。我们首先搭建一个拥有一个NameNode(namen 阅读全文

posted @ 2010-11-23 00:28 刘超觉先阅读(46551) 评论(9) 推荐(7) 编辑

(转)MapReduce源码分析总结

摘要：转者注：本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的，然而查找资料的时候，发现了这篇文章，并且发现caibinbupt已经对Hadoop的源代码已经进行了详细的分析，推荐大家阅读。转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx 参考： 1 caibinbupt的源代码分析http://caibinbupt.javaeye.com/ 2 coderplay的avaeye http://coderplay.javaeye.com/blog/295097 http://coderpla 阅读全文

posted @ 2010-11-19 23:52 刘超觉先阅读(10153) 评论(0) 推荐(4) 编辑

Hadoop学习总结之四：Map-Reduce的过程解析

摘要：一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的： public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = new JobClient(job); …… //调用submitJob来提交一个任务 running = jc.submitJob(job); JobID jobId = running.getID(); …… ... 阅读全文

posted @ 2010-11-19 23:45 刘超觉先阅读(30321) 评论(3) 推荐(6) 编辑

Hadoop学习总结之三：Map-Reduce入门

摘要：1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 0043011990999991950051518-0011+ 0043012650999991949032412+0111+ 0043012650999991949032418+0078+ 00670119909999919370... 阅读全文

posted @ 2010-11-14 18:24 刘超觉先阅读(69547) 评论(10) 推荐(14) 编辑

Hadoop学习总结之二：HDFS读写过程解析

摘要：一、文件的打开 1.1、客户端 HDFS打开一个文件，需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize)，其实现为： public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSDataInputStream( dfs.open(getPathName(f), bufferSize, verifyChecksum, statistics)); } 其中dfs为Distributed... 阅读全文

posted @ 2010-11-10 21:40 刘超觉先阅读(26822) 评论(4) 推荐(5) 编辑

Hadoop 学习总结之一：HDFS简介

摘要：一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。 1.2、元数据节点(Namenode)和数据节点(datanode) 元数据节点用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件：命名空间镜像(namespace imag... 阅读全文

posted @ 2010-03-14 02:00 刘超觉先阅读(42532) 评论(8) 推荐(10) 编辑

Notes for Hadoop the definitive guide

摘要：1. Introduction to HDFS 1.1. HDFS Concepts 1.1.1. Blocks l HDFS too has the concept of a block, but it is a much larger unit 64 MB by default. l Like in a filesystem for a single disk, files in HDFS are broken into block-sized chunks, which are stored as independent units. l Unlike a filesystem for. 阅读全文

posted @ 2010-02-27 23:01 刘超觉先阅读(5454) 评论(0) 推荐(3) 编辑

刘超觉先

随笔分类 - Hadoop原理与代码分析

公告