hadoop一些概念基础

job:

在hadoop里，需要运行一个map/reduce程序的所有JAR文件和类的联合，成为job。所有这些组建被集成在一个成为job文件的JAR里面。要执行一个job，需要先把它提交到JobTracker。命令如下：

hadoop jar your-job-file-goes-here.jar

Task:

一个job描述了所有输入、输出和一个map/reduce程序里用到的类和库，而一个task是执行单独的map和reduce步骤的程序，他们在JobTracker选择的TaskTracker节点上执行。

HDFS：

即Hadoop分布式文件系统，他是Hadoop程序的输入和输出文件的通常存储系统。HDFS的主要优势在于他提供了非常高的输入输出速度。这对于一个并行程序的高性能来讲非常关键，因为一项问题工作的处理器数量增加时，输入数据的全部请求和产生的输出的总速率都会增加，HDFS提供了非常高的宽带来存储整个hadoop集群里零散的文件块，通过运行单独的task时精巧的选择，并且因为文件被存储在多个地方，task被放置在临近输入数据的地方，输出数据被大量存储在最初的地方，一个HDFS群集是建立在一个NameNode和一个或者多个DataNode实例之上。

posted on 2011-12-15 09:30 wangbokun 阅读(202) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

mail：gm.bokun.wang@gmail.com

hadoop一些概念基础

导航

公告