hadoop一些概念基础

job:

在hadoop里,需要运行一个map/reduce程序的所有JAR文件和类的联合,成为job。所有这些组建被集成在一个成为job文件   的JAR里面。要执行一个job,需要先把它提交到JobTracker。命令如下:

     hadoop   jar  your-job-file-goes-here.jar

Task:

一个job描述了所有输入、输出和一个map/reduce程序里用到的类和库,而一个task是执行单独的map和reduce步骤的程序,他们在JobTracker选择的TaskTracker节点上执行。

HDFS:

 即Hadoop分布式文件系统,他是Hadoop程序的输入和输出文件的通常存储系统。HDFS的主要优势在于他提供了非常高的输入输出速度。这对于一个并行程序的高性能来讲非常关键,因为一项问题工作的处理器数量增加时,输入数据的全部请求和产生的输出的总速率都会增加,HDFS提供了非常高的宽带来存储整个hadoop集群里零散的文件块,通过运行单独的task时精巧的选择,并且因为文件被存储在多个地方,task被放置在临近输入数据的地方,输出数据被大量 存储在最初的地方,一个HDFS群集是建立在一个NameNode和一个或者多个DataNode实例之上。

 

posted on 2011-12-15 09:30  wangbokun  阅读(202)  评论(0编辑  收藏  举报

导航