大数据技术之Hadoop 基础认识

大数据技术之Hadoop-----> 未完,待续


到官网下载 hadoop-2.5.2.tar.gz   ,解压到没有中文的路径下

配置环境变量 HADOOP_HOME

配置Path 路径 %HADOOP_HOME%/bin   ;%HADOOP_HOME%/sbin


1.对hdfs的操作方式:hadoop fs xxx
  hadoop fs -ls  /    查看hdfs的根目录下的内容的
  hadoop fs -lsr /    递归查看hdfs的根目录下的内容的
  hadoop fs -mkdir /d1    在hdfs上创建文件夹d1
  hadoop fs -put <linux source> <hdfs destination> 把数据从linux上传到hdfs的特定路径中
  hadoop fs -get <hdfs source> <linux destination> 把数据从hdfs下载到linux的特定路径下
  hadoop fs -text <hdfs文件>    查看hdfs中的文件
  hadoop fs -rm        删除hdfs中文件
  hadoop fs -rmr    删除hdfs中的文件夹

  hadoop fs -ls hdfs://hadoop0:9000/


2.HDFS的datanode在存储数据时,如果原始文件大小>64MB,按照64MB大小切分;如果<64MB,只有一个block,占用磁盘空间是源文件实际大小。

3.RPC(remote procedure call)
  不同java进程间的对象方法的调用。
  一方称作服务端(server),一方称作客户端(client)。
  server端提供对象,供客户端调用的,被调用的对象的方法的执行发生在server端。
 
  RPC是hadoop框架运行的基础。
4.通过rpc小例子获得的认识?
4.1 服务端提供的对象必须是一个接口,接口extends VersioinedProtocal
4.2 客户端能够的对象中的方法必须位于对象的接口中。

5. hadoop 上运行jar 包的方式和注意事情

hadoop jar  x.jar  ×××.MainClassName inputPath outputPath
同时解释一下:
x.jar为包的名称,包括路径,直接写包名称,则为默认路径
×××.MainClassName为运行的类名称
inputPath为输入路径
outputPath为输出路径。
这里需要注意的是:
输入路径和输出路径,一定要对应。
比如
输入路径
    hdfs://192.168.1.100:9000/user/hadoop/filetest/word.txt

输出路径:
    hdfs://192.168.1.100:9000/user/hadoop/output

二者就不一致,output后面需要加入文件名,二者对应起来。
    hdfs://192.168.1.100:9000/user/hadoop/output/word



























posted @ 2016-05-03 22:52  yuerspring  阅读(262)  评论(0编辑  收藏  举报