HDFS基础和java api操作
1. 概括
- 适合一次写入多次查询情况,不支持并发写情况
- 通过hadoop shell 上传的文件存放在DataNode的block中,通过linux shell只能看见block,看不见文件(HDFS将客户端的大文件存放在很多节点的数据块中,Block本质上是一个逻辑概念,它是hdfs读写数据的基本单位)
-
HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间
2. fs
- 可以使用hdfs shell操作hdfs,常用 fs命令如下:
- eg: hadoop fs -cat file1
-
- put localsrc dst //从本地文件移动到hdfs -get src localsrc //复制文件到本地 -text src //显示文件内容 其他类似于linux shell
3. 端口
- 端口:
-
50070:查看NameNode状态 50075:查看DataNode状态 50090:查看SecondaryNameNode 50030:查看JobTracker状态 50060:查看TaskTracker状态
4. hdfs安全模式
在启动hadoop集群的时候,集群的运行首先进入到安全模式下(safeMode),以检查数据完整性
<property>(hdfs-default.xml,302行) <name>dfs.safemode.threshold.pct</name> <value>0.999f</value> </property>
这里定义了一个最小的副本率0.999,如果应该有5个副本存在,却只存在3个副本,3/5=0.6<0.999,则系统会自动地复制副本到其他DataNode,使得副本率不小于0.999,相反,如果此时系统中有8个副本,则会自动删除多余的3个副本
安全模式相关操作:
hadoop fs –safemode get:查看安全模式状态
hadoop fs –safemode enter:进入安全模式状态
hadoop fs –safemode leave:离开安全模式状态
5. java api
注意:1)需注释掉org.apache.hadoop.fs.FileUtil类的checkReturnValue方法(688—692),否则可能出现权限问题)
2)需要修改远程登录客户端的用户名,以避免权限问题
我的电脑-管理-本地用户和组;
注册表“HKEY_LOCAL_MACHINE\SOFEWARE\Microsoft\Windows NT\CurrentVersion 修改 RegisteredOwner
写文件:
String uri="hdfs://hadoop:9000/"; Configuration configuration=new Configuration(); FileSystem fileSystem=FileSystem.get(URI.create(uri),configuration); final String pathString="/input"; final FSDataOutputStream fsDataOutputStream=fileSystem.create(new Path(pathString)); IOUtils.copyBytes(new ByteArrayInputStream("wish\n".getBytes()),fsDataOutputStream,configuration,false); IOUtils.copyBytes(new ByteArrayInputStream("wish you happy \n".getBytes()),fsDataOutputStream,configuration,true);
读文件:
String uri="hdfs://hadoop:9000/"; Configuration configuration=new Configuration(); FileSystem fileSystem=FileSystem.get(URI.create(uri),configuration); final String pathString="/output"; final FSDataInputStream fsDataInputStream=fileSystem.open(new Path(pathString)); IOUtils.copyBytes(fsDataInputStream, System.out, configuration,true);
创建目录:
String uri="hdfs://hadoop:9000/"; Configuration configuration=new Configuration(); FileSystem fileSystem=FileSystem.get(URI.create(uri),configuration); final String pathString="/d1"; boolean exists=fileSystem.exists(new Path(pathString)); if(!exists){ boolean result=fileSystem.mkdirs(new Path(pathString)); System.out.println(result); }
删除文件
String uri="hdfs://hadoop:9000/"; Configuration configuration=new Configuration(); FileSystem fileSystem=FileSystem.get(URI.create(uri),configuration); final String pathString="/output"; fileSystem.delete(new Path("/output"),true);