1.maven 创建项目项目环境
2.配置hadoop环境依赖
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 | https: / / mvnrepository.com / / / maven 网上仓库 配置 pom.xml <properties> <! - - 定义hadoop 版本 - - > <hadoop.version> 2.6 . 0 - cdh5. 9.0 < / hadoop.version> < / properties> <repositories> <repository> <! - - 添加 cdh hadoop 仓库地址 - - > < id >cloudera< / id > <url>https: / / repository.cloudera.com / artifactory / cloudera - repos / < / url> < / repository> < / repositories> <dependencies> <dependency> <! - - 添加junit 依赖包 - - > <groupId>junit< / groupId> <artifactId>junit< / artifactId> <version> 4.11 < / version> <scope>test< / scope> < / dependency> <dependency> <! - - 添加hadoop 依赖包 - - > <groupId>org.apache.hadoop< / groupId> <artifactId>hadoop - client< / artifactId> <! - - <version> 2.6 . 0 - cdh5. 9.0 < / version> - - > <version>${hadoop.version}< / version> < / dependency> < / dependencies> |
3.Hadoop Java AIP基本操作
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 | package com.imooc.bigdata.hadoop.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs. * ; import org.apache.hadoop.io.IOUtils; import org.apache.hadoop.util.Progressable; import org.junit.After; import org.junit.Before; import org.junit.Test; import java.io.BufferedInputStream; import java.io. File ; import java.io.FileInputStream; import java.io.InputStream; import java.net.URI; / * * * 使用Java API操作HDFS文件系统 * * 关键点: * 1 )创建Configuration * 2 )获取FileSystem * 3 )...就是你的HDFS API的操作 * / public class HDFSApp { public static final String HDFS_PATH = "hdfs://hadoop000:8020" ; FileSystem fileSystem = null; Configuration configuration = null; @Before public void setUp() throws Exception { System.out.println( "--------setUp---------" ); configuration = new Configuration(); configuration. set ( "dfs.replication" , "1" ); / * * * 构造一个访问指定HDFS系统的客户端对象 * 第一个参数:HDFS的URI * 第二个参数:客户端指定的配置参数 * 第三个参数:客户端的身份,说白了就是用户名 * / fileSystem = FileSystem.get(new URI(HDFS_PATH), configuration, "hadoop" ); } / * * * 创建HDFS文件夹 * / @Test public void mkdir() throws Exception { fileSystem.mkdirs(new Path( "/hdfsapi/test" )); } / * * * 查看HDFS内容 * / @Test public void text()throws Exception { FSDataInputStream in = fileSystem. open (new Path( "/cdh_version.properties" )); IOUtils.copyBytes( in , System.out, 1024 ); } / * * * 创建文件 * / @Test public void create()throws Exception { / / FSDataOutputStream out = fileSystem.create(new Path( "/hdfsapi/test/a.txt" )); FSDataOutputStream out = fileSystem.create(new Path( "/hdfsapi/test/b.txt" )); out.writeUTF( "hello pk: replication 1" ); out.flush(); out.close(); } / * * * 测试文件名更改 * @throws Exception * / @Test public void rename() throws Exception { Path oldPath = new Path( "/hdfsapi/test/b.txt" ); Path newPath = new Path( "/hdfsapi/test/c.txt" ); boolean result = fileSystem.rename(oldPath, newPath); System.out.println(result); } / * * * 拷贝本地文件到HDFS文件系统 * / @Test public void copyFromLocalFile() throws Exception { Path src = new Path( "/Users/rocky/data/hello.txt" ); Path dst = new Path( "/hdfsapi/test/" ); fileSystem.copyFromLocalFile(src,dst); } / * * * 拷贝大文件到HDFS文件系统:带进度 * / @Test public void copyFromLocalBigFile() throws Exception { InputStream in = new BufferedInputStream(new FileInputStream(new File ( "/Users/rocky/tmp/software/jdk-8u91-linux-x64.tar.gz" ))); FSDataOutputStream out = fileSystem.create(new Path( "/hdfsapi/test/jdk.tgz" ), new Progressable() { public void progress() { System.out. print ( "." ); } }); IOUtils.copyBytes( in , out , 4096 ); } / * * * 拷贝HDFS文件到本地:下载 * / @Test public void copyToLocalFile() throws Exception { Path src = new Path( "/hdfsapi/test/hello.txt" ); Path dst = new Path( "/Users/rocky/tmp/software" ); fileSystem.copyToLocalFile(src, dst); } / * * * 查看目标文件夹下的所有文件 * / @Test public void listFiles() throws Exception { FileStatus[] statuses = fileSystem.listStatus(new Path( "/hdfsapi/test" )); for (FileStatus file : statuses) { String isDir = file .isDirectory() ? "文件夹" : "文件" ; String permission = file .getPermission().toString(); short replication = file .getReplication(); long length = file .getLen(); String path = file .getPath().toString(); System.out.println(isDir + "\t" + permission + "\t" + replication + "\t" + length + "\t" + path ); } } / * * * 递归查看目标文件夹下的所有文件 * / @Test public void listFilesRecursive() throws Exception { RemoteIterator<LocatedFileStatus> files = fileSystem.listFiles(new Path( "/hdfsapi/test" ), true); while (files.hasNext()) { LocatedFileStatus file = files. next (); String isDir = file .isDirectory() ? "文件夹" : "文件" ; String permission = file .getPermission().toString(); short replication = file .getReplication(); long length = file .getLen(); String path = file .getPath().toString(); System.out.println(isDir + "\t" + permission + "\t" + replication + "\t" + length + "\t" + path ); } } / * * * 查看文件块信息 * / @Test public void getFileBlockLocations() throws Exception { FileStatus fileStatus = fileSystem.getFileStatus(new Path( "/hdfsapi/test/jdk.tgz" )); BlockLocation[] blocks = fileSystem.getFileBlockLocations(fileStatus, 0 ,fileStatus.getLen()); for (BlockLocation block : blocks) { for (String name: block.getNames()) { System.out.println(name + " : " + block.getOffset() + " : " + block.getLength() + " : " + block.getHosts()); } } } / * * * 删除文件 * / @Test public void delete() throws Exception { boolean result = fileSystem.delete(new Path( "/hdfsapi/test/jdk.tgz" ), true); System.out.println(result); } @Test public void testReplication() { System.out.println(configuration.get( "dfs.replication" )); } @After public void tearDown() { configuration = null; fileSystem = null; System.out.println( "--------tearDown---------" ); } } |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构