打赏
摘要: 案例1:开发shell采集脚本 1.点击流日志每天都10T,在业务应用服务器上,需要准实时上传至数据仓库(Hadoop HDFS)上 2.一般上传文件都是在凌晨24点操作,由于很多种类的业务数据都要在晚上进行传输,为了减轻服务器的压力,避开高峰期。 如果需要伪实时的上传,则采用定时上传的方式 3.技 阅读全文
posted @ 2018-06-19 17:05 QueryMarsBo 阅读(1505) 评论(0) 推荐(0) 编辑
摘要: Hadoop中自己提供了一个RPC的框架。集群中各节点的通讯都使用了那个框架 1.服务端 1.1.业务接口:ClientNamenodeProtocol 1.2.业务接口实现类:MyNameNode 1.3.服务端类:将业务实现类发布为一个服务 2.客户端 我们也可以在自己的项目中使用Hadoop的 阅读全文
posted @ 2018-06-19 11:56 QueryMarsBo 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 对于MapReduce等框架来说,需要有一套更底层的API来获取某个指定文件中的一部分数据,而不是一整个文件 因此使用流的方式来操作 HDFS上的文件,可以实现读取指定偏移量范围的数据 1.客户端测试类代码: 2.流式上传文件: 3.流式下载文件: 4.流式读取指定长度的文件: hdfs支持随机定位 阅读全文
posted @ 2018-06-19 10:01 QueryMarsBo 阅读(1049) 评论(0) 推荐(0) 编辑