2017年10月18日

摘要: 1.小文件合并:如果文件有一定的规律或者是在同一个文件夹下,可以采用获取文件夹下所有的文件,通过流进行合并,然后再存到hdfs上。 2.mapreduce的优点:1.离线计算、2.高容错性,一个节点挂了可以将计算转移到另一个节点、3.易扩展,廉价机器随便加。缺点就是做不到实时计算。 3.链接mapr 阅读全文
posted @ 2017-10-18 16:44 3池 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 什么是序列化:序列化就是将对象转化为字节流。 为什么不用java的序列化:java序列化后体积太大且计算量花销太大,因为Hadoop集群的节点之间,经常要进行通讯和数据传输。 要实现序列化和反序列化必须实现writable接口。 要实现对象之间能进行大小比较要实现comparable接口,也可以直接 阅读全文
posted @ 2017-10-18 16:11 3池 阅读(78) 评论(0) 推荐(0) 编辑

导航