hadoop IO学习笔记

1、数据完整性的保证:校验和

2、压缩的重要性及各种压缩算法的适用场景(时间性、空间性,以及是否支持mapreduce)

3、writable序列化框架:为什么不用java序列化的东西,该框架的好处(精简、快速、可拓展、可以互操作等)

4、Text与String的区别:Text通过字节的偏移量进行索引(还有其他区别)

5、基于文件的数据结构:sequenceFile、MapFile以及他们的扩展

6、Avro数据序列化系统

posted @ 2013-07-11 21:41  kivi  阅读(164)  评论(0编辑  收藏  举报