摘要:
MapReduce 是一种简化并行计算的编程模型,用于大数据量的计算。它的核心思想是“分散任务,汇总结果”,将大规模数据集的操作分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,从而得到最终结果。 MapReduce的优点:1、便于编程:MapReduce 只需简单地实现一些 阅读全文
摘要:
一、hadoop 序列化与反序列化 Hadoop 通过Writable接口实现序列化机制 Writable 接口中主要有两个方法:wirte(DataOutput out)readFields(DataInput in) 对象在实现这个接口时,属性既可以是java 类型的,也可以是 Hadoop类型 阅读全文