摘要:
P205 MapReduce的两种运行机制 第一种:经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业:Job对象上的submit()。也可以调用waitForCompletion(),用于提交以前没有提交的作业,并等待其完成。 Hadoop执行MR的方法依赖于两个配置设置 阅读全文
摘要:
P92 压缩 P102 序列化 序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程 用于进程之间的通信或者数据的永久存储 反序列化:将字节流转为结构化对象的逆过程 Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。 RPC 阅读全文
摘要:
1、数据采集 使用Hadoop分析处理数据,需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop,然后这个过程处理它,这具有一定的挑战。维护和确保数据的一致性,并确保资源的有效利用,选择正确的方法进行数据加载前有一些因素是要考虑的。 http://www.68dl 阅读全文