Hadoop - 随笔分类 - 李大嘴

Hadoop源代码分析【RPC】

摘要：RPC采用客户机/服务器模式。请求程序就是一个客户机，而服务提供程序就是一个服务器。当我们讨论HDFS的，通信可能发生在： Client-NameNode之间，其中NameNode是服务器Client-DataNode之间，其中DataNode是服务器DataNode-NameNode之间，其中NameNode是服务器DataNode-DateNode之间，其中某一个DateNode是服务器，另一个是客户端如果我们考虑Hadoop 的Map/Reduce以后，这些系统间的通信就更复杂了。为了解决这些客户机/服务器之间的通信，Hadoop引入了一个RPC框架。该RPC框架利用的Java的反射能阅读全文

posted @ 2011-05-26 16:31 李大嘴阅读(2804) 评论(0) 推荐(0)

Hadoop源代码分析【IO专题】

摘要：由于Hadoop的MapReduce和HDFS都有通信的需求，需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化（因为Java序列化比较复杂，且不能深度控制），而是引入了它自己的系统。org.apache.hadoop.io中定义了大量的可序列化对象，他们都实现了Writable接口。实现了Writable接口的一个典型例子如下： public class MyWritable implements Writable { // Some data private int counter; private long timestamp; public void write(Dat 阅读全文

posted @ 2011-05-18 11:45 李大嘴阅读(1757) 评论(0) 推荐(0)

Hadoop源代码分析【IO专题-SequenceFile】

摘要：SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并，即将文件名作为key，文件内容作为value序列化到大文件中。这种文件格式有以下好处：1)支持压缩，且可定制为基于Record或Block压缩（Block级压缩性能较优） 2)本地化任务支持：因为文件可以被切分，因此MapReduce任务时数据的本地化情况应该是非常好的。 3)难度低：因为是Hadoop框架提供的API，业务逻辑侧的修改比较简单。坏处是需要一个合并文件的过程，且合并后的文件将不方便查看。Sequence 阅读全文

posted @ 2011-05-18 10:02 李大嘴阅读(3249) 评论(1) 推荐(0)

Hadoop源代码分析【IO专题-序列化机制】

摘要：1. 基本概念序列化可被定义为将对象的状态存储到存储媒介中的过程。在此过程中，对象的公共字段和私有字段以及类的名称（包括包含该类的程序集）都被转换为字节流，然后写入数据流。在以后反序列化该对象时，创建原始对象的精确复本。当在面向对象的环境中实现序列化机制时，您需要在简化使用和保持灵活性之间进行许多权衡。只要您对该过程具有充分的控制，就可以在很大程度上自动化该过程。例如，在简单二进制序列化不充分时可能导致一些情况发生，或者可能有特定原因确定在类中哪些字段需要进行序列化。Serialization is the process of turning structured objects into 阅读全文

posted @ 2011-05-18 09:55 李大嘴阅读(2194) 评论(0) 推荐(0)

体验决定深度，知识决定广度。

公告

随笔分类 - Hadoop

Hadoop源代码分析【RPC】

Hadoop源代码分析【IO专题】

Hadoop源代码分析【IO专题-SequenceFile】

Hadoop源代码分析【IO专题-序列化机制】