随笔 - 111, 文章 - 0, 评论 - 39, 阅读 - 61万
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  Hadoop

摘要:RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。当我们讨论HDFS的,通信可能发生在: Client-NameNode之间,其中NameNode是服务器Client-DataNode之间,其中DataNode是服务器DataNode-NameNode之间,其中NameNode是服务器DataNode-DateNode之间,其中某一个DateNode是服务器,另一个是客户端如果我们考虑Hadoop 的Map/Reduce以后,这些系统间的通信就更复杂了。为了解决这些客户机/服务器之间的通信,Hadoop引入了一个RPC框架。该RPC框架利用 的Java的反射能 阅读全文

posted @ 2011-05-26 16:31 李大嘴 阅读(2796) 评论(0) 推荐(0) 编辑

摘要:由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化(因为Java序列化比较复杂,且不能深度控制),而是引入了它自己的系统。org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口。实现了Writable接口的一个典型例子如下: public class MyWritable implements Writable { // Some data private int counter; private long timestamp; public void write(Dat 阅读全文

posted @ 2011-05-18 11:45 李大嘴 阅读(1744) 评论(0) 推荐(0) 编辑

摘要:SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1)支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优) 2)本地化任务支持:因为文件可以被切分,因此MapReduce任务时数据的本地化情况应该是非常好的。 3)难度低:因为是Hadoop框架提供的API,业务逻辑侧的修改比较简单。坏处是需要一个合并文件的过程,且合并后的文件将不方便查看。Sequence 阅读全文

posted @ 2011-05-18 10:02 李大嘴 阅读(3232) 评论(1) 推荐(0) 编辑

摘要:1. 基本概念序列化可被定义为将对象的状态存储到存储媒介中的过程。在此过程中,对象的公共字段和私有字段以及类的名称(包括包含该类的程序集)都被转换为字节流,然后写入数据流。在以后反序列化该对象时,创建原始对象的精确复本。当在面向对象的环境中实现序列化机制时,您需要在简化使用和保持灵活性之间进行许多权衡。只要您对该过程具有充分的控制,就可以在很大程度上自动化该过程。例如,在简单二进制序列化不充分时可能导致一些情况发生,或者可能有特定原因确定在类中哪些字段需要进行序列化。Serialization is the process of turning structured objects into 阅读全文

posted @ 2011-05-18 09:55 李大嘴 阅读(2182) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示