2012 年 1月 10 日随笔档案 - 陈力

四大细节疑问(hadoop问题)

摘要：一:zookeeper如何分配region的问题二:hive 在hbase里存储的mapreduce过程三:hbase存储结构(不同数据类型)四:数据的牵移与备份阅读全文

posted @ 2012-01-10 20:27 陈力阅读(259) 评论(0) 推荐(0) 编辑

摘要：转载于:http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.htmlHive入门3–Hive与HBase的整合 Apache Hive入门2 Apache Hive入门1 开场白：Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive_hbase-handler.jar工具类 (Hive Storage Handlers)，大致意思如图所示：口水：对 hive_hbase-handler.jar 这个东东还有点兴趣，有空来磋磨一下。一、2个注意事项：1 阅读全文

posted @ 2012-01-10 17:16 陈力阅读(441) 评论(0) 推荐(0) 编辑

H.E mapreduce操作HBase(转载)

摘要：转载 http://www.javabloger.com/article/hadoop-mapreduce-hbase.html我的废话：本文提供代码示例，但是不讲述mapreduce对HBase代码层面的细节，主要讲述我片面的理解和体会。最近看见Medialets(Ref)在网站架构中提到对MapReduce使用的经验分享，采用HDFS作为MapReduce分布式计算的基础环境，基于Python的MapReduce框架计算具体的内容，将计算的结果写入MongoDB中存储，对外宣称每秒1可以处理百万级的业务事件，可见MapReduce的运用场景在越来越多的丰富起来，说明除了Google和Yah 阅读全文

posted @ 2012-01-10 17:10 陈力阅读(870) 评论(0) 推荐(0) 编辑

Paxos算法能帮助我们做什么呢? 如下几点:

摘要： 1. database replication, log replication等，如bdb的数据复制就是使用paxos兼容的算法。Paxos最大的用途就是保持多个节点数据的一致性。2. naming service, 如大型系统内部通常存在多个接口服务相互调用。1) 通常的实现是将服务的ip/hostname写死在配置中，当service发生故障时候，通过手工更改配置文件或者修改DNS指向的方法来解决。缺点是可维护性差，内部的单元越多，故障率越大。2) LVS双机冗余的方式，缺点是所有单元需要双倍的资源投入。通过Paxos算法来管理所有的naming服务，则可保证high availabl 阅读全文

posted @ 2012-01-10 15:48 陈力阅读(289) 评论(0) 推荐(0) 编辑

Hadoop的I / O管道剖析

摘要： In a typical Hadoop MapReduce job, input files are read from HDFS. Data are usually compressed to reduce the file sizes. After decompression, serialized bytes are transformed into Java objects before being passed to a user-defined map() function. Conversely, output records are serialized, compressed 阅读全文

posted @ 2012-01-10 11:39 陈力阅读(754) 评论(0) 推荐(1) 编辑

hello world!!!!!

公告

四大细节疑问(hadoop问题)

Hive入门3–Hive与HBase的整合(转载)

H.E mapreduce操作HBase(转载)

Paxos算法能帮助我们做什么呢? 如下几点:

Hadoop的I / O管道剖析