hello world!!!!!

写下自己的一些心得,写下自己问题的方式,写下程序之路的艰辛,希望能够有朝一日成为大牛。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2012年1月6日

摘要: This is a tutorial on how to run a map reduce job on Hbase. This covers version 0.20 and later.Recommended Readings:-Hbase home,-Hbase map reduce Wiki-Hbase Map Reduce Package- Greatintro to Hbase map reduceby George LarsVERSION DIFFERENCEHadoop map reduce API changed around v0.20. So did Hbase map 阅读全文

posted @ 2012-01-06 16:49 陈力 阅读(1333) 评论(0) 推荐(0) 编辑

摘要: 对于HBase这种类似BigTable的系统,其优化之一是消除了磁盘的随机写。付出的代价是将最新的数据保存在内存表中,对内存有较大的需求。如果内存表的数量较多,则每个内存表就会在较小的时候刷到磁盘,导致磁盘文件多而且小。范围读取数据的时候就会跨多个数据文件甚至多个节点。为提升读性能,系统都会设计有compaction操作。另外为了防止某些情况下数据文件过大(hbase.hregion.max.filesize,默认256M,太大的数据文件在compaction等操作是对内存的消耗更大),HBase也设计了split操作。Compaction和Split操作,对于在线应用的响应时间都容易造成波动 阅读全文

posted @ 2012-01-06 15:45 陈力 阅读(1032) 评论(0) 推荐(0) 编辑

摘要: HBase中的Client如何路由到正确的RegionServer在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭秘这个过程。在前面的文章“HBase存储架构”中我们已经讨论了HBase基本的存储架构。在此基础上我们引入两个特殊的概念:-ROOT- 阅读全文

posted @ 2012-01-06 15:31 陈力 阅读(3051) 评论(0) 推荐(1) 编辑

摘要: 第一部分、mapreduce模式与hadoop框架深入浅出架构扼要 想读懂此文,读者必须先要明确以下几点,以作为阅读后续内容的基础知识储备:Mapreduce是一种模式。Hadoop是一种框架。Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。 所以,你现在,知道了什么是mapreduce,什么是hadoop,以及这两者之间最简单的联系,而本文的主旨即是,一句话概括:在hadoop的框架上采取mapreduce的模式处理海量数据。下面,咱们可以依次深入学习和了解mapreduce和hadoop这两个东西了。Mapreduce模式 前面说了,mapreduce是一种模式, 阅读全文

posted @ 2012-01-06 14:57 陈力 阅读(1889) 评论(0) 推荐(0) 编辑

摘要: 1,通过Zookeeper定位目标Region Server,最后定位Region。2,Region Server扩容,通过将自身发布到Master,Master均匀分布。Cassandra和HBase主要设计思路对比CassandraHBase一致性Quorum NRW策略通过Gossip协议同步Merkle Tree,维护集群节点间的数据一致性单节点,无复制,强一致性可用性1,基于Consistent Hash相邻节点复制数据,数据存在于多个节点,无单点故障。2,某节点宕机,hash到该节点的新数据自动路由到下一节点做 hinted handoff,源节点恢复后,推送回源节点。3,通过Go 阅读全文

posted @ 2012-01-06 11:58 陈力 阅读(1692) 评论(0) 推荐(0) 编辑