【noqsl】beansdb的分布式实现~简单粗暴有效~

版本: beansdb 0.5.3

下载地点:
http://code.google.com/p/beansdb/

 

beansdb是豆瓣用来存储不变小object的支持中等数据规模的nosql的持久型数据库~跟memcache相比,主要特点如下

1. 数据是持久化的,value 完全在硬盘上操作,内存中只存放key的hash索引

2. 在持久化的基础上,为了提高可靠性,一份数据可以设置存放在多个地方

3. 把分布式坐在了客户端的api里,beansdb本身是单机的

4. 存储使用bitcast的方式~~ 跟b+树索引(tokyocabinet)和lsm(leveldb)又不一样的~挺巧妙~

5. beansdb没有实现expired功能~~~

6. 网络连接的管理直接搬了redis的实现~~~

 

 

下面主要介绍配置文件的工作方式,自带的example中的配置是这样的

BEANSDBCFG = {
    "localhost:7901": range(16),
    "localhost:7902": range(16),
    "localhost:7903": range(16),
}

翻译过来就是

localhost:7901:1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

localhost:7902:1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

localhost:7903:1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

客户端拿到这个配置,会做一下“倒排”

0:localhost:7901;localhost:7902;localhost:7903

1:localhost:7901;localhost:7902;localhost:7903

2:localhost:7901;localhost:7902;localhost:7903

。。。

15:localhost:7901;localhost:7902;localhost:7903

 

当客户端对key进行操作【set,get,delete】时,会先对key进行hash/16 ,然后你懂的,这里读和写有个比较trick的地方

 

读的时候

读到了会对其他同一个桶内的server做一个set,利于数据恢复.

    def get(self, key):
        ss = self._get_servers(key)
        for i,s in enumerate(ss):
            r = s.get(key)
            if r is not None:
                # self heal
                for k in range(i):
                    ss[k].set(key, r)
                return r

 

写的时候

会对统一个桶内的所有的server做写操作,由此达到冗余存储的目的~

 

 

总结:

1. 简单,够美

2. 基于磁盘,没有提供可选的expire功能,可能豆瓣的需求是用来存储不会删除,不经常改变的大量小object吧,按照作者的说法,是针对豆瓣海量音乐,图片的~~~

3. 配置文件的映射比较复杂~~

4. qps不会很高,因为依赖与单机的相应速度,几百qps的样子吧,不会太高

 

 

总之受益匪浅~~~ 好了就到这

谢谢

 

 

 

 

 

posted @ 2013-05-07 09:46  ~嘉言懿行~~我是煲仔饭~~  阅读(866)  评论(0编辑  收藏  举报