使用RingCache提高Cassandra读写效率

我们在之前的文章（谈谈Cassandra的客户端）中讲解了如何在Client端查询Cassandra中的数据。

为什么要使用RingCache

Cassandra的内部读写流程大概是这样的：

1 Client端先随机找到Cassandra集群中的一台机器，然后将查询请求发送给这台Cassandra机器。

2 接收到查询请求的Cassandra机器会判断需要查询的数据是否在本机中：如果在本机中，直接查询；如果不在本机中，将请求转发给另外一台机器来查询，并等待另外一台机器的查询结果。

3 查询请求的Cassandra机器将最终的结果返回给Client端。

我们可以看到，在上面的这个查询流程中，如果Client端将需要查询的数据发送给了一台不相关的Cassandra机器，那么这个不相关的Cassandra机器就充当了一个代理。

最坏的情况是所有的请求都发送到某一台Cassandra机器，这样就导致这台Cassandra机器就成为了瓶颈。

理想的状态是：Client端将查询的请求直接发送到存储有需要查询数据的Cassandra机器中，这样就省掉了其中一层不必要的代理。

那么我们如果达到这种理想的状态呢？可以考虑使用Cassandra（我使用的版本是0.6.2）中自带的RingCache。

如何使用RingCache

使用RingCache非常简单，我们只需要编写如下代码即可获得负责某一个数据的实际机器：

ringCache = new RingCache();
List<InetAddress> endPoints = ringCache.getEndPoint(keyspaceName, key);

在这里，我们只用2行代码就得到了某一个KeySpace下面的key（如果对Cassandra模型感兴趣，可以参考:大话Cassandra数据模型）对于的所有机器地址。这样我们就能直接对这些机器进行读写操作了。

但是这里需要注意一点，上面的代码依赖与Cassandra的配置文件，所以需要在环境变量中指定才能正常工作。

RingCache的工作原理

为什么RingCache能找到我们需要的节点？

我们在执行RingCache rc = new RingCache();的时候，内部会读取配置文件中的seed信息，然后找到一个有效的seed节点，请求token map信息，并将所有的token map信息缓存在本机。

我们在执行List<InetAddress> endPoints = ringCache.getEndPoint(keyspaceName, key);的时候，RingCache会根据之前找到的token map获取相应的AbstractReplicationStrategy，这个AbstractReplicationStrategy能够根据我们指定的keyspaceName, key再定位到我们需要的节点信息。

这也就解释了RingCache的工作原理。

使用RingCache需要注意的地方

既然使用RingCache能让我们快速地找到对应的Cassandra节点，那是不是以后我们所有的查询都可以使用RingCache了呢？

当然不是，RingCache毕竟只是一个缓存，而Cassandra集群内部的信息是时刻变动的，可能有机器离开，也可能有新的机器加入之类的。但是RingCache一旦使用以后，里面的信息就是不变的啦。

所以我们在实际的使用中需要注意这一点，并进行相应的处理才能更好的发挥出RingCache的作用。

更多关于Cassandra的文章：http://www.cnblogs.com/gpcuster/tag/Cassandra/

posted on 2010-06-23 23:20 逖靖寒阅读(3577) 评论(6) 编辑收藏举报

刷新页面返回顶部

逖靖寒的世界

导航

公告