怎么提高cassandra读的性能
cassandra作为一个分布式的存储性能,其特点是写快读慢。最近看了cassandra 1.0的文档,发现1.0在读性能上做了一些提高。用户可以根据系统的要求,合理配置,从而提高读的性能。总结一下,有下面4个方面可以提高读性能。
(1) 禁用read repair
每一次读操作,cassandra都会在后台进行read repair操作。如果只要求读一个节点数据,cassandra在读到一个节点后,就将结果返回客户端,然后用read repair对其他的replicas进行同步(根据timestamp)。如果要求读多个节点,那么cassandra就读多个节点,然后根据timestamp进行比较,返回客户端最新的数据,然后再调用read repair对其他节点进行同步。Read repair在后台的操作,会占用一定的CPU和I/O,所以影响读性能。要提高读的性能,可以将read repair禁用掉,当然这会影响到一致性,但是对于节点比较稳定的系统,是可以考虑的。一种方法时用hinted off和nodel tool的node reapair定期对其进行同步,提高一致性。在cassandra1.0之前,禁用read repair需要修改代码,新的cassandra1.0可以通过对每个读操作调参(0到1),来设定read repair的机率。
(2) Compaction:使用Leveled compaction,并设定multithreaded_compaction,提高compaction的速度。
在http://www.cnblogs.com/marysam/articles/2266061.html这个文章中,我介绍了cassandra1.0目前支持的两种compaction策略---Tiered Compaction和Leveled Compaction。
对于leveled compaction,可以对读写性能带来提升。在cassandra1.0的文档中说明,使用了leveled compaction,读性能提高了400%。
Leveled compaction能够给读性能带来提高的原因是,leveled comapction中每一层都没有重复的记录,这样保证了可以保证90%的读都可以在一个sstable中完成。最坏的情况是一个记录存在在每一层,但是这个时候10TB的数据也就7层,查7个SStable就可以了。
(3) Compression
在http://www.datastax.com/dev/blog/whats-new-in-cassandra-1-0-compression中对cassandra 的compression做了介绍。这里说道,用compression,其读的性能提高了25%-35%。
Compression 之所以能够提高读的性能,是因为经过compression之后,每个节点能够存储更多的数据。同时Cassandra能在SStable index中够迅速地定位到记录的位置,然后解压这些记录进行操作。也就是说compression从两方面提高了读的速度:
1允许更多的数据在内存中
2对于不再内存中,但是经常访问的数据,也能通过SStable index更快地访问。
(4) 调整key cache和row cache的值
Key cache:在内存中保存了记录的位置。当一个row的column很大时,不适宜将row整个放在内存中,这个时候只要保存key的位置,也就是row的位置就可以。这样可以让程序快速定位到row并进行操作。对于有大量对row进行操作的系统,有很大的提高。默认时200,000。可以用nodetool cfstats或者时jconsole进行检测,查看其命中率。
Row cache:row cache 把整个row 的内容都放在内存中。适合的情况是,有一小部分hot data是经常反问的,或者要返回整个columns.在使用row cache时,用注意它对内存的影响。
key cache 如果命中的话,会减少一次的查询。Row cache如果命中的话,减少两次的查询,对于column的类型是图片的系统,当然每个row是很大的,不能寄希望于row cache提高性能。但是我们可以把key cache提高,甚至设置成全部row的keys。这样保证所有的读操作,都能在key cache中命中。
(5) 设置JVM heap的大小
在cassandra 1.0中的,key cache时保存在JVM heap中,而Row cache是保存在电脑的内存中。如果想要提高row cache 的命中率,就要注意JVM heap大小的设置。既要保证JVM heap可以容纳menber table, key cache以及其他大概1GB的使用,又要防止JVM heap过大,影响电脑中row cache的命中。在http://www.datastax.com/docs/1.0/operations/tuning#cache-config中有讲到应该怎么对JVM heap大小进行合理的配置。
posted on 2011-12-01 14:03 lindan_xmu 阅读(4332) 评论(0) 编辑 收藏 举报