cassandra 系统分析 架构
cassandra
cassandra是无中心节点的列式数据库
集群管理:
使用gossip算法,最终每个节点都知道集群中的所有节点信息,新增一个节点,新节点发送上线消息,
其他节点之后后,向邻居节点传播这个消息,邻居又向他的邻居传递,最终大家都知道了
数据路由:
使用一致性hash算法,每一条数据和节点都有一个hash值,都处于一个hash环上
写数据:
客户端连接到任意一个节点,这个节点就是这次写请求的协调者,协调者计算数据的hash,看这个hash值属于哪个节点管辖,把这个数据转发给这个节点(这个是数据的第一副本),协调者还会根据副本策略把数据同步到多个其他节点(这个是第二、第三 ...第N 副本了)
读数据:
客户端连接到任意一个节点,这个节点就是这次读请求的协调者,协调者计算数据的hash,看这个hash值属于哪个节点管辖,向这个主机发送读数据请求,不同的备份策略下,协调者也可能会向备份节点发送读数据请求,获取结果返回给客户端
数据存储模型:
使用列式存储,和hbase类似
写入、删除、修改数据时,是在文件后追加数据操作,并不真正(或者在内存中写入了)写入、删除、修改数据,是顺序IO ,效率很高
系统可用性:
数据会被备份,除非副本机器全部宕机,不然总能找到数据
任意节点知道系统所有节点,能完成任意的数据路由,所以有节点宕机,对系统可用性没影响(除非大规模宕机,导致存活的节点压力剧增)
数据一致性:
多副本之间一致性,使用NRW模型
W:写成功的节点数
R:读成功的节点数
N: 副本数量
满足W + R > N 这个要求,就能保证数据强一致性
系统性能:
写、修改性能较好
因为写数据都是顺序IO,性能较高
读性能正常
因为要读多个副本,导致性能稍低
以上这些性能描述都不是定量的结论,只是和其他NOSQL相比较的相对性能