cassandra notes

keyspace类似关系数据库的schema或database;

cassandra可以支持column数量到2 billion;

primary index 建立在primay key基础上。primary key有1个或多个column组成,但不管哪种情况,第一部分(通常用括号括起来)作为partition key或者叫row key。cassandra不保证primary key的唯一性,所以同一个primary insert两次,不会有报错,而只保留最后一次的记录。

primary key由primary columns和clustering columns组成。primary columns 起到date partition 的作用,即row key;clustering columns起到data sorting的作用,起到关系数据库order by的作用。e.g.

create table stock_ticker_by_exchange_date {
exchange     varchar,
symbol       varchar,
description  varchar,
tick_date    varchar,
close        decimal,
primary key ((exchange,tick_date), symbol)     
}

其他列名采用clustering column+other column的形式,而列储存的顺序是按照column name进行排序。

date bucket pattern” ,在row key中加入日期,便于数据维护,因为你可以根据日期drop掉一些数据。

secondary index是建议在primary key之外的列上。primary index 和 secondary index的主要区别是,primary index是一种分布式索引,用来决定不同的row key存放在哪个node上,secondary index是本地索引,用来对当前节点的数据进行索引。由于二级索引并不能确定到底在其他节点上有多少匹配的行,所以使用二级索引的性能存在着不确定性。如果能限制扫描哪些row,secondary index将得到最好的性能。二级索引只支持equality(“=”)的查询。

cassandra 支持创建多个二级索引。

数据副本,是通过keyspace上replication factor来配置的,不同的副本保存在不同机器节点上。cassandra提供两种复制策略:SimpleStrategy和NetworkTopologyStrategy。

SimpleStrategy用于单机或但数据中心的集群。

NetworkTopologyStrategy

cassandra根据节点ip获取物理地址,ip->数据中心,机架的映射,称之为snitch。场景不同snitch的类型也有不同,例如
RackInferringSnitch: 通过ip地址解析数据中和机架来决定node位置。

GossipingPropertyFileSnitch:通过gossip机制自动更新所有node。

 

posted @ 2016-11-20 23:02  RogerIs谭纶  阅读(208)  评论(0编辑  收藏  举报