cassandra notes

keyspace类似关系数据库的schema或database；

cassandra可以支持column数量到2 billion；

primary index 建立在primay key基础上。primary key有1个或多个column组成，但不管哪种情况，第一部分（通常用括号括起来）作为partition key或者叫row key。cassandra不保证primary key的唯一性，所以同一个primary insert两次，不会有报错，而只保留最后一次的记录。

primary key由primary columns和clustering columns组成。primary columns 起到date partition 的作用，即row key；clustering columns起到data sorting的作用，起到关系数据库order by的作用。e.g.

create table stock_ticker_by_exchange_date {
exchange     varchar,
symbol       varchar,
description  varchar,
tick_date    varchar,
close        decimal,
primary key ((exchange,tick_date), symbol)     
}

其他列名采用clustering column+other column的形式，而列储存的顺序是按照column name进行排序。

“date bucket pattern” ，在row key中加入日期，便于数据维护，因为你可以根据日期drop掉一些数据。

secondary index是建议在primary key之外的列上。primary index 和 secondary index的主要区别是，primary index是一种分布式索引，用来决定不同的row key存放在哪个node上，secondary index是本地索引，用来对当前节点的数据进行索引。由于二级索引并不能确定到底在其他节点上有多少匹配的行，所以使用二级索引的性能存在着不确定性。如果能限制扫描哪些row，secondary index将得到最好的性能。二级索引只支持equality（“=”）的查询。

cassandra 支持创建多个二级索引。

数据副本，是通过keyspace上replication factor来配置的，不同的副本保存在不同机器节点上。cassandra提供两种复制策略：SimpleStrategy和NetworkTopologyStrategy。

SimpleStrategy用于单机或但数据中心的集群。

NetworkTopologyStrategy

cassandra根据节点ip获取物理地址，ip->数据中心，机架的映射，称之为snitch。场景不同snitch的类型也有不同，例如
RackInferringSnitch：通过ip地址解析数据中和机架来决定node位置。

GossipingPropertyFileSnitch：通过gossip机制自动更新所有node。

posted @ 2016-11-20 23:02 RogerIs谭纶阅读(232) 评论(0) 收藏举报

刷新页面返回顶部