摘要:
摘自:http://blog.jobbole.com/101672/ What/Sphinx是什么 定义:Sphinx是一个全文检索引擎。 特性: 索引和性能优异 易于集成SQL和XML数据源,并可使用SphinxAPI、SphinxQL或者SphinxSE搜索接口 易于通过分布式搜索进行扩展 高速 阅读全文
摘要:
大数据处理的关键架构层: 大数据处理的关键架构层 摘自:http://weibo.com/ttarticle/p/show?id=2309403960679466973487 阅读全文
摘要:
什么是OLAP(联机分析处理)? 这个是和数据处理非常相关的一个概念。接触过BI(商务智能)的同学一定清楚。 数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processi 阅读全文
摘要:
Druid底层不保存原始数据,而是借鉴了Apache Lucene、Apache Solr以及ElasticSearch等检索引擎的基本做法,对数据按列建立索引,最终转化为Segment,用于存储、查询与分析。 首先,无论是实时数据还是批量数据在进入Druid前都需要经过Indexing Servi 阅读全文
摘要:
Druid是一个开源的、分布式的、列存储系统,特别适用于大数据上的(准)实时分析统计。且具有较好的稳定性(Highly Available)。 其相对比较轻量级,文档非常完善,也比较容易上手。 Druid vs 其他系统 Druid vs Impala/Shark Druid和Impala、Shar 阅读全文
摘要:
转自:http://www.letiantian.me/2014-06-16-dynamo-algorithm-protocol/ Dynamo是Amazon的一个分布式的键值系统,P2P架构,没有主从的概念,数据一致性做到了最终一致。Apache Cassandra参考了它的实现方法。 一致性哈希 阅读全文
摘要:
转自:http://blog.chinaunix.net/uid-27105712-id-5612512.html 一、使用背景 先说一下需要用到向量时钟的场景。我们在写数据时候,经常希望数据不要存储在单点。如db1,db2都可以同时提供写服务,并且都存有全量数据。而client不管是写哪一个db都 阅读全文
摘要:
分布式系统中一些主要的副本更新策略。 1、同时更新 类型A:没有任何协议,可能出现多个节点执行顺序交叉导致数据不一致情况。 类型B:通过一致性协议唯一确定不同更新操作的执行顺序,从而保证数据一致性 类型A:没有任何协议,可能出现多个节点执行顺序交叉导致数据不一致情况。 类型B:通过一致性协议唯一确定 阅读全文
摘要:
本文主要讲述分布式系统开发的一些相关理论基础。 一、ACID 事务的四个特征: 1、Atomic原子性 事务必须是一个原子的操作序列单元,事务中包含的各项操作在一次执行过程中,要么全部执行成功,要么全部不执行,任何一项失败,整个事务回滚,只有全部都执行成功,整个事务才算成功。 2、Consisten 阅读全文