摘要: 摘自:http://blog.csdn.net/yang_yulei/article/details/46337405 哈希树的理论基础 【质数分辨定理】 简单地说就是:n个不同的质数可以“分辨”的连续整数的个数和他们的乘积相等。“分辨”就是指这些连续的整数不可能有完全相同的余数序列。 (这个定理的 阅读全文
posted @ 2017-01-04 17:44 bonelee 阅读(1382) 评论(0) 推荐(0) 编辑
摘要: 摘自:http://blog.csdn.net/cangyingzhijia/article/details/8592441 Sphinx使用的文件包括 “sph”, “spa”, “spi”, “spd”, “spp”, “spm” ,还有锁文件。其中sph是系统的配置文件。其它则为索引文件。 . 阅读全文
posted @ 2017-01-04 17:18 bonelee 阅读(1904) 评论(1) 推荐(0) 编辑
摘要: 转自:http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 外部排序 现在我们的背景是有16个已经排序的数据存在磁盘上。由于数据量很大,我们不能一次性全部读进来。 我们的目标是依次挑出最小的hit, 阅读全文
posted @ 2017-01-04 17:09 bonelee 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 转自:http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 前言 sphinx 在创建索引前需要做下面几件事:有数据源(pSource),有分词器(pTokenizer),有停止词Stopword 阅读全文
posted @ 2017-01-04 16:58 bonelee 阅读(469) 评论(0) 推荐(0) 编辑
摘要: 摘自:http://blog.jobbole.com/101672/ What/Sphinx是什么 定义:Sphinx是一个全文检索引擎。 特性: 索引和性能优异 易于集成SQL和XML数据源,并可使用SphinxAPI、SphinxQL或者SphinxSE搜索接口 易于通过分布式搜索进行扩展 高速 阅读全文
posted @ 2017-01-04 16:07 bonelee 阅读(1692) 评论(0) 推荐(0) 编辑
摘要: 大数据处理的关键架构层: 大数据处理的关键架构层 摘自:http://weibo.com/ttarticle/p/show?id=2309403960679466973487 阅读全文
posted @ 2017-01-04 15:44 bonelee 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 什么是OLAP(联机分析处理)? 这个是和数据处理非常相关的一个概念。接触过BI(商务智能)的同学一定清楚。 数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processi 阅读全文
posted @ 2017-01-04 15:33 bonelee 阅读(1385) 评论(0) 推荐(0) 编辑
摘要: Druid底层不保存原始数据,而是借鉴了Apache Lucene、Apache Solr以及ElasticSearch等检索引擎的基本做法,对数据按列建立索引,最终转化为Segment,用于存储、查询与分析。 首先,无论是实时数据还是批量数据在进入Druid前都需要经过Indexing Servi 阅读全文
posted @ 2017-01-04 15:23 bonelee 阅读(3364) 评论(0) 推荐(0) 编辑
摘要: Druid是一个开源的、分布式的、列存储系统,特别适用于大数据上的(准)实时分析统计。且具有较好的稳定性(Highly Available)。 其相对比较轻量级,文档非常完善,也比较容易上手。 Druid vs 其他系统 Druid vs Impala/Shark Druid和Impala、Shar 阅读全文
posted @ 2017-01-04 12:22 bonelee 阅读(17050) 评论(0) 推荐(1) 编辑
摘要: 转自:http://www.letiantian.me/2014-06-16-dynamo-algorithm-protocol/ Dynamo是Amazon的一个分布式的键值系统,P2P架构,没有主从的概念,数据一致性做到了最终一致。Apache Cassandra参考了它的实现方法。 一致性哈希 阅读全文
posted @ 2017-01-04 12:06 bonelee 阅读(2172) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.chinaunix.net/uid-27105712-id-5612512.html 一、使用背景 先说一下需要用到向量时钟的场景。我们在写数据时候,经常希望数据不要存储在单点。如db1,db2都可以同时提供写服务,并且都存有全量数据。而client不管是写哪一个db都 阅读全文
posted @ 2017-01-04 11:56 bonelee 阅读(1633) 评论(0) 推荐(1) 编辑
摘要: 分布式系统中一些主要的副本更新策略。 1、同时更新 类型A:没有任何协议,可能出现多个节点执行顺序交叉导致数据不一致情况。 类型B:通过一致性协议唯一确定不同更新操作的执行顺序,从而保证数据一致性 类型A:没有任何协议,可能出现多个节点执行顺序交叉导致数据不一致情况。 类型B:通过一致性协议唯一确定 阅读全文
posted @ 2017-01-04 10:54 bonelee 阅读(925) 评论(0) 推荐(0) 编辑
摘要: 本文主要讲述分布式系统开发的一些相关理论基础。 一、ACID 事务的四个特征: 1、Atomic原子性 事务必须是一个原子的操作序列单元,事务中包含的各项操作在一次执行过程中,要么全部执行成功,要么全部不执行,任何一项失败,整个事务回滚,只有全部都执行成功,整个事务才算成功。 2、Consisten 阅读全文
posted @ 2017-01-04 10:53 bonelee 阅读(417) 评论(0) 推荐(0) 编辑