01 2017 档案
摘要:转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。 1 Hive基本原理 Hadoop是一个流行的开源框架,用来存储和处理商用硬件上的
阅读全文
摘要:准备数据 计算过程 默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash,reducer是mergepartial。如果把hive
阅读全文
摘要:转自:http://blog.csdn.net/sn_zzy/article/details/43446027 SQL转化为MapReduce的过程 了解了MapReduce实现SQL基本操作之后,我们来看看Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段: Join的
阅读全文
摘要:转自:http://blog.csdn.net/caomiao2006/article/details/52140993 由于GROUP BY 实际上也同样会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数
阅读全文
摘要:1、搜索引擎原理——从索引、搜索、facet底层原理看搜索引擎的本质2、开源搜索引擎分析——lucene(ES、Solr)、sphinx、wukong、bleve、poseidon、indextank-engine3、商业搜索引擎Splunk介绍——性能,架构,底层窥探4、提升CIS智能检索性能的方
阅读全文
摘要:转自: http://www.infoq.com/cn/articles/hadoop-ten-years-part03 转自: http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按:Hadoop于2006年1月28日诞生,至今已有
阅读全文
摘要:摘自:http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation)
阅读全文
摘要:大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性; 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理
阅读全文
摘要:http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence http://www.geeksforgeeks.org/find
阅读全文
摘要:[TD精选] 基于100,000篇演讲的分析数据科学家发现了最佳演讲者的特征 相信大部分人一定试图寻找过使得自己的演讲变得更加吸引人,更加有气势的方法。现如今,在大数据工具和机器学习技术的辅助下,找到完美演讲的答案已经变得十分容易。Noah Zandan, CEO of Quantified Com
阅读全文
摘要:转自: 可看到它使用机器学习算法来识别DNS安全问题 http://logz.io/blog/machine-learning-log-analytics/ A Machine Learning Approach to Log Analytics By Tomer Levy| January 19t
阅读全文
摘要:转自:http://www.lai18.com/content/7084969.html Facet说明 我们在浏览网站的时候,经常会遇到按某一类条件查询的情况,这种情况尤以电商网站最多,以天猫商城为例,我们选择某一个品牌,系统会将该品牌对应的商品展示出来,效果图如下:如上图,我们关注的是品牌,选购
阅读全文
摘要:转自:http://www.tianyiqingci.com/2016/04/11/esaggsapi/ 前言 转自:http://www.tianyiqingci.com/2016/04/11/esaggsapi/ 前言 说完了ES的索引与检索,接着再介绍一个ES高级功能API – 聚合(Aggr
阅读全文
摘要:WE'VE JOINED MONGODB! We're proud to announce that MongoDB has acquired WiredTiger, and we've joined the MongoDB team! We will be directly involved in
阅读全文
摘要:数据文件结构 Extent 在每一个数据文件内,MongoDB把所存储的BSON文档的数据和B树索引组织到逻辑容器“Extent”里面。如下图所示(my-db.1和my-db.2 是数据库的两个数据文件): 一个文件可以有多个Extent 每一个Extent只会包含一个集合的数据或者索引 同一个集合
阅读全文
摘要:转自:http://www.mongoing.com/archives/2540 传统数据库引擎的数据组织方式,一般存储引擎都是采用 btree 或者 lsm tree 来实现索引,但是索引的最小单位不是 K/V 记录对象,而是数据页,数据页的组织关系实现就是存储引擎的数据组织方式。 Mongodb
阅读全文
摘要:分析 最后,我们还有一个需求需要完成:允许管理者在职员目录中进行一些分析。 Elasticsearch有一个功能叫做聚合(aggregations),它允许你在数据上生成复杂的分析统计。它很像SQL中的GROUP BY但是功能更强大。 + + 举个例子,让我们找到所有职员中最大的共同点(兴趣爱好)是
阅读全文
摘要:特定字段的统计功能——取值分布,topK,min/max/平均值 例如: date_second 60 值, 100% 的事件 时段平均值 时段最大值 时段最小值 上限值 时段上限值 罕见值 具有此字段的事件 平均: 30.963998 最小值: 0 最大值: 59 标准 偏差: 17.300073
阅读全文
摘要:来自 http://source.wiredtiger.com/ WiredTiger is an high performance, scalable, production quality, NoSQL, Open Source extensible platform for data mana
阅读全文
摘要:来自:http://www.open-open.com/lib/view/open1424916275249.html 十年前,谷歌发表了 “BigTable” 的论文,论文中很多很酷的方面之一就是它所使用的文件组织方式,这个方法更一般的名字叫 Log Structured-Merge Tree。
阅读全文
摘要:Basic Compaction 为了保持LSM的读操作相对较快,维护并减少sstable文件的个数是很重要的,所以让我们更深入的看一下合并操作。这个过程有一点儿像一般垃圾回收算法。 当一定数量的sstable文件被创建,例如有5个sstable,每一个有10行,他们被合并为一个50行的文件(或者更
阅读全文
摘要:到美国生孩子的母亲一般都是拥有合法身份赴美,只能说是违规,而算不上违法。那为什么加州会频频发生月子中心被取缔的事情呢? 原因不外乎四点。第一,美国法律规定居民区内不可经商,而月子中心一般都设在居民区,一旦被查就是违法经营;其次,有些月子中心为了招揽更多顾客而违章改建试图扩大房屋居住面积,这又触及了美
阅读全文
摘要:在:http://www.lmdb.tech/bench/inmem/ 2. Small Data Set Using the laptop we generate a database with 20 million records. The records have 16 byte keys a
阅读全文
摘要:转自:http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 索引过程分析 下面我们来分析索引过程。 这里需要注意的是,docId参数需要调用者从外部传入,而不是在内部自己创建,这给搜索引擎的实现者更大的自由。 将文档交给分词器处理,然
阅读全文
摘要:转自:http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 搜索过程分析 下面我们来分析一下搜索的过程。首先构造一个SearchRequest对象。一般情况下只需提供SearchRequest.Text即可。 从本文一开始那段示例代码
阅读全文
摘要:用bash开5个python进程来测试写入性能,注意:当集群数目增加,应当增加bash脚本的并发进程数! test_cass.py bash run.sh
阅读全文
摘要:Keyspaces A cluster is a container for keyspaces. A keyspace is the outermost container for data in Cassandra, corresponding closely to a schema in a
阅读全文
摘要:ethtool eth0 会包含速度模式等各项属性信息 lspci|grep -i ether 可以查看硬件设备具体型号,会包含硬件厂商及信息 dmesg |grep -i eth 会显示系统加载网卡时写入/var/log/message里的信息
阅读全文
摘要:iptraf iptraf是一款交互式、色彩鲜艳的IP局域网监控工具。它可以显示每个连接以及主机之间传输的数据量。下面是屏幕截图。 安装iptraf:
阅读全文
摘要:iostat是I/O statistics(输入/输出统计)的缩写,iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况,同时也会汇报出 CPU使用情况。同vmstat一样,iostat也有一个弱点,就是它不能对某个进程进行深入分析,仅对系统的整体情况进行分析。 iosta
阅读全文
摘要:见:https://software.intel.com/sites/default/files/Configuration_and_Deployment_Guide_for_Cassandra_on_IA.pdf NoSQL databases can be classified into fou
阅读全文
摘要:lsmod....mptsas 62545 7
阅读全文
摘要:cassandra的索引查询和排序 转自:http://zhaoyanblog.com/archives/499.html cassandra的索引查询和排序 cassandra的查询虽然很弱,但是它也是支持索引和排序的,当然是简陋的查询,这一切都是为了追求性能的代价,所以要使用cassandra,
阅读全文
摘要:Of course, like any technology MongoDB has its strengths and weaknesses. MongoDB is designed for OLTP workloads. It can do complex queries, but it’s n
阅读全文
摘要:解压cassandra的安装包后可以查看主要的配置文件,都在conf/目录下,conf/cassandra.yaml比较重要,其中需要着重注意的有以下一些配置项: cluster_name: 'TC01' num_tokens: 256 seed_provider: - class_name: or
阅读全文
摘要:例子在:https://github.com/apache/cxf/blob/master/distribution/src/main/release/samples/jax_rs/description_swagger2/src/main/java/demo/jaxrs/swagger/serve
阅读全文
摘要:JAX-RS Java API forRESTful WebServices旨在定义一个统一的规范,使得 Java 程序员可以使用一套固定的接口来开发 REST 应用,避免了依赖于第三方框架。是一个Java编程语言的应用程序接口,支持按照表象化状态转变 (REST)架构风格创建Web服务Web服务。
阅读全文
摘要:初衷 记得以前写接口,写完后会整理一份API接口文档,而文档的格式如果没有具体要求的话,最终展示的文档则完全决定于开发者的心情。也许多点,也许少点。甚至,接口总是需要适应新需求的,修改了,增加了,这份文档维护起来就很困难了。于是发现了swagger,自动生成文档的工具。 swagger介绍 首先,官
阅读全文
摘要:转自:http://www.open-open.com/lib/view/open1426065900123.html 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 转自:http://www.open-open.
阅读全文
摘要:转自:http://www.infoq.com/cn/news/2015/02/apache-samza-top-project Apache Samza是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop Y
阅读全文
摘要:停止mongodb use admin db.shutdownServer(); mongos> db.shutdownServer(); assert failed : unexpected error: "shutdownServer failed: unauthorized: this com
阅读全文
摘要:在搭建分片之前,先了解下分片中各个角色的作用。 在部署之前先明白片键的意义,一个好的片键对分片至关重要。片键必须是一个索引,数据根据这个片键进行拆分分散。通过sh.shardCollection加会自动创建索引。一个自增的片键对写入和数据均匀分布就不是很好,因为自增的片键总会在一个分片上写入,后续达
阅读全文
摘要:MongoDB3.0中的压缩选项 在MongoDB 3.0中,WiredTiger为集合提供三个压缩选项: 有索引的两个压缩选项: 请记住哪些适用于MongoDB的3.0所有压缩选项: 官方说法: Compression With WiredTiger, MongoDB supports compr
阅读全文
摘要:转自:https://scalegrid.io/blog/enabling-data-compression-in-mongodb-3-0/ MongoDB 3.0 with the wired tiger storage engine enables you to transparently co
阅读全文
摘要:转自:https://ayende.com/blog/171745/code-reading-wukong-full-text-search-engine I like reading code, and recently I was mostly busy with moving our offi
阅读全文
摘要:转自:http://www.itdadao.com/articles/c15a531189p0.html http://www.cnblogs.com/bettersky/p/6158172.html 参考 https://github.com/cloudius-systems/osv/wiki/B
阅读全文
摘要:You need to edit cassandra.yaml on the node you are trying to connect to and set the node ip address for rpc_address and listen_address and restart Ca
阅读全文
摘要:转自:http://www.ha97.com/4580.html 本文图片来自Ricky Ho的博文MongoDB构架(MongoDB Architecture),这是个一听就感觉很宽泛的话题,但是作者在文章中确实对MongoDB由内至外的架构进行了剖析。本文截取了其文章中的几张重点架构示意图片进行
阅读全文
摘要:ycsb有几个目录需要注意下: 2 使用 ycsb在执行的时候,分为两阶段:load阶段 和 transaction阶段 2.1 load阶段 该阶段主要用于构造测试数据,ycsb会基于参数设定,往db里面构造测试需要的数据,如: 1 ./bin/ycsb load mongodb-async -s
阅读全文
摘要:转自:http://blog.sina.com.cn/s/blog_48c95a190102v9kg.html YCSB(Yahoo! Cloud Serving Benchmark)是雅虎开源的一款通用的性能测试工具。通过这个工具我们可以对各类NoSQL产品进行相关的性能测试,包括:HBase、
阅读全文
摘要:MongoDB GridFS GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片、音频、视频等)。 GridFS 也是文件存储的一种方式,但是它是存储在MonoDB的集合中。 GridFS 可以更好的存储大于16M的文件。 GridFS 会将大文件对象分割成多个小的chu
阅读全文
摘要:数据分区 数据分区 MongoDB中数据的分片是以集合为基本单位的,集合中的数据通过 片键 被分成多部分. 片键 对集合进行分片时,你需要选择一个 片键 , shard key 是每条记录都必须包含的,且建立了索引的单个字段或复合字段,MongoDB按照片键将数据划分到不同的 数据块 中,并将 数据
阅读全文
摘要:MongoDB是面向文档的数据库管理系统DBMS(显然mongodb不是oracle那样的RDBMS,而仅仅是DBMS)。 想想一下MySQL中没有任何关系型数据库的表,而由JSON类型的对象组成数据模型的样子是如何的? 值得注意的是,MongoDB既不支持JOIN(连接)也不支持transacti
阅读全文
摘要:http://docs.datastax.com/en/archived/cassandra/2.2/cassandra/tools/toolsCStress.html?hl=stress Simple read and write examples Insert (write) one milli
阅读全文
摘要:转自:http://itindex.net/detail/22338-cassandra-hbase-%E8%AE%BE%E8%AE%A1 Cassandra HBase 一致性 Quorum NRW策略 通过Gossip协议同步Merkle Tree,维护集群节点间的数据一致性 单节点,无复制,强
阅读全文
摘要:行先是以一种非常独特的方式被索引,随后Bigtable利用行键对数据进行分割,将它们分布到集群中。列可以被迅速地定义在行中,让Bigtable适用于大多数的非模式环境。 数据在表面上最初是由行进行排列的,表的主要键是行键。但是与关系型数据库不同,在列式数据库中,没两个行需要相同的列。正如上面所说的那
阅读全文
摘要:理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么?首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式. Google's BigTable论文 清楚地解释了什
阅读全文
摘要:转自:http://www.infoq.com/cn/articles/best-practice-of-cassandra-data-model-design 不要把Cassandra model想象成关系型数据库table 取而代之,应该把它想象成事一个有序的map结构。 对于一个新手来说,下面
阅读全文
摘要:Cassandra之中一共包含下面5种Key: 首先,Primary key 是用来获取某一行的数据, 可以是一列或者多列(复合列 composite) Primary = Partition Key + [Clustering Key] (Clustering Key 可选) Clustering
阅读全文
Cassandra二级索引原理——新创建了一张表格,同时将原始表格之中的索引字段作为新索引表的Primary Key,并且存储的值为原始数据的Primary Key,然后再通过pk一级索引找到真正的值
摘要:1.什么是二级索引? 我们前面已经介绍过Cassandra之中有各种Key,比如Primary Key, Cluster Key 等等。如果您对这部分概念并不熟悉,可以参考之前的文章: [Cassandra教程] (四)使用Key的正确姿势 对于Cassandra来说,一级索引就是Primary K
阅读全文
摘要:Cassandra 的数据存储结构 Cassandra 的数据模型是基于列族(Column Family)的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点,采用 Memtable 和 SSTable 的方式进行存储。在 Cass
阅读全文
摘要:入门例子: http://wiki.apache.org/cassandra/GettingStarted 添加环境变量并source生效,使得可以在任意位置执行cassandra/bin安装目录下的命令 前台启动Cassandra进程, sudo cassandra -f 启动一个新的终端, 启动
阅读全文
摘要:四、副本存储 Cassandra不像HBase是基于HDFS的分布式存储,它的数据是存在每个节点的本地文件系统中。 Cassandra有三种副本配置策略: 1) SimpleStrategy (RackUnawareStrategy): 副本不考虑机架的因素,按照Token放置在连续下几个节点。如图
阅读全文
摘要:转自:http://asyty.iteye.com/blog/1202072 转自:http://asyty.iteye.com/blog/1202072 一、Cassandra框架二、Cassandra数据模型 Colum / Colum Family, SuperColum / SuperCol
阅读全文
摘要:elasticSearch的配置文件中有2个参数:node.master和node.data。这两个参 数搭配使用时,能够帮助提供服务器性能。 数据节点node.master: false node.data: true 该node服务器只作为一个数据节点,只用于存储索引数据。使该node服务器功能
阅读全文
摘要:注意:由于是重复数据,词法不具有通用性!文章价值不大! 摘自:https://segmentfault.com/a/1190000002695169 Doc Values 会压缩存储重复的内容。 给定这样一个简单的 mapping 注意:由于是重复数据,词法不具有通用性!文章价值不大! 摘自:htt
阅读全文
摘要:官方说法,来自https://www.elastic.co/guide/en/elasticsearch/reference/2.2/index-modules.html#_static_index_settings: index.codecThe default value compresses
阅读全文
摘要:本文说明:除开ES,Solr,sphinx系列的其他开源搜索引擎汇总于此。 A search engine based on Node.js and LevelDB 本文说明:除开ES,Solr,sphinx系列的其他开源搜索引擎汇总于此。 A search engine based on Node
阅读全文
摘要:本周数据库业界探讨最火热的话题就是MemSQL,究竟是不是“旧瓶装新酒”引发了诸多的辩论,同时也引发了究竟是产品技术重要还是DBA重要的疑问。网络中有一些关于MemSQL的介绍,基本上都是来自官方文档。在本文中,数据库行业的著名独立分析师Curt Monash也发表了他对MemSQL的看法。 Mem
阅读全文
摘要:NewSQL 是对各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。 NewSQL 是指这样一类新式的关系型数据库管理系统,针对OLTP(读-写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACID
阅读全文
摘要:转自:http://news.sequoiadb.com/cn/Detail-id-42 2015-03-20 Strata+Hadoop World(SHW)大会是全世界最大的大数据大会之一。 SHW大会为各种技术提供了深度交流的机会,还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学
阅读全文
摘要:补充: Basho公司开源了它的时序数据库产品Riak TS 1.3 代码在github riak的riak-ts分支上! Riak KV产品构建于Riak内核之上,提供了一种高弹性、高可用的键值数据库。Riak KV产品当前正在持续改进中,专注于数据正确性、预防数据损失和破坏等特性。 Riak T
阅读全文
摘要:天工架构 目前,天工平台的服务主要由物接入、物解析、物管理、规则引擎和时序数据库组成,并可无缝对接百度云天算智能大数据平台及基础平台产品,可提供千万级设备接入的能力,百万数据点每秒的读写性能,超高的压缩率,端到端的安全防护。其基本架构如下图所示: 时序数据库:用于管理时间序列数据的专业化数据库。区别
阅读全文
摘要:CrateDB: The fast, scalable, easy to use SQL database with native full text search https://crate.io TODO, 待分析源码实现 CrateDB: The fast, scalable, easy to
阅读全文
摘要:转自:http://blog.csdn.net/kanghua/article/details/44650625 物联网是当前最具发展潜力的技术潮流,到2020年全球将有200亿—2000亿物联网设备(Gartner 预测260亿,ABI预测300亿,Oracle 预测500亿,Intel 预测20
阅读全文
摘要:13.5 一致性 在NoSQL中,通常有两个层次的一致性:第一种是强一致性,既集群中的所有机器状态同步保持一致。第二种是最终一致性,既可以允许短暂的数据不一致,但数据最终会保持一致。我们先来讲一下,在分布式集群中,为什么最终一致性通常是更合理的选择,然后再来讨论两种一致性的具体实现结节。 13.5.
阅读全文
摘要:13.4 横向扩展带来性能提升 很多NoSQL系统都是基于键值模型的,因此其查询条件也基本上是基于键值的查询,基本不会有对整个数据进行查询的时候。由于基本上所有的查询操作都是基本键值形式的,因此分片通常也基于数据的键来做:键的一些属性会决定这个键值对存储在哪台机器上。下面我们将会对hash分片和范围
阅读全文
摘要:13.2.4 事务机制 NoSQL系统通常注重性能和扩展性,而非事务机制。 传统的SQL数据库的事务通常都是支持ACID的强事务机制。要保证数据的一致性,通常多个事务是不可能交叉执行的,这样就导致了可能一个很简单的操作需要等等一个复杂操作完成才能进行的情况。 对很多NoSQL系统来说,对性能的考虑远
阅读全文
摘要:摘自:http://www.ituring.com.cn/article/4002# NoSQL系统的数据操作接口应该是非SQL类型的。但在NoSQL社区,NoSQL被赋予了更具有包容性的含义,其意为Not Only SQL,即NoSQL提供了一种与传统关系型数据库不太一样的存储模式,这为开发者提供
阅读全文
摘要:apt-get install sshpass sshpass -p **your_password** ssh -o StrictHostKeyChecking=no "root@$ip" "du -sm /home/bone/ext_disk/splunk/var/lib" 参考: https:
阅读全文
摘要:转自:http://blog.jqian.net/post/dynamo.html Dynamo是Amazon开发的一款高可用的分布式KV系统,已经在Amazon商店的后端存储有很成熟的应用。它的特点:总是可写(500+ per sec, 99.9% <300ms),并且可以根据需求优化配置(调整R
阅读全文
摘要:Berkeley DB的数据存储结构 BDB支持四种数据存储结构及相应算法,官方称为访问方法(Access Method),分别是哈希表(Hash Table)、B树(BTree)、队列(Queue)、记录号(Recno)。在创建数据库的时候,必须通过dbtype参数将存储结构指定为上述结构中的一种
阅读全文
摘要:4.10 同义词文件/Synonym 同义词文件格式 from=>to AT &T => AT&T AT & T => AT & T standarten fuehrer => Standartenfuehrer standarten fuhrer => Standartenfuehrer Ms-D
阅读全文
摘要:1 概述 这是基于开源的sphinx全文检索引擎的架构代码分析,本篇主要描述index索引服务的分析。当前分析的版本 sphinx-2.0.4 1 概述 这是基于开源的sphinx全文检索引擎的架构代码分析,本篇主要描述index索引服务的分析。当前分析的版本 sphinx-2.0.4 这是基于开源
阅读全文
摘要:摘自:http://blog.csdn.net/yang_yulei/article/details/46337405 哈希树的理论基础 【质数分辨定理】 简单地说就是:n个不同的质数可以“分辨”的连续整数的个数和他们的乘积相等。“分辨”就是指这些连续的整数不可能有完全相同的余数序列。 (这个定理的
阅读全文
摘要:摘自:http://blog.csdn.net/cangyingzhijia/article/details/8592441 Sphinx使用的文件包括 “sph”, “spa”, “spi”, “spd”, “spp”, “spm” ,还有锁文件。其中sph是系统的配置文件。其它则为索引文件。 .
阅读全文
摘要:转自:http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 外部排序 现在我们的背景是有16个已经排序的数据存在磁盘上。由于数据量很大,我们不能一次性全部读进来。 我们的目标是依次挑出最小的hit,
阅读全文
摘要:转自:http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 前言 sphinx 在创建索引前需要做下面几件事:有数据源(pSource),有分词器(pTokenizer),有停止词Stopword
阅读全文
摘要:摘自:http://blog.jobbole.com/101672/ What/Sphinx是什么 定义:Sphinx是一个全文检索引擎。 特性: 索引和性能优异 易于集成SQL和XML数据源,并可使用SphinxAPI、SphinxQL或者SphinxSE搜索接口 易于通过分布式搜索进行扩展 高速
阅读全文
摘要:大数据处理的关键架构层: 大数据处理的关键架构层 摘自:http://weibo.com/ttarticle/p/show?id=2309403960679466973487
阅读全文
摘要:什么是OLAP(联机分析处理)? 这个是和数据处理非常相关的一个概念。接触过BI(商务智能)的同学一定清楚。 数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processi
阅读全文
摘要:Druid底层不保存原始数据,而是借鉴了Apache Lucene、Apache Solr以及ElasticSearch等检索引擎的基本做法,对数据按列建立索引,最终转化为Segment,用于存储、查询与分析。 首先,无论是实时数据还是批量数据在进入Druid前都需要经过Indexing Servi
阅读全文
摘要:Druid是一个开源的、分布式的、列存储系统,特别适用于大数据上的(准)实时分析统计。且具有较好的稳定性(Highly Available)。 其相对比较轻量级,文档非常完善,也比较容易上手。 Druid vs 其他系统 Druid vs Impala/Shark Druid和Impala、Shar
阅读全文
摘要:转自:http://www.letiantian.me/2014-06-16-dynamo-algorithm-protocol/ Dynamo是Amazon的一个分布式的键值系统,P2P架构,没有主从的概念,数据一致性做到了最终一致。Apache Cassandra参考了它的实现方法。 一致性哈希
阅读全文
摘要:转自:http://blog.chinaunix.net/uid-27105712-id-5612512.html 一、使用背景 先说一下需要用到向量时钟的场景。我们在写数据时候,经常希望数据不要存储在单点。如db1,db2都可以同时提供写服务,并且都存有全量数据。而client不管是写哪一个db都
阅读全文
摘要:分布式系统中一些主要的副本更新策略。 1、同时更新 类型A:没有任何协议,可能出现多个节点执行顺序交叉导致数据不一致情况。 类型B:通过一致性协议唯一确定不同更新操作的执行顺序,从而保证数据一致性 类型A:没有任何协议,可能出现多个节点执行顺序交叉导致数据不一致情况。 类型B:通过一致性协议唯一确定
阅读全文
摘要:本文主要讲述分布式系统开发的一些相关理论基础。 一、ACID 事务的四个特征: 1、Atomic原子性 事务必须是一个原子的操作序列单元,事务中包含的各项操作在一次执行过程中,要么全部执行成功,要么全部不执行,任何一项失败,整个事务回滚,只有全部都执行成功,整个事务才算成功。 2、Consisten
阅读全文
摘要:在目前的Mysql数据库中,使用最广泛的是innodb存储引擎。innodb确实是个很不错的存储引擎,就连高性能Mysql里都说了,如果不是有什么很特别的要求,innodb就是最好的选择。当然,这偏文章讲的是TokuDB,不是innodb,相比innodb,TokuDB有着自己的特点。 转自:htt
阅读全文
摘要:其性能特点见:http://www.cnblogs.com/billyxp/p/3567421.html TokuDB 是一个高性能、支持事务处理的 MySQL 和 MariaDB 的存储引擎。TokuDB 的主要特点则是对高写压力的支持。 TokuDB 是一个高性能、支持事务处理的 MySQL 和
阅读全文
摘要:LSM树(Log-Structured Merge Tree)存储引擎 代表数据库:nessDB、leveldb、hbase等 核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree ,这个概念就是结构化合并树的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数
阅读全文
摘要:一致性哈希算法 摘自:http://blog.codinglabs.org/articles/consistent-hashing.html 算法简述 一致性哈希算法(Consistent Hashing)最早在论文《Consistent Hashing and Random Trees: Dist
阅读全文
摘要:大数据日知录要点整理 大数据日知录要点整理 第0 章 当谈论大数据时我们在谈什么 1 NOSQL选型:kv-cassandra、dynamo,列式存储-HBase,图存储-Neo4j 社交网络数据存储适合用图数据库,而实时响应要求较高的场合适合Hbase等列式数据库。海量数据批处理任务,Hadoop
阅读全文
摘要:ArangoDB介绍 ArangoDB是一个开源NoSQL数据库,官网:https://www.ArangoDB.org/ArangoDB支持灵活的数据模型,比如文档Document、图Graph以及键值对Key-Value存储。ArangoDB同时也是一个高性能的数据库,它使用类SQL查询或Jav
阅读全文
摘要:Given an array of integers, every element appears three times except for one. Find that single one. Note: Your algorithm should have a linear runtime
阅读全文
摘要:Given a collection of distinct numbers, return all possible permutations. For example, [1,2,3] have the following permutations: class Solution(object)
阅读全文
摘要:Given a singly linked list, group all odd nodes together followed by the even nodes. Please note here we are talking about the node number and not the
阅读全文
摘要:Serialization is the process of converting a data structure or object into a sequence of bits so that it can be stored in a file or memory buffer, or
阅读全文