随笔档案「2017年1月」 - bonelee

Hive数据分析——Spark是一种基于rdd（弹性数据集）的内存分布式并行处理框架，比于Hadoop将大量的中间结果写入HDFS，Spark避免了中间结果的持久化

摘要：转自：http://blog.csdn.net/wh_springer/article/details/51842496 近十年来，随着Hadoop生态系统的不断完善，Hadoop早已成为大数据事实上的行业标准之一。 1 Hive基本原理 Hadoop是一个流行的开源框架，用来存储和处理商用硬件上的阅读全文

posted @ 2017-01-31 23:57 bonelee 阅读(2100) 评论(0) 推荐(0)

Hive group by实现-就是word 统计

摘要：准备数据计算过程默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结果merge起来，为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash，reducer是mergepartial。如果把hive 阅读全文

posted @ 2017-01-31 23:21 bonelee 阅读(4065) 评论(0) 推荐(0)

Hive mapreduce SQL实现原理——SQL最终分解为MR任务，而group by在MR里和单词统计MR没有区别了

摘要：转自：http://blog.csdn.net/sn_zzy/article/details/43446027 SQL转化为MapReduce的过程了解了MapReduce实现SQL基本操作之后，我们来看看Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段： Join的阅读全文

posted @ 2017-01-31 23:04 bonelee 阅读(12648) 评论(0) 推荐(1)

SQL group by底层原理——本质是排序，可以利用索引事先排好序

摘要：转自：http://blog.csdn.net/caomiao2006/article/details/52140993 由于GROUP BY 实际上也同样会进行排序操作，而且与ORDER BY 相比，GROUP BY 主要只是多了排序之后的分组操作。当然，如果在分组的时候还使用了其他的一些聚合函数阅读全文

posted @ 2017-01-31 22:48 bonelee 阅读(25928) 评论(0) 推荐(0)

TODO

摘要：1、搜索引擎原理——从索引、搜索、facet底层原理看搜索引擎的本质2、开源搜索引擎分析——lucene(ES、Solr)、sphinx、wukong、bleve、poseidon、indextank-engine3、商业搜索引擎Splunk介绍——性能，架构，底层窥探4、提升CIS智能检索性能的方阅读全文

posted @ 2017-01-26 17:58 bonelee 阅读(527) 评论(0) 推荐(0)

达观数据分析平台架构和Hive实践——TODO

摘要：转自： http://www.infoq.com/cn/articles/hadoop-ten-years-part03 转自： http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按：Hadoop于2006年1月28日诞生，至今已有阅读全文

posted @ 2017-01-26 17:54 bonelee 阅读(440) 评论(0) 推荐(0)

日志和告警数据挖掘经验谈——利用日志相似度进行聚类，利用时间进行关联分析

摘要：摘自：http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理，主要是归类(Grouping)和关联(Correlation) 阅读全文

posted @ 2017-01-26 17:09 bonelee 阅读(7788) 评论(0) 推荐(0)

大数据分析处理框架——离线分析（hive，pig，spark）、近似实时分析（Impala）和实时分析（storm、spark streaming）

摘要：大数据分析处理架构图数据源：除该种方法之外，还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构，而特别要说的是流数据，它的核心就是数据的连续性和快速分析性；计算层：内存计算中的Spark是UC Berkeley的最新作品，思路是利用集群中的所有内存将要处理阅读全文

posted @ 2017-01-26 16:37 bonelee 阅读(6683) 评论(0) 推荐(0)

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现

摘要：http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence http://www.geeksforgeeks.org/find 阅读全文

posted @ 2017-01-26 10:06 bonelee 阅读(1272) 评论(0) 推荐(0)

基于100,000篇演讲的分析数据科学家发现了最佳演讲者的特征——及时解释听众不懂的词语，必要时提高10%的音调，正确和恰当的手势，氛围的营造

摘要：[TD精选] 基于100,000篇演讲的分析数据科学家发现了最佳演讲者的特征相信大部分人一定试图寻找过使得自己的演讲变得更加吸引人，更加有气势的方法。现如今，在大数据工具和机器学习技术的辅助下，找到完美演讲的答案已经变得十分容易。Noah Zandan, CEO of Quantified Com 阅读全文

posted @ 2017-01-25 15:28 bonelee 阅读(414) 评论(0) 推荐(0)

logz.io一个企业级的ELK日志分析器内部集成了机器学习识别威胁——核心：利用用户对于特定日志事件的反馈处理动作来学习判断日志威胁 + 类似语音识别的专家系统从各方收集日志威胁信息

摘要：转自：可看到它使用机器学习算法来识别DNS安全问题 http://logz.io/blog/machine-learning-log-analytics/ A Machine Learning Approach to Log Analytics By Tomer Levy| January 19t 阅读全文

posted @ 2017-01-25 15:23 bonelee 阅读(2464) 评论(0) 推荐(0)

lucene搜索之facet查询原理和facet查询实例——TODO

摘要：转自：http://www.lai18.com/content/7084969.html Facet说明我们在浏览网站的时候，经常会遇到按某一类条件查询的情况，这种情况尤以电商网站最多，以天猫商城为例，我们选择某一个品牌，系统会将该品牌对应的商品展示出来，效果图如下：如上图，我们关注的是品牌，选购阅读全文

posted @ 2017-01-24 15:36 bonelee 阅读(1879) 评论(0) 推荐(0)

ElasticSearch聚合分析API——非常详细，如果要全面了解的话，最好看这个

摘要：转自：http://www.tianyiqingci.com/2016/04/11/esaggsapi/ 前言转自：http://www.tianyiqingci.com/2016/04/11/esaggsapi/ 前言说完了ES的索引与检索，接着再介绍一个ES高级功能API – 聚合(Aggr 阅读全文

posted @ 2017-01-24 10:21 bonelee 阅读(2193) 评论(0) 推荐(0)

wiredtiger引擎性能——比levelDB更牛叉！

摘要：WE'VE JOINED MONGODB! We're proud to announce that MongoDB has acquired WiredTiger, and we've joined the MongoDB team! We will be directly involved in 阅读全文

posted @ 2017-01-24 10:04 bonelee 阅读(798) 评论(0) 推荐(0)

mongodb数据文件结构——record是内嵌BSON的双向链表，多个record或索引组成extent

摘要：数据文件结构 Extent 在每一个数据文件内，MongoDB把所存储的BSON文档的数据和B树索引组织到逻辑容器“Extent”里面。如下图所示（my-db.1和my-db.2 是数据库的两个数据文件）：一个文件可以有多个Extent 每一个Extent只会包含一个集合的数据或者索引同一个集合阅读全文

posted @ 2017-01-24 09:53 bonelee 阅读(797) 评论(0) 推荐(0)

MongoDB Wiredtiger存储引擎实现原理——Copy on write的方式管理修改操作，Btree cache

摘要：转自：http://www.mongoing.com/archives/2540 传统数据库引擎的数据组织方式，一般存储引擎都是采用 btree 或者 lsm tree 来实现索引，但是索引的最小单位不是 K/V 记录对象，而是数据页，数据页的组织关系实现就是存储引擎的数据组织方式。 Mongodb 阅读全文

posted @ 2017-01-24 09:05 bonelee 阅读(1755) 评论(0) 推荐(0)

elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket（允许嵌套）进行group by，统计下分组结果，包括min/max/avg

摘要：分析最后，我们还有一个需求需要完成：允许管理者在职员目录中进行一些分析。 Elasticsearch有一个功能叫做聚合(aggregations)，它允许你在数据上生成复杂的分析统计。它很像SQL中的GROUP BY但是功能更强大。 + + 举个例子，让我们找到所有职员中最大的共同点（兴趣爱好）是阅读全文

posted @ 2017-01-23 18:10 bonelee 阅读(9289) 评论(0) 推荐(0)

splunk的统计分析功能——特定字段的统计功能包括取值分布（+topK，min/max/平均值）

摘要：特定字段的统计功能——取值分布，topK，min/max/平均值例如： date_second 60 值, 100% 的事件时段平均值时段最大值时段最小值上限值时段上限值罕见值具有此字段的事件平均: 30.963998 最小值: 0 最大值: 59 标准偏差: 17.300073 阅读全文

posted @ 2017-01-23 15:09 bonelee 阅读(2578) 评论(0) 推荐(0)

wiretiger引擎支持行、列存储、LSM，mongodb用的哪个？

摘要：来自 http://source.wiredtiger.com/ WiredTiger is an high performance, scalable, production quality, NoSQL, Open Source extensible platform for data mana 阅读全文

posted @ 2017-01-23 12:03 bonelee 阅读(849) 评论(0) 推荐(0)

LSM树——放弃读能力换取写能力，将多次修改放在内存中形成有序树再统一写入磁盘，查找复杂度O(k*log(n))，结合bloom filter提高查找性能

摘要：来自：http://www.open-open.com/lib/view/open1424916275249.html 十年前，谷歌发表了 “BigTable” 的论文，论文中很多很酷的方面之一就是它所使用的文件组织方式，这个方法更一般的名字叫 Log Structured-Merge Tree。阅读全文

posted @ 2017-01-23 11:01 bonelee 阅读(669) 评论(0) 推荐(0)

LSM树——LSM 将B+树等结构昂贵的随机IO变的更快，而代价就是读操作要处理大量的索引文件(sstable)而不是一个，另外还是一些IO被合并操作消耗。

摘要：Basic Compaction 为了保持LSM的读操作相对较快，维护并减少sstable文件的个数是很重要的，所以让我们更深入的看一下合并操作。这个过程有一点儿像一般垃圾回收算法。当一定数量的sstable文件被创建，例如有5个sstable，每一个有10行，他们被合并为一个50行的文件（或者更阅读全文

posted @ 2017-01-23 10:56 bonelee 阅读(891) 评论(1) 推荐(0)

赴美生子的一些调研——诚信是拒签之本，中国的月子中心在美是非法的，医疗和教育费用高

摘要：到美国生孩子的母亲一般都是拥有合法身份赴美，只能说是违规，而算不上违法。那为什么加州会频频发生月子中心被取缔的事情呢？原因不外乎四点。第一，美国法律规定居民区内不可经商，而月子中心一般都设在居民区，一旦被查就是违法经营；其次，有些月子中心为了招揽更多顾客而违章改建试图扩大房屋居住面积，这又触及了美阅读全文

posted @ 2017-01-23 09:04 bonelee 阅读(647) 评论(0) 推荐(0)

levelDB, TokuDB, BDB等kv存储引擎性能对比——wiredtree, wiredLSM，LMDB读写很强啊

摘要：在：http://www.lmdb.tech/bench/inmem/ 2. Small Data Set Using the laptop we generate a database with 20 million records. The records have 16 byte keys a 阅读全文

posted @ 2017-01-22 20:30 bonelee 阅读(5903) 评论(0) 推荐(0)

悟空分词的搜索和排序源码分析之——索引

摘要：转自：http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 索引过程分析下面我们来分析索引过程。这里需要注意的是，docId参数需要调用者从外部传入，而不是在内部自己创建，这给搜索引擎的实现者更大的自由。将文档交给分词器处理，然阅读全文

posted @ 2017-01-22 20:17 bonelee 阅读(670) 评论(0) 推荐(0)

悟空分词的搜索和排序源码分析之——搜索

摘要：转自：http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 搜索过程分析下面我们来分析一下搜索的过程。首先构造一个SearchRequest对象。一般情况下只需提供SearchRequest.Text即可。从本文一开始那段示例代码阅读全文

posted @ 2017-01-22 20:17 bonelee 阅读(555) 评论(0) 推荐(0)

cassandra 集群并发测试脚本

摘要：用bash开5个python进程来测试写入性能，注意：当集群数目增加，应当增加bash脚本的并发进程数！ test_cass.py bash run.sh 阅读全文

posted @ 2017-01-22 15:37 bonelee 阅读(870) 评论(0) 推荐(0)

cassandra cqlsh 和 python客户端

摘要：Keyspaces A cluster is a container for keyspaces. A keyspace is the outermost container for data in Cassandra, corresponding closely to a schema in a 阅读全文

posted @ 2017-01-22 10:55 bonelee 阅读(2218) 评论(1) 推荐(0)

linux查看网卡速度

摘要：ethtool eth0 会包含速度模式等各项属性信息 lspci|grep -i ether 可以查看硬件设备具体型号，会包含硬件厂商及信息 dmesg |grep -i eth 会显示系统加载网卡时写入/var/log/message里的信息阅读全文

posted @ 2017-01-20 19:13 bonelee 阅读(4441) 评论(0) 推荐(0)

linux IP局域网监控工具——iptraf

摘要：iptraf iptraf是一款交互式、色彩鲜艳的IP局域网监控工具。它可以显示每个连接以及主机之间传输的数据量。下面是屏幕截图。安装iptraf：阅读全文

posted @ 2017-01-20 19:09 bonelee 阅读(1473) 评论(0) 推荐(0)

摘要：iostat是I/O statistics（输入/输出统计）的缩写，iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况，同时也会汇报出 CPU使用情况。同vmstat一样，iostat也有一个弱点，就是它不能对某个进程进行深入分析，仅对系统的整体情况进行分析。 iosta 阅读全文

posted @ 2017-01-20 18:14 bonelee 阅读(20110) 评论(0) 推荐(2)

NoSQL四种——kv存储（memcache，Riak），列存储（Cassandra，Hbase），文档类（mongoDB，CouchDB），图数据库（neo4j）

摘要：见：https://software.intel.com/sites/default/files/Configuration_and_Deployment_Guide_for_Cassandra_on_IA.pdf NoSQL databases can be classified into fou 阅读全文

posted @ 2017-01-20 12:18 bonelee 阅读(1454) 评论(0) 推荐(0)

用lsmod看硬盘驱动决定是sata还是scsi盘

摘要：lsmod....mptsas 62545 7 阅读全文

posted @ 2017-01-19 16:53 bonelee 阅读(444) 评论(0) 推荐(0)

cassandra——可以预料的查询，如果你的查询条件有一个是根据索引查询，那其它非索引非主键字段，可以通过加一个ALLOW FILTERING来过滤实现

摘要：cassandra的索引查询和排序转自：http://zhaoyanblog.com/archives/499.html cassandra的索引查询和排序 cassandra的查询虽然很弱，但是它也是支持索引和排序的，当然是简陋的查询，这一切都是为了追求性能的代价，所以要使用cassandra，阅读全文

posted @ 2017-01-19 12:11 bonelee 阅读(4628) 评论(1) 推荐(0)

cassandra mongodb选择——cassandra：分布式扩展好，写性能强，以及可以预料的查询；mongodb：非事务，支持复杂查询，但是不适合报表

摘要：Of course, like any technology MongoDB has its strengths and weaknesses. MongoDB is designed for OLTP workloads. It can do complex queries, but it’s n 阅读全文

posted @ 2017-01-19 11:45 bonelee 阅读(1082) 评论(0) 推荐(0)

cassandra集群环境搭建——注意seeds节点，DHT p2p集群管理难道初始化都应如此吗？

摘要：解压cassandra的安装包后可以查看主要的配置文件，都在conf/目录下，conf/cassandra.yaml比较重要，其中需要着重注意的有以下一些配置项： cluster_name: 'TC01' num_tokens: 256 seed_provider: - class_name: or 阅读全文

posted @ 2017-01-18 19:19 bonelee 阅读(2531) 评论(2) 推荐(0)

swagger 在apache CXF 中的使用——JAX-RS Swagger2Feature

摘要：例子在：https://github.com/apache/cxf/blob/master/distribution/src/main/release/samples/jax_rs/description_swagger2/src/main/java/demo/jaxrs/swagger/serve 阅读全文

posted @ 2017-01-18 16:54 bonelee 阅读(3264) 评论(0) 推荐(0)

JAX-RS介绍——Java API forRESTful WebServices，JAX-RS的目标是Web Services开发（这与HTML Web应用不同）而Spring MVC的目标则是Web应用开发

摘要：JAX-RS Java API forRESTful WebServices旨在定义一个统一的规范，使得 Java 程序员可以使用一套固定的接口来开发 REST 应用，避免了依赖于第三方框架。是一个Java编程语言的应用程序接口，支持按照表象化状态转变 (REST)架构风格创建Web服务Web服务。阅读全文

posted @ 2017-01-18 16:29 bonelee 阅读(1183) 评论(0) 推荐(0)

使用swagger作为restful api的doc文档生成——从源码中去提取restful URL接口描述文档

摘要：初衷记得以前写接口，写完后会整理一份API接口文档，而文档的格式如果没有具体要求的话，最终展示的文档则完全决定于开发者的心情。也许多点，也许少点。甚至，接口总是需要适应新需求的，修改了，增加了，这份文档维护起来就很困难了。于是发现了swagger，自动生成文档的工具。 swagger介绍首先，官阅读全文

posted @ 2017-01-18 15:58 bonelee 阅读(5878) 评论(1) 推荐(0)

三个大数据处理框架：Storm，Spark和Samza 介绍比较

摘要：转自：http://www.open-open.com/lib/view/open1426065900123.html 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。转自：http://www.open-open. 阅读全文

posted @ 2017-01-18 09:54 bonelee 阅读(6647) 评论(0) 推荐(0)

Apache Samza流处理框架介绍——kafka+LevelDB的Key/Value数据库来存储历史消息+？

摘要：转自：http://www.infoq.com/cn/news/2015/02/apache-samza-top-project Apache Samza是一个开源、分布式的流处理框架，它使用开源分布式消息处理系统Apache Kafka来实现消息服务，并使用资源管理器Apache Hadoop Y 阅读全文

posted @ 2017-01-18 09:43 bonelee 阅读(1679) 评论(0) 推荐(0)

mongodb停止遇到shutdownServer failed: unauthorized: this command must run from localhost when running db without auth解决方法

摘要：停止mongodb use admin db.shutdownServer(); mongos> db.shutdownServer(); assert failed : unexpected error: "shutdownServer failed: unauthorized: this com 阅读全文

posted @ 2017-01-17 15:18 bonelee 阅读(3858) 评论(0) 推荐(0)

mongodb集群——配置服务器放分片meta信息，说明meta里包含了哪些数据信息

摘要：在搭建分片之前，先了解下分片中各个角色的作用。在部署之前先明白片键的意义，一个好的片键对分片至关重要。片键必须是一个索引，数据根据这个片键进行拆分分散。通过sh.shardCollection加会自动创建索引。一个自增的片键对写入和数据均匀分布就不是很好，因为自增的片键总会在一个分片上写入，后续达阅读全文

posted @ 2017-01-17 10:11 bonelee 阅读(2140) 评论(0) 推荐(0)

MongoDB 3.0 WiredTiger Compression and Performance

摘要：MongoDB3.0中的压缩选项在MongoDB 3.0中，WiredTiger为集合提供三个压缩选项：有索引的两个压缩选项：请记住哪些适用于MongoDB的3.0所有压缩选项：官方说法： Compression With WiredTiger, MongoDB supports compr 阅读全文

posted @ 2017-01-16 15:44 bonelee 阅读(564) 评论(0) 推荐(0)

mongodb 压缩——3.0+支持zlib和snappy

摘要：转自：https://scalegrid.io/blog/enabling-data-compression-in-mongodb-3-0/ MongoDB 3.0 with the wired tiger storage engine enables you to transparently co 阅读全文

posted @ 2017-01-16 15:38 bonelee 阅读(2535) 评论(0) 推荐(1)

wukong搜索引擎源码解读

摘要：转自：https://ayende.com/blog/171745/code-reading-wukong-full-text-search-engine I like reading code, and recently I was mostly busy with moving our offi 阅读全文

posted @ 2017-01-16 11:21 bonelee 阅读(646) 评论(0) 推荐(0)

YCSB benchmark测试cassandra性能——和web服务器测试性能结果类似

摘要：转自：http://www.itdadao.com/articles/c15a531189p0.html http://www.cnblogs.com/bettersky/p/6158172.html 参考 https://github.com/cloudius-systems/osv/wiki/B 阅读全文

posted @ 2017-01-13 17:36 bonelee 阅读(2632) 评论(1) 推荐(0)

使用cqlsh远程连接cassandra——设置cassandra.yaml里rpc_address和listen_address为ipv4地址即可

摘要：You need to edit cassandra.yaml on the node you are trying to connect to and set the node ip address for rpc_address and listen_address and restart Ca 阅读全文

posted @ 2017-01-13 17:23 bonelee 阅读(8253) 评论(0) 推荐(0)

MongoDB架构——记得结合前面的文章看，里面的图画的很好

摘要：转自：http://www.ha97.com/4580.html 本文图片来自Ricky Ho的博文MongoDB构架（MongoDB Architecture），这是个一听就感觉很宽泛的话题，但是作者在文章中确实对MongoDB由内至外的架构进行了剖析。本文截取了其文章中的几张重点架构示意图片进行阅读全文

posted @ 2017-01-13 15:30 bonelee 阅读(407) 评论(0) 推荐(0)

ycsb两个阶段说明

摘要：ycsb有几个目录需要注意下： 2 使用 ycsb在执行的时候，分为两阶段：load阶段和 transaction阶段 2.1 load阶段该阶段主要用于构造测试数据，ycsb会基于参数设定，往db里面构造测试需要的数据，如： 1 ./bin/ycsb load mongodb-async -s 阅读全文

posted @ 2017-01-13 15:10 bonelee 阅读(3233) 评论(0) 推荐(0)

YCSB benchmark测试mongodb性能——和web服务器测试性能结果类似

摘要：转自：http://blog.sina.com.cn/s/blog_48c95a190102v9kg.html YCSB（Yahoo! Cloud Serving Benchmark）是雅虎开源的一款通用的性能测试工具。通过这个工具我们可以对各类NoSQL产品进行相关的性能测试，包括：HBase、阅读全文

posted @ 2017-01-13 15:09 bonelee 阅读(2414) 评论(1) 推荐(0)

MongoDB GridFS——本质上是将一个文件分割为大小为256KB的chunks 每个chunk里会放md5标识取文件的时候会将这些chunks合并为一个整体返回

摘要：MongoDB GridFS GridFS 用于存储和恢复那些超过16M（BSON文件限制）的文件(如：图片、音频、视频等)。 GridFS 也是文件存储的一种方式，但是它是存储在MonoDB的集合中。 GridFS 可以更好的存储大于16M的文件。 GridFS 会将大文件对象分割成多个小的chu 阅读全文

posted @ 2017-01-13 11:53 bonelee 阅读(3274) 评论(0) 推荐(1)

mongodb分片介绍—— 基于范围（数值型）的分片或者基于哈希的分片

摘要：数据分区数据分区 MongoDB中数据的分片是以集合为基本单位的,集合中的数据通过片键被分成多部分. 片键对集合进行分片时,你需要选择一个片键 , shard key 是每条记录都必须包含的,且建立了索引的单个字段或复合字段,MongoDB按照片键将数据划分到不同的数据块中,并将数据阅读全文

posted @ 2017-01-13 11:40 bonelee 阅读(4129) 评论(0) 推荐(0)

mongodb底层存储和索引原理——本质是文档数据库，无表设计，同时wiredTiger存储引擎支持文档级别的锁，MMAPv1引擎基于mmap，二级索引（二级是文档的存储位置信息『文件id + 文件内offset 』）

摘要：MongoDB是面向文档的数据库管理系统DBMS（显然mongodb不是oracle那样的RDBMS，而仅仅是DBMS)。想想一下MySQL中没有任何关系型数据库的表，而由JSON类型的对象组成数据模型的样子是如何的？值得注意的是，MongoDB既不支持JOIN（连接）也不支持transacti 阅读全文

posted @ 2017-01-13 11:26 bonelee 阅读(7309) 评论(0) 推荐(0)

cassandra压力测试

摘要：http://docs.datastax.com/en/archived/cassandra/2.2/cassandra/tools/toolsCStress.html?hl=stress Simple read and write examples Insert (write) one milli 阅读全文

posted @ 2017-01-12 19:25 bonelee 阅读(1391) 评论(0) 推荐(0)

HBase Cassandra比较

摘要：转自：http://itindex.net/detail/22338-cassandra-hbase-%E8%AE%BE%E8%AE%A1 Cassandra HBase 一致性 Quorum NRW策略通过Gossip协议同步Merkle Tree，维护集群节点间的数据一致性单节点，无复制，强阅读全文

posted @ 2017-01-12 18:05 bonelee 阅读(3212) 评论(0) 推荐(1)

重新认识HBase，Cassandra列存储——本质是还是行存储，只是可以动态改变列（每行对应的数据字段）数量而已，当心不是parquet

摘要：行先是以一种非常独特的方式被索引，随后Bigtable利用行键对数据进行分割，将它们分布到集群中。列可以被迅速地定义在行中，让Bigtable适用于大多数的非模式环境。数据在表面上最初是由行进行排列的，表的主要键是行键。但是与关系型数据库不同，在列式数据库中，没两个行需要相同的列。正如上面所说的那阅读全文

posted @ 2017-01-12 18:02 bonelee 阅读(3149) 评论(0) 推荐(0)

HBase底层存储原理——我靠，和cassandra本质上没有区别啊！都是kv 列存储，只是一个是p2p另一个是集中式而已！

摘要：理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么？首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式. Google's BigTable论文清楚地解释了什阅读全文

posted @ 2017-01-12 17:56 bonelee 阅读(13739) 评论(0) 推荐(1)

Cassandra 数据模型设计，根据你的查询来制定设计——反范式设计本质：空间换时间

摘要：转自：http://www.infoq.com/cn/articles/best-practice-of-cassandra-data-model-design 不要把Cassandra model想象成关系型数据库table 取而代之，应该把它想象成事一个有序的map结构。对于一个新手来说，下面阅读全文

posted @ 2017-01-12 17:19 bonelee 阅读(1354) 评论(0) 推荐(0)

Cassandra key说明——Cassandra 整体数据可以理解成一个巨大的嵌套的Map Map<RowKey, SortedMap<ColumnKey, ColumnValue>>

摘要：Cassandra之中一共包含下面5种Key: 首先，Primary key 是用来获取某一行的数据，可以是一列或者多列（复合列 composite） Primary = Partition Key + [Clustering Key] （Clustering Key 可选） Clustering 阅读全文

posted @ 2017-01-12 17:14 bonelee 阅读(3464) 评论(0) 推荐(0)

Cassandra二级索引原理——新创建了一张表格，同时将原始表格之中的索引字段作为新索引表的Primary Key，并且存储的值为原始数据的Primary Key，然后再通过pk一级索引找到真正的值

摘要：1.什么是二级索引? 我们前面已经介绍过Cassandra之中有各种Key，比如Primary Key， Cluster Key 等等。如果您对这部分概念并不熟悉，可以参考之前的文章： [Cassandra教程] （四）使用Key的正确姿势对于Cassandra来说，一级索引就是Primary K 阅读全文

posted @ 2017-01-12 16:54 bonelee 阅读(1507) 评论(0) 推荐(0)

Cassandra 的数据存储结构——本质是SortedMap<RowKey, SortedMap<ColumnKey, ColumnValue>>

摘要：Cassandra 的数据存储结构 Cassandra 的数据模型是基于列族（Column Family）的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点，采用 Memtable 和 SSTable 的方式进行存储。在 Cass 阅读全文

posted @ 2017-01-12 16:04 bonelee 阅读(2576) 评论(0) 推荐(1)

Cassandra 单机入门例子——有索引

摘要：入门例子： http://wiki.apache.org/cassandra/GettingStarted 添加环境变量并source生效,使得可以在任意位置执行cassandra/bin安装目录下的命令前台启动Cassandra进程, sudo cassandra -f 启动一个新的终端, 启动阅读全文

posted @ 2017-01-12 15:29 bonelee 阅读(1774) 评论(2) 推荐(0)

cassandra框架模型之二——存储机制 CommitLog MemTable SSTable

摘要：四、副本存储 Cassandra不像HBase是基于HDFS的分布式存储，它的数据是存在每个节点的本地文件系统中。 Cassandra有三种副本配置策略： 1) SimpleStrategy （RackUnawareStrategy）：副本不考虑机架的因素，按照Token放置在连续下几个节点。如图阅读全文

posted @ 2017-01-12 14:35 bonelee 阅读(2695) 评论(0) 推荐(0)

cassandra框架模型之一——Colum排序，分区策略 Token，Partitioner bloom-filter，HASH

摘要：转自：http://asyty.iteye.com/blog/1202072 转自：http://asyty.iteye.com/blog/1202072 一、Cassandra框架二、Cassandra数据模型 Colum / Colum Family, SuperColum / SuperCol 阅读全文

posted @ 2017-01-12 14:31 bonelee 阅读(1794) 评论(0) 推荐(0)

elasticsearch负载均衡节点——客户端节点 node.master: false node.data: false 其他配置和master 数据节点一样

摘要：elasticSearch的配置文件中有2个参数：node.master和node.data。这两个参数搭配使用时，能够帮助提供服务器性能。数据节点node.master: false node.data: true 该node服务器只作为一个数据节点，只用于存储索引数据。使该node服务器功能阅读全文

posted @ 2017-01-10 17:47 bonelee 阅读(2423) 评论(0) 推荐(0)

Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率

摘要：注意：由于是重复数据，词法不具有通用性！文章价值不大！摘自：https://segmentfault.com/a/1190000002695169 Doc Values 会压缩存储重复的内容。给定这样一个简单的 mapping 注意：由于是重复数据，词法不具有通用性！文章价值不大！摘自：htt 阅读全文

posted @ 2017-01-10 15:44 bonelee 阅读(3941) 评论(0) 推荐(0)

elasticsearch 2.2+ index.codec: best_compression启用压缩

摘要：官方说法，来自https://www.elastic.co/guide/en/elasticsearch/reference/2.2/index-modules.html#_static_index_settings： index.codecThe default value compresses 阅读全文

posted @ 2017-01-10 15:40 bonelee 阅读(3060) 评论(0) 推荐(0)

一些开源搜索引擎实现——倒排使用原始文件，列存储Hbase，KV store如levelDB、mongoDB、redis，以及SQL的，如sqlite或者xxSQL

摘要：本文说明：除开ES，Solr，sphinx系列的其他开源搜索引擎汇总于此。 A search engine based on Node.js and LevelDB 本文说明：除开ES，Solr，sphinx系列的其他开源搜索引擎汇总于此。 A search engine based on Node 阅读全文

posted @ 2017-01-09 16:59 bonelee 阅读(2671) 评论(0) 推荐(0)

内存数据库MemSQL ——基于内存，MVCC+哈希表、跳表

摘要：本周数据库业界探讨最火热的话题就是MemSQL，究竟是不是“旧瓶装新酒”引发了诸多的辩论，同时也引发了究竟是产品技术重要还是DBA重要的疑问。网络中有一些关于MemSQL的介绍，基本上都是来自官方文档。在本文中，数据库行业的著名独立分析师Curt Monash也发表了他对MemSQL的看法。 Mem 阅读全文

posted @ 2017-01-09 15:08 bonelee 阅读(5667) 评论(0) 推荐(0)

NewSQL——优化的SQL存储引擎（TokuDB, MemSQL）+？

摘要：NewSQL 是对各种新的可扩展/高性能数据库的简称，这类数据库不仅具有NoSQL对海量数据的存储管理能力，还保持了传统数据库支持ACID和SQL等特性。 NewSQL 是指这样一类新式的关系型数据库管理系统，针对OLTP（读-写）工作负载，追求提供和NoSQL系统相同的扩展性能，且仍然保持ACID 阅读全文

posted @ 2017-01-09 14:58 bonelee 阅读(1839) 评论(0) 推荐(0)

数据库的发展现状与前景——NewSQL界的佼佼者，如Couchbase、Aerospike、Marklogic和 SequoiaDB，NewSQL的许多厂商，如：MemSQL、VoltDB、ScaleDB和CitusDB

摘要：转自：http://news.sequoiadb.com/cn/Detail-id-42 2015-03-20 Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。 SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学阅读全文

posted @ 2017-01-09 14:52 bonelee 阅读(2430) 评论(0) 推荐(0)

IOT数据库选型——NOSQL，MemSQL，cassandra，Riak或者OpenTSDB，InfluxDB

摘要：补充： Basho公司开源了它的时序数据库产品Riak TS 1.3 代码在github riak的riak-ts分支上！ Riak KV产品构建于Riak内核之上，提供了一种高弹性、高可用的键值数据库。Riak KV产品当前正在持续改进中，专注于数据正确性、预防数据损失和破坏等特性。 Riak T 阅读全文

posted @ 2017-01-09 14:17 bonelee 阅读(5014) 评论(0) 推荐(0)

百度的TSDB——可针对tag查询，应该类似kairosDB

摘要：天工架构目前，天工平台的服务主要由物接入、物解析、物管理、规则引擎和时序数据库组成，并可无缝对接百度云天算智能大数据平台及基础平台产品，可提供千万级设备接入的能力，百万数据点每秒的读写性能，超高的压缩率，端到端的安全防护。其基本架构如下图所示：时序数据库：用于管理时间序列数据的专业化数据库。区别阅读全文

posted @ 2017-01-09 12:18 bonelee 阅读(2667) 评论(0) 推荐(0)

CrateDB——全文搜索使用的是lucene，尚不知其底层实现

摘要：CrateDB: The fast, scalable, easy to use SQL database with native full text search https://crate.io TODO，待分析源码实现 CrateDB: The fast, scalable, easy to 阅读全文

posted @ 2017-01-09 10:59 bonelee 阅读(787) 评论(0) 推荐(0)

物联网数据库需求——写入快，分析能力强

摘要：转自：http://blog.csdn.net/kanghua/article/details/44650625 物联网是当前最具发展潜力的技术潮流，到2020年全球将有200亿—2000亿物联网设备（Gartner 预测260亿，ABI预测300亿，Oracle 预测500亿，Intel 预测20 阅读全文

posted @ 2017-01-09 10:11 bonelee 阅读(4228) 评论(1) 推荐(0)

NoSQL生态系统——一致性RWN协议，向量时钟，gossip协议监测故障

摘要：13.5 一致性在NoSQL中，通常有两个层次的一致性：第一种是强一致性，既集群中的所有机器状态同步保持一致。第二种是最终一致性，既可以允许短暂的数据不一致，但数据最终会保持一致。我们先来讲一下，在分布式集群中，为什么最终一致性通常是更合理的选择，然后再来讨论两种一致性的具体实现结节。 13.5. 阅读全文

posted @ 2017-01-06 18:36 bonelee 阅读(1127) 评论(0) 推荐(0)

NoSQL生态系统——hash分片和范围分片两种分片

摘要：13.4 横向扩展带来性能提升很多NoSQL系统都是基于键值模型的，因此其查询条件也基本上是基于键值的查询，基本不会有对整个数据进行查询的时候。由于基本上所有的查询操作都是基本键值形式的，因此分片通常也基于数据的键来做：键的一些属性会决定这个键值对存储在哪台机器上。下面我们将会对hash分片和范围阅读全文

posted @ 2017-01-06 15:35 bonelee 阅读(2886) 评论(0) 推荐(1)

NoSQL生态系统——事务机制，行锁，LSM，缓存多次写操作，RWN

摘要：13.2.4 事务机制 NoSQL系统通常注重性能和扩展性，而非事务机制。传统的SQL数据库的事务通常都是支持ACID的强事务机制。要保证数据的一致性，通常多个事务是不可能交叉执行的，这样就导致了可能一个很简单的操作需要等等一个复杂操作完成才能进行的情况。对很多NoSQL系统来说，对性能的考虑远阅读全文

posted @ 2017-01-06 15:11 bonelee 阅读(949) 评论(0) 推荐(0)

NoSQL生态系统——类似Bigtable列存储，或者Dynamo的key存储（kv存储如BDB，结构化存储如redis，文档存储如mongoDB）

摘要：摘自：http://www.ituring.com.cn/article/4002# NoSQL系统的数据操作接口应该是非SQL类型的。但在NoSQL社区，NoSQL被赋予了更具有包容性的含义，其意为Not Only SQL，即NoSQL提供了一种与传统关系型数据库不太一样的存储模式，这为开发者提供阅读全文

posted @ 2017-01-06 15:06 bonelee 阅读(1280) 评论(0) 推荐(0)

ubuntu 下非交互式执行远程shell命令

摘要：apt-get install sshpass sshpass -p **your_password** ssh -o StrictHostKeyChecking=no "root@$ip" "du -sm /home/bone/ext_disk/splunk/var/lib" 参考： https: 阅读全文

posted @ 2017-01-06 11:17 bonelee 阅读(945) 评论(0) 推荐(0)

Dynamo分布式系统——「RWN」协议解决多备份数据如何读写来保证数据一致性，而「向量时钟」来保证当读取到多个备份数据的时候，如何判断哪些数据是最新的这种情况

摘要：转自：http://blog.jqian.net/post/dynamo.html Dynamo是Amazon开发的一款高可用的分布式KV系统，已经在Amazon商店的后端存储有很成熟的应用。它的特点：总是可写（500+ per sec, 99.9% <300ms），并且可以根据需求优化配置（调整R 阅读全文

posted @ 2017-01-06 10:12 bonelee 阅读(1632) 评论(0) 推荐(0)

Berkeley DB的数据存储结构——哈希表（Hash Table）、B树（BTree）、队列（Queue）、记录号（Recno）

摘要：Berkeley DB的数据存储结构 BDB支持四种数据存储结构及相应算法，官方称为访问方法（Access Method），分别是哈希表（Hash Table）、B树（BTree）、队列（Queue）、记录号（Recno）。在创建数据库的时候，必须通过dbtype参数将存储结构指定为上述结构中的一种阅读全文

posted @ 2017-01-05 10:05 bonelee 阅读(1909) 评论(0) 推荐(0)

sphinx索引分析续

摘要：4.10 同义词文件/Synonym 同义词文件格式 from=>to AT &T => AT&T AT & T => AT & T standarten fuehrer => Standartenfuehrer standarten fuhrer => Standartenfuehrer Ms-D 阅读全文

posted @ 2017-01-05 09:08 bonelee 阅读(352) 评论(0) 推荐(0)

sphinx索引分析——文件格式和字典是double array trie 检索树，索引存储 – 多路归并排序，文档id压缩 – Variable Byte Coding

摘要：1 概述这是基于开源的sphinx全文检索引擎的架构代码分析，本篇主要描述index索引服务的分析。当前分析的版本 sphinx-2.0.4 1 概述这是基于开源的sphinx全文检索引擎的架构代码分析，本篇主要描述index索引服务的分析。当前分析的版本 sphinx-2.0.4 这是基于开源阅读全文

posted @ 2017-01-05 09:07 bonelee 阅读(808) 评论(0) 推荐(0)

HashTree（哈希树） ——和trie类似，只是将字符换成了质数，sphinx用到了？？？

摘要：摘自：http://blog.csdn.net/yang_yulei/article/details/46337405 哈希树的理论基础【质数分辨定理】简单地说就是：n个不同的质数可以“分辨”的连续整数的个数和他们的乘积相等。“分辨”就是指这些连续的整数不可能有完全相同的余数序列。（这个定理的阅读全文

posted @ 2017-01-04 17:44 bonelee 阅读(1426) 评论(0) 推荐(0)

sphinx索引文件进一步说明——最好是结合lucene一起看，直觉告诉我二者本质无异

摘要：摘自：http://blog.csdn.net/cangyingzhijia/article/details/8592441 Sphinx使用的文件包括 “sph”， “spa”， “spi”， “spd”, “spp”， “spm” ，还有锁文件。其中sph是系统的配置文件。其它则为索引文件。 . 阅读全文

posted @ 2017-01-04 17:18 bonelee 阅读(1932) 评论(1) 推荐(0)

sphinx 源码阅读之分词，压缩索引，倒排——单词对应的文档ID列表本质和lucene无异也是外部排序再压缩解压的时候需要全部扫描doc_ids列表偏移量相加获得最终的文档ID

摘要：转自：http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 外部排序现在我们的背景是有16个已经排序的数据存在磁盘上。由于数据量很大，我们不能一次性全部读进来。我们的目标是依次挑出最小的hit，阅读全文

posted @ 2017-01-04 17:09 bonelee 阅读(596) 评论(0) 推荐(0)

sphinx 源码阅读之分词，压缩索引，倒排——单词对应的文档ID列表本质和lucene无异也是外部排序再压缩解压的时候需要全部扫描doc_ids列表偏移量相加获得最终的文档ID

摘要：转自：http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 前言 sphinx 在创建索引前需要做下面几件事：有数据源(pSource)，有分词器(pTokenizer)，有停止词Stopword 阅读全文

posted @ 2017-01-04 16:58 bonelee 阅读(481) 评论(0) 推荐(0)

Sphinx 的介绍和原理探索——不存储原始数据，原始数据来源于SQL，而生成索引放在内存或者磁盘中

摘要：摘自：http://blog.jobbole.com/101672/ What/Sphinx是什么定义：Sphinx是一个全文检索引擎。特性：索引和性能优异易于集成SQL和XML数据源，并可使用SphinxAPI、SphinxQL或者SphinxSE搜索接口易于通过分布式搜索进行扩展高速阅读全文

posted @ 2017-01-04 16:07 bonelee 阅读(1756) 评论(0) 推荐(0)

大数据处理的关键架构

摘要：大数据处理的关键架构层：大数据处理的关键架构层摘自：http://weibo.com/ttarticle/p/show?id=2309403960679466973487 阅读全文

posted @ 2017-01-04 15:44 bonelee 阅读(453) 评论(0) 推荐(0)

联机事务处理OLTP（on-line transaction processing）和联机分析处理OLAP（On-Line Analytical Processing)

摘要：什么是OLAP(联机分析处理)？这个是和数据处理非常相关的一个概念。接触过BI(商务智能)的同学一定清楚。数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processi 阅读全文

posted @ 2017-01-04 15:33 bonelee 阅读(1417) 评论(0) 推荐(0)

Druid.io索引过程分析——时间窗，列存储，LSM树，充分利用内存，concise压缩

摘要：Druid底层不保存原始数据，而是借鉴了Apache Lucene、Apache Solr以及ElasticSearch等检索引擎的基本做法，对数据按列建立索引，最终转化为Segment，用于存储、查询与分析。首先，无论是实时数据还是批量数据在进入Druid前都需要经过Indexing Servi 阅读全文

posted @ 2017-01-04 15:23 bonelee 阅读(3395) 评论(0) 推荐(0)

Druid（准）实时分析统计数据库——列存储+高效压缩

摘要：Druid是一个开源的、分布式的、列存储系统，特别适用于大数据上的（准）实时分析统计。且具有较好的稳定性（Highly Available）。其相对比较轻量级，文档非常完善，也比较容易上手。 Druid vs 其他系统 Druid vs Impala/Shark Druid和Impala、Shar 阅读全文

posted @ 2017-01-04 12:22 bonelee 阅读(17144) 评论(0) 推荐(1)

Dynamo涉及的算法和协议——p2p架构，一致性hash容错+gossip协议获取集群状态+向量时钟同步数据

摘要：转自：http://www.letiantian.me/2014-06-16-dynamo-algorithm-protocol/ Dynamo是Amazon的一个分布式的键值系统，P2P架构，没有主从的概念，数据一致性做到了最终一致。Apache Cassandra参考了它的实现方法。一致性哈希阅读全文

posted @ 2017-01-04 12:06 bonelee 阅读(2228) 评论(0) 推荐(0)

向量时钟算法简介——本质类似MVCC

摘要：转自：http://blog.chinaunix.net/uid-27105712-id-5612512.html 一、使用背景先说一下需要用到向量时钟的场景。我们在写数据时候，经常希望数据不要存储在单点。如db1，db2都可以同时提供写服务，并且都存有全量数据。而client不管是写哪一个db都阅读全文

posted @ 2017-01-04 11:56 bonelee 阅读(1663) 评论(0) 推荐(1)

分布式系统中一些主要的副本更新策略——Dynamo/Cassandra/Riak同时采取了主从式更新的同步+异步类型，以及任意节点更新的策略。

摘要：分布式系统中一些主要的副本更新策略。 1、同时更新类型A：没有任何协议，可能出现多个节点执行顺序交叉导致数据不一致情况。类型B：通过一致性协议唯一确定不同更新操作的执行顺序，从而保证数据一致性类型A：没有任何协议，可能出现多个节点执行顺序交叉导致数据不一致情况。类型B：通过一致性协议唯一确定阅读全文

posted @ 2017-01-04 10:54 bonelee 阅读(972) 评论(0) 推荐(0)

分布式系统开发的一些相关理论基础——CAP、ACID、BASE

摘要：本文主要讲述分布式系统开发的一些相关理论基础。一、ACID 事务的四个特征： 1、Atomic原子性事务必须是一个原子的操作序列单元，事务中包含的各项操作在一次执行过程中，要么全部执行成功，要么全部不执行，任何一项失败，整个事务回滚，只有全部都执行成功，整个事务才算成功。 2、Consisten 阅读全文

posted @ 2017-01-04 10:53 bonelee 阅读(431) 评论(0) 推荐(0)

分形树Fractal tree介绍——具体如何结合TokuDB还没有太懂，先记住其和LSM都是一样的适合写密集

摘要：在目前的Mysql数据库中，使用最广泛的是innodb存储引擎。innodb确实是个很不错的存储引擎，就连高性能Mysql里都说了，如果不是有什么很特别的要求，innodb就是最好的选择。当然，这偏文章讲的是TokuDB，不是innodb，相比innodb，TokuDB有着自己的特点。转自：htt 阅读全文

posted @ 2017-01-03 15:47 bonelee 阅读(4675) 评论(0) 推荐(0)

TokuDB介绍——本质是分形树（一个叶子4MB）+缓存减少写操作

摘要：其性能特点见：http://www.cnblogs.com/billyxp/p/3567421.html TokuDB 是一个高性能、支持事务处理的 MySQL 和 MariaDB 的存储引擎。TokuDB 的主要特点则是对高写压力的支持。 TokuDB 是一个高性能、支持事务处理的 MySQL 和阅读全文

posted @ 2017-01-03 15:34 bonelee 阅读(1321) 评论(0) 推荐(0)

LSM树——放弃读能力换取写能力，将多次修改放在内存中形成有序树再统一写入磁盘

摘要：LSM树（Log-Structured Merge Tree）存储引擎代表数据库：nessDB、leveldb、hbase等核心思想的核心就是放弃部分读能力，换取写入的最大化能力。LSM Tree ，这个概念就是结构化合并树的意思，它的核心思路其实非常简单，就是假定内存足够大，因此不需要每次有数阅读全文

posted @ 2017-01-03 14:31 bonelee 阅读(11864) 评论(2) 推荐(3)

一致性哈希算法——算法解决的核心问题是当slot数发生变化时，能够尽量少的移动数据

摘要：一致性哈希算法摘自：http://blog.codinglabs.org/articles/consistent-hashing.html 算法简述一致性哈希算法（Consistent Hashing）最早在论文《Consistent Hashing and Random Trees: Dist 阅读全文

posted @ 2017-01-03 12:11 bonelee 阅读(2282) 评论(0) 推荐(0)

大数据日知录要点整理

摘要：大数据日知录要点整理大数据日知录要点整理第0 章当谈论大数据时我们在谈什么 1 NOSQL选型：kv-cassandra、dynamo，列式存储-HBase，图存储-Neo4j 社交网络数据存储适合用图数据库，而实时响应要求较高的场合适合Hbase等列式数据库。海量数据批处理任务，Hadoop 阅读全文

posted @ 2017-01-03 11:26 bonelee 阅读(1019) 评论(0) 推荐(0)

ArangoDB介绍——未知架构和底层原理

摘要：ArangoDB介绍 ArangoDB是一个开源NoSQL数据库，官网：https://www.ArangoDB.org/ArangoDB支持灵活的数据模型，比如文档Document、图Graph以及键值对Key-Value存储。ArangoDB同时也是一个高性能的数据库，它使用类SQL查询或Jav 阅读全文

posted @ 2017-01-03 10:33 bonelee 阅读(9960) 评论(0) 推荐(0)

137. Single Number II——问题是查找，本质是hash查找，只是记录的是32 bit中各个位出现次数而已

摘要：Given an array of integers, every element appears three times except for one. Find that single one. Note: Your algorithm should have a linear runtime 阅读全文

posted @ 2017-01-02 21:15 bonelee 阅读(215) 评论(0) 推荐(0)

46. Permutations——本质和树DFS遍历无异 fun: for i in nums fun(i)

摘要：Given a collection of distinct numbers, return all possible permutations. For example, [1,2,3] have the following permutations: class Solution(object) 阅读全文

posted @ 2017-01-02 20:23 bonelee 阅读(301) 评论(0) 推荐(0)

328. Odd Even Linked List——多利用fake_head

摘要：Given a singly linked list, group all odd nodes together followed by the even nodes. Please note here we are talking about the node number and not the 阅读全文

posted @ 2017-01-02 19:41 bonelee 阅读(298) 评论(0) 推荐(0)

449. Serialize and Deserialize BST——几乎所有树的面试题目都会回到BFS或者DFS，使用BFS，None节点存#

摘要：Serialization is the process of converting a data structure or object into a sequence of bits so that it can be stored in a file or memory buffer, or 阅读全文

posted @ 2017-01-02 17:23 bonelee 阅读(560) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

01 2017 档案

公告