代码改变世界

随笔档案-2011年12月4日

数据分析与处理之二(Leveldb 实现原理)

2011-12-04 21:24 by Haippy, 111695 阅读, 收藏, 编辑
摘要: 首先,LevelDb是一个持久化存储的KV系统,和Redis这种内存型的KV系统不同,LevelDb不会像Redis一样狂吃内存,而是将大部分数据存储到磁盘上。 其次,LevleDb在存储数据时,是根据记录的key值有序存储的,就是说相邻的key值在存储文件中是依次顺序存储的,而应用可以自定义key大小比较函数,LevleDb会按照用户定义的比较函数依序存储这些记录。 再次,像大多数KV系统一样,LevelDb的操作接口很简单,基本操作包括写记录,读记录以及删除记录。也支持针对多条操作的原子批量操作。 另外,LevelDb支持数据快照(snapshot)功能,使得读取操作不受写操作影响,可以在读操作过程中始终看到一致的数据。 阅读全文

Storm : Twitter的实时数据处理工具(转载)

2011-12-04 21:09 by Haippy, 1520 阅读, 收藏, 编辑
摘要: Twitter在9月19日的Strange Loop大会上公布Storm的代码。这个类似于Hadoop的即时数据处理工具是BackType开发的,后来被Twitter收购用于Twitter。 阅读全文

Cassandra和HBase主要设计思路对比

2011-12-04 21:03 by Haippy, 760 阅读, 收藏, 编辑
摘要: Cassandra和HBase主要设计思路对比 阅读全文

IBM developerWorks 文章转载系列(二)

2011-12-04 20:57 by Haippy, 792 阅读, 收藏, 编辑
摘要: 寻找应用程序中占用时间最长的部分 阅读全文

IBM developerWorks 文章转载系列(一)

2011-12-04 20:56 by Haippy, 948 阅读, 收藏, 编辑
摘要: 了解 STAB 和 DWARF 这两种流行调试格式的更多信息。了解如何调试和分析构成 DWARF 和 STAB 格式的 UNIX 可执行文件。对于处理编译器和调试器的程序员以及对读取或写入 DWARF 和 STAB 信息感兴趣的任何人,本文内容非常有用。 阅读全文

[InfoQ]Twitter Storm:开源实时Hadoop (转载)

2011-12-04 20:55 by Haippy, 400 阅读, 收藏, 编辑
摘要: Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。 阅读全文

MapReduce Hold不住? (转载)

2011-12-04 20:51 by Haippy, 517 阅读, 收藏, 编辑
摘要: 本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统,希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。 阅读全文

数据分析与处理之一(大规模数据分析架构)

2011-12-04 19:41 by Haippy, 5074 阅读, 收藏, 编辑
摘要: 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 阅读全文