毛小娃

NewSQL数据库VoltDB特性简介

摘要： VoltDB是一个革命性的新型数据库产品，被称作NewSQL数据库。它基于H-Store，号称比当前数据库产品的吞吐量高45倍，同时又具有很高的扩展性。它的特性主要有以下几点：Ø 高吞吐、低延迟：通过内存计算，存储过程和串行数据访问实现。Ø 可扩展性：自动分区和复制，保证性能和可扩展性。Ø ... 阅读全文

posted @ 2014-12-13 14:14 毛小娃阅读(424) 评论(0) 推荐(0) 编辑

关系代数的并行计算

摘要：从Dremel和Impala的学习引申出了SQL查询的并行执行问题，于是借此机会深入学习一下关系数据库以及关系代数的并行计算。Speedup和ScaleupSpeedup指用两倍的硬件换来一半的执行时间。Scaleup指两倍的硬件换来同等时间内执行两倍的任务。但往往事情不是那么简单，两倍的硬件也会... 阅读全文

posted @ 2014-12-13 14:07 毛小娃阅读(275) 评论(0) 推荐(0) 编辑

【伯乐在线】程序员一定要投资的那些事

摘要：本文由伯乐在线 - Victoria 翻译。未经许可，禁止转载！英文出处：Emanuel Saringan。欢迎加入翻译小组。投资为某一事业奉献时间和精力，并期待有价值的结果。0. 健康毫无疑问，软件开发是坐的最久的工作之一。每天坐8-16个小时，期间很少休息，是增加肚子上的脂肪的绝佳方式。肥胖... 阅读全文

posted @ 2014-12-11 16:37 毛小娃阅读(169) 评论(0) 推荐(0) 编辑

Spark on Yarn

摘要： Spark on Yarn 1. Spark on Yarn模式优点与其他计算框架共享集群资源（eg.Spark框架与MapReduce框架同时运行，如果不用Yarn进行资源分配，MapReduce分到的内存资源会很少，效率低下）；资源按需分配，进而提高集群资源利用率等。相较于Spark自... 阅读全文

posted @ 2014-12-07 14:46 毛小娃阅读(183) 评论(0) 推荐(0) 编辑

六星经典CSAPP笔记(1)计算机系统巡游

摘要： CSAPP即《Computer System: A Programmer Perspective》的简称，中文名为《深入理解计算机系统》。相信很多程序员都拜读过，之前买的旧版没有读完，如今恰好第二版出版，就入手影印版重读经典。一读果然，经典依然是经典，CMU卡内基梅隆大学的本科教材，堪比另一本SI... 阅读全文

posted @ 2014-12-06 21:44 毛小娃阅读(211) 评论(0) 推荐(0) 编辑

程序员的“机械同感”

摘要：偶然在Martin Flower的博客上看到了一篇讲述LMAX架构的博文，里面有一小块提到了“机械同感”Mechanical Sympathy(不知道该怎么翻译好)。恰逢最近正在看第二版的CSAPP(Computer System: A Programmer Perspective，深入理解计算机... 阅读全文

posted @ 2014-12-06 21:18 毛小娃阅读(330) 评论(0) 推荐(0) 编辑

Impala中的代码生成技术

摘要： Cloudera Impala是一种为Hadoop生态系统打造的开源MPP(massive parallel processing)数据库，它主要为分析型查询负载而设计，而非OLTP。Impala能最大限度地利用现代硬件和高效查询执行的最新技术。LLVM下的运行时代码生成就是用来提升执行性能的技术... 阅读全文

posted @ 2014-12-06 20:54 毛小娃阅读(454) 评论(0) 推荐(0) 编辑

《高性能MySQL》读书笔记(上)

摘要：《High Performance MySQL》真是本经典好书，从应用层到数据库到硬件平台，各种调优技巧、常见问题全都有所提及。数据库的各种概念技巧平时都有接触，像索引、分区、Sharding等等，但要想真正提高还是得如此系统学习一下。Chapter 1: MySQL Architecture a... 阅读全文

posted @ 2014-12-06 19:31 毛小娃阅读(167) 评论(0) 推荐(0) 编辑

从NSM到Parquet：存储结构的衍化

摘要：为了优化MapReduce及MR之前的各种工具的性能，在Hadoop内建的数据存储格式外，又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile，以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的进... 阅读全文

posted @ 2014-12-06 19:21 毛小娃阅读(253) 评论(0) 推荐(0) 编辑

Google Dremel数据模型详解(下)

摘要： “神秘”的r和d单从数据结构来看的话，我们可以这样解释r和d的含义。r代表着当前字段与前一字段的关系，是在哪一层合并的，即公共的父结点在哪？举例来说，假如我们重建到了Code='en'，通过r=2可以知道是在Language那一层发生了重复。为了保持原纪录的结构，我们会保存一些NULL数据，而d... 阅读全文

posted @ 2014-12-06 19:13 毛小娃阅读(305) 评论(0) 推荐(0) 编辑