代码改变世界

随笔档案-2012年05月

转载系列之一:浅析Hadoop文件格式

2012-05-31 15:21 by Haippy, 974 阅读, 收藏, 编辑
摘要: Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非 为特定目的而建,因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式,分析其特点、开销及使用场景。希望加深读者对 Hadoop文件格式及其影响性能的因素的理解。 阅读全文

Google Gson 使用简介

2012-05-20 00:11 by Haippy, 90494 阅读, 收藏, 编辑
摘要: 如何利用Gson处理 json 字符串 阅读全文

转载系列之二:NoSQL 数据建模技术

2012-05-19 23:28 by Haippy, 1792 阅读, 收藏, 编辑
摘要: NoSQL 数据库经常被用作很多非功能性的地方,如,扩展性,性能和一致性的地方。这些NoSQL的特性在理论和实践中都正在被大众广泛地研究着,研究的热点正是那些和性能分布式相关的非功能性的东西,我们都知道 CAP 理论被 很好地应用于了 NoSQL 系统中(陈皓注:CAP即,一致性(Consistency), 可用性(Availability), 分区容忍性(Partition tolerance),在分布式系统中,这三个要素最多只能同时实现两个,而NoSQL一般放弃的是一致性)。但在另一方面,NoSQL的数据建模技术却 因为缺乏像关系型数据库那样的基础理论没有被世人很好地研究。这篇文章从数据建模方面对NoSQL家族进行了比较,并讨论几个常见的数据建模技术。 阅读全文

我常用的Latex中文报告模板(一)

2012-05-18 10:26 by Haippy, 109447 阅读, 收藏, 编辑
摘要: 不得不说,使用Latex编写文档效率会提升很多。但是,如果没有好的模板,自己从零开始动手完成一份Latex文档还是得花费不少时间和精力的,所以,为了提高文档和技术报告的编写效率,我为自己准备了以下的Latex模板,并附图如下 阅读全文

(转载)从 Java 代码到 Java 堆

2012-05-01 22:25 by Haippy, 708 阅读, 收藏, 编辑
摘要: 本文将为您提供 Java™ 代码内存使用情况的深入见解,包括将 int 值置入一个 Integer 对象的内存开销、对象委托的成本和不同集合类型的内存效率。您将了解到如何确定应用程序中的哪些位置效率低下,以及如何选择正确的集合来改进您的代码。 阅读全文