随笔档案「2012年2月」 - taowen

我的GIT工作流程

摘要：Friendbuy是一家互联网创业公司。产品的源代码是托管在GITHUB上的。在EC2上有三套环境：生产环境，测试环境和持续集成环境。基本上每天都有大量的代码被提交，测试和部署。一年多的磨合下来，逐渐理顺了GIT的使用流程。但是，最开始并不是这样的，所有的开发人员都没有使用过GIT，基本上都是SVN的背景。最开始的使用方式只有一个GIT分支，就是MASTER。开发团队直接向MASTER提交新的改动，部署其实就是在生产环境下执行git pull开发人员的日常工作也很简单git pull --rebasegit commit -a -m "xxxx"git push基本上是把G 阅读全文

posted @ 2012-02-28 22:03 taowen 阅读(9277) 评论(19) 推荐(9)

多维数据查询效率分析（3）

摘要：快捷方式：多维数据查询效率分析（1）多维数据查询效率分析（2）前面分析了在PostgreSQL和MySQL中进行多维数据查询的挑战。问题的根本在于，按行存储的数据库在行变得很大（wide table）的情况下，一旦索引无法完成所有的查询工作，就会受到行大小的影响。为了避免按行存储的缺陷，按列存储的数据库就被发明了出来。按行存储的数据库有很多，绝大部分都是要花钱的，开源的有MonetDB。和前面相同的数据量，相同的wide table的表设计，用MonetDB可以快上很多：sql>select count(contact_id) from spike2 where a1 = 7;+---- 阅读全文

posted @ 2012-02-27 18:23 taowen 阅读(2977) 评论(0) 推荐(4)

多维数据查询效率分析（2）

摘要：上次我们分析了在附加属性表这样表结构设计下的PostgreSQL查询效率。由于PostgreSQL众所周知的所谓“性能”问题，所以有必要再用使用MyISAM引擎的MySQL再来实验一遍。在我们详细分析了两种常见的开源数据库之后，话题将会进一步引申到按行存储的数据库结构以及索引对于查询效率的影响。以下实验中的MySQL为MariaDB发行版本。还是从建表开始：MariaDB [veil]> show create table cc2;+-------+---------------------------------------------------------------------- 阅读全文

posted @ 2012-02-26 16:43 taowen 阅读(1910) 评论(1) 推荐(2)

多维数据查询效率分析（1）

摘要：有时需求需要我们把系统做成灵活的。最常见的形式是，属性不能是固定的，要用户可以自定义。这样的需求往往会在数据库中建模成一个一对多的关系。create table person {... }create table person_attribute {person_id ...attribute_name ...attribute_value ......}这样的建模在没有查询需要的时候，还是蛮不错的。但是一旦需要对扩充的属性值进行查询，速度往往惨不忍睹。曾经在新加坡做过一个电信的遗留系统的前端，其数据库的建模就是这样的。对于中间的属性表，一个简单的查询都需要join好几次，速度非常慢。好在那. 阅读全文

posted @ 2012-02-26 08:33 taowen 阅读(1406) 评论(0) 推荐(0)

高性能计算摘要

摘要：插队<<<doubanclaim64ea944f8164f0e1从计算任务的特质来看分为：1、大计算量，小数据量2、大数据量，计算相对简单3、大数据量，大计算量常见的工作负载有：1、日志分析，PB级别2、脱机分析，商业智能，重数据量，TB级别3、调查式分析，重响应速度，100GB以下4、金融计算，蒙特卡洛算法，大计算量常见的分布式计算框架：1、Hadoop，以分布式文件系统为核心的 Map reduce 框架，擅长超大数据量，高延迟，IO开销大2、GridGain，以内存数据库为核心的分布式计算框架，擅长大计算量，低延迟，IO开销小计算的结构有三种：1、SMP2、NUMA3、阅读全文

posted @ 2012-02-23 23:03 taowen 阅读(577) 评论(3) 推荐(0)