摘要:
前面已经分析了Infobright的构架,简要介绍了Infobright的压缩过程和工作原理。现在来讨论查询优化的问题。 (1)配置环境 在Linux下面,Infobright环境的配置可以根据README里的要求,配置brighthouse.ini文件。 (2) 选取高效的数据类型 参见前面章节。 (3)使用comment lookup 参见前面章节。 (4)尽量有... 阅读全文
摘要:
前面的章节一直涉及到comment lookup,这里将简单介绍comment lookup的使用。 comment lookup只能显式地使用在char或者varchar上面。Comment Lookup可以减少存储空间,提高压缩率,对char和varchar字段采用comment lookup可以提高查询效率。 Comment Lookup实现机制很像位图索引,实现上利用简短的数值类型替代... 阅读全文
摘要:
Infobright号称数据压缩比率是10:1到40:1。前面我们已经说过了Infobright的压缩是根据DP里面的数据类型,系统自动选择压缩算法,并且自适应地调节算法的参数以达到最优的压缩比。 先看看在我的实验环境下的压缩比率,如下图所示: 相信读者可以很清楚地看到,整体的压缩比率是20.302。但是这里有一个误区,这里的压缩比率指的是数据库中的原始数据大小/压缩后的数据大小,而不是文... 阅读全文
摘要:
Infobright里面支持所有的MySQL原有的数据类型。其中Integer类型比其他数据类型更加高效。尽可能使用以下的数据类型: TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT DECIMAL(尽量减少小数点位数) DATE ,TIME 效率比较低的、不推荐使用的数据类型有: BINARY VARBINARY FLOAT DOUBLE VARCHAR... 阅读全文
摘要:
前面已经简要分析了Infobright的构架,现在来介绍Infobright的工作原理。 粗糙集(Rough Sets)是Infobright的核心技术之一。Infobright在执行查询的时候会根据知识网络(Knowledge Grid)把DP分成三类: 相关的DP(Relevant Packs),满足查询条件限制的DP 不相关的DP(Irrelevant Packs),不满足查询条件限制... 阅读全文