InfoBright
当数据量增长到10TB以上,可能需要建立数据仓库
Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算
InfoBright产品分为社区版ICE和企业版IEE
ICE优点:
1)大数据量查询性能强劲、稳定:
查询性能高,如百万、千万、亿级记录数条件下,同等的SELECT查询语句,速度比MyISAM、InnoDB等普通的MySQL存储引擎快5~60倍。
高效查询主要依赖特殊设计的存储结构对查询的优化,但这里优化的效果还取决于数据库结构和查询语句的设计。
2)存储数据量大:
TB级数据大小,几十亿条记录
数据量存储主要依赖自己提供的高速数据加载工具(百G/小时)和高数据压缩比(>10:1)
3)高数据压缩比:
号称平均能够达到 10:1 以上的数据压缩率。甚至可以达到40:1,极大地节省了数据存储空间。
高数据压缩比主要依赖列式存储和 patent-pending 的灵活压缩算法。
4)基于列存储:
无需建索引,无需分区。即使数据量十分巨大,查询速度也很快。
把每列数据分块压缩存放,每块有知识网格节点记录块内的统计信息,代替索引,加速搜索。
5)快速响应复杂的聚合类查询:
适合复杂的分析性SQL查询,如SUM, COUNT, AVG, GROUP BY
ICE 有以下的限制:
1)不支持数据更新
2)不支持对多核的使用
3)只能单机使用,不具备任何的复制以及扩展
IEE支持ICE的所有优点,并且弥补了他的不足,提供了DLP---分布式数据导入工具
DLP 优点如下:
1. 减轻了数据库服务器的负载,使它能处理更多的请求。
2. 对应用完全透明, 不用编写额外的代码来处理复杂的导入工作。
3. 数据库的导入时间随着DLP部署的机器的增多二线性减少。当然,这些机器可以是非常廉价的PC服务器,也可以是旧的机器。节省了大量的成本。
4. 减少了对网络带宽的占用。 DLP在导入之前对原始数据已经进行了高效的压缩。
Infobright的适用场景
- 大数据量的分析应用。网页/在线分析、移动分析、客户行为分析、分析营销和广告
- 日志/事件管理系统。电信详单分析和报告、系统/网络 安全认证记录
- 数据集市。企事业单位特定数据仓库、为中小企业提供数据仓库
- 嵌入式分析。为独立软件供应商/ SaaS供应商提供嵌入式分析应用