03 2011 档案
摘要:整理了一份BI开源软件清单.BI Suit:Pentaho, 介绍见http://baike.baidu.com/view/1545333.htmSpagoBI, 介绍见http://baike.baidu.com/view/1545333.htmJaspersoft, Openi, ETL, OLAP和Report工具可以从上述BI suit中挑出来, 下面仅仅列几个没有包含在上述suit中的数据挖掘组件 数据挖掘:Knime:http://www.knime.org/Orange:http://orange.biolab.si/, 特点: 可使用python来控制, R语言, http:/
阅读全文
摘要:前面我写了一个文章, 作业调度系统的构思, 链接为http://www.cnblogs.com/harrychinese/archive/2011/02/11/One_Batch_Scheduling_System_Design.html , 这篇讲一下几个关键点的技术选择. 1. 跨OS/跨平台的互操作性, 可以采用ssh方式, 可以借鉴fabric的ssh部分 2. 关于cluster failover, Java有Quartz(.Net有Quartz.Net)可以使用, 但python好像没有很好的框架, 在下面的链接中, http://stackoverflow.com/questio
阅读全文
摘要:近来有换工作的想法了, 定位是数据仓库架构师, 因为最近几年一直做相关工作, 同时也看好数据仓库的前景. 在51job.com搜了一下数据仓库架构师, 开放的职位并不多, 放大了搜索范围, 搜索了数据库架构师和BI架构师. 结果是多了不少.下面我谈谈我对数据仓库架构师, 数据库架构师, 以及BI架构师的职责的理解.数据仓库架构师, 往往要做数据建模, 主要是面向数据仓库领域, 另外还要考虑ETL, 调度平台建设, 数据仓库的运维架构, 所以他需要具备4方面的知识和能力: 数据架构、ETL、数据库平台以及infrastructure知识。数据库架构师, 可以分为两类, 一类为开发类, 另一类为维
阅读全文
摘要:曾经构思过一个数据库的版本控制软件, 花了好几天时间, 做出一个prototype, 自个兴奋了好几天. 但考虑到工作量实在太大, 同时red gate公司已经放出了SQL Source Control的early access版本, 所以放弃继续深入研究. 不过我得出了一个结论: 各个主流数据库服务器差异太大, 实现一个能很好管理多种数据库的版本控制工具不大可行, 面向特定数据库的工具应该更靠谱一些. 今天在下面的博客中, 看到有好几款开源的项目, 开源社区真有活雷锋啊. 我还没有来得及评估, 不知道这些工具的可用性到底如何? 也不知道它们能否和主流的版本控制系统兼容, 比如svn, cvs
阅读全文
摘要:Firefox的CPU占用真的不管恭维, 经常无响应, 甚至拖累操作系统整体的流畅性, 下面是我用到的一些调优手段, 太累心了, 直接换Chrome吧. 1. 在设置页面中, 做如下设置: 启用:硬件加速 禁用:输入拼写检查 Firefox更新策略: 不要选择自动检查/更新版本. 2. 使用flas
阅读全文
摘要:===============================技术管理感悟===============================rootdba的生活随笔’ Categoryhttp://www.rootdba.cn/archives/category/%E7%94%9F%E6%B4%BB%E9%9A%8F%E7%AC%94===============================数据仓库之 teradata===============================****Teradata系统架构及数据库特性介绍 (软硬件结构和数据库原理)http://wenku.baidu.c
阅读全文
摘要:Hadoop计算平台和Hadoop数据仓库的区别http://datasearch.ruc.edu.cn/~boliangfeng/blog/?tag=%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93Hive 随谈(三)– Hive 和数据库的异同http://www.tbdata.org/archives/551Hadoop Ecosystem解决方案---数据仓库http://www.cnblogs.com/OnlyXP/archive/2009/10/14/1583450.htmlhadoop+hive 做数据仓库 & 一些测试http://hi.baid
阅读全文
摘要:TeraData, 当仁不让的霸主TeraData已经在这个领域纵横好多年了, 你从Tera这个词就能看出这点. 如果是新兵的话, 名字肯定不会是Tera, 这年头还叫Tera, 那也太没有发展的眼光了. 在国内, 多为不差钱的公司采用, 比如银行什么的. 数据仓库流图, OLTP-->ETL-->TeraData-->BI优点: (1)生态环境已经营造的很好了, 无论ETL工具还是BI工具都很好地支持. (2) 开箱即用, 甚至将硬件也打包在一起, 省事. (3)成功案例比较多缺点: (2)巨贵Greenplum, 新锐, 2010年被EMC收购, 算是嫁入豪门了(据传Or
阅读全文