摘要: 通常讲的数据仓库ETL, 可以分为ETL和ELT两种实现方式. ELT是在加载到仓库后, 再做数据转换. ETL 是在加载之前完成转换, 落地的数据就是转换后的样子了.ELT多使用在MPP架构的数据仓库平台上, 比如Teradata, greenplum, 主要考虑点是, MPP数据仓库数据处理能力强, 在加载后再做转换, 可以充分利用这一优势. 另外, Extract和Load过程很简单, 且数据仓库厂商提供unloading/loading的命令行工具一般具有并行处理能力, 所以直接用这些命令行工具满足. 至于转换部分过程, 多为通过sql查询出stage区新加的记录, 然后做一些运算, 阅读全文
posted @ 2012-04-05 23:11 harrychinese 阅读(12321) 评论(0) 推荐(0) 编辑
摘要: python module of the week 系列(每篇都很棒, 我仅仅看完了abc和sqlite两个章节, 讲的非常透彻)http://www.doughellmann.com/PyMOTW/contents.htmlpythonlibary.org上的tourial讲的很简洁易懂http://www.blog.pythonlibrary.org/tag/python还有effbot.org的tips和faq, 到底是大师http://effbot.org/pyfaq/programming-index.htm这个网站内容组织得也不错, http://docs.python-guide 阅读全文
posted @ 2012-04-05 22:21 harrychinese 阅读(595) 评论(0) 推荐(0) 编辑