摘要: ETL实践--kettle只做源数据的抽取,其他数据转换转到hive上。 1、用hive代替kettle的数据关联的原因 (1)、公司之前的数据ELT大量使用了kettle。用kettle导原始数据速度还是蛮快的,但是如果是大表关联类的操作,效率就很差。 一方面是由于hive是用数据库来做关联,数据 阅读全文
posted @ 2018-01-15 10:17 double_kill 阅读(10890) 评论(0) 推荐(0) 编辑
摘要: ETL实践--Spark做数据清洗 上篇博客,说的是用hive代替kettle的表关联。是为了提高效率。 本文要说的spark就不光是为了效率的问题。 1、用spark的原因 (如果是一个sql能搞定的关联操作,可以直接用kettle导原始数据到hive,用hive视图做关联直接给kylin提供数据 阅读全文
posted @ 2018-01-15 10:16 double_kill 阅读(13775) 评论(0) 推荐(2) 编辑