摘要:
ETL实践--kettle只做源数据的抽取,其他数据转换转到hive上。 1、用hive代替kettle的数据关联的原因 (1)、公司之前的数据ELT大量使用了kettle。用kettle导原始数据速度还是蛮快的,但是如果是大表关联类的操作,效率就很差。 一方面是由于hive是用数据库来做关联,数据 阅读全文
摘要:
ETL实践--Spark做数据清洗 上篇博客,说的是用hive代替kettle的表关联。是为了提高效率。 本文要说的spark就不光是为了效率的问题。 1、用spark的原因 (如果是一个sql能搞定的关联操作,可以直接用kettle导原始数据到hive,用hive视图做关联直接给kylin提供数据 阅读全文