2018 年 1月 15 日随笔档案 - double_kill

2018年1月15日

摘要： ETL实践--kettle只做源数据的抽取，其他数据转换转到hive上。 1、用hive代替kettle的数据关联的原因 (1)、公司之前的数据ELT大量使用了kettle。用kettle导原始数据速度还是蛮快的，但是如果是大表关联类的操作，效率就很差。一方面是由于hive是用数据库来做关联，数据阅读全文

posted @ 2018-01-15 10:17 double_kill 阅读(10890) 评论(0) 推荐(0) 编辑

ETL实践--Spark做数据清洗

摘要： ETL实践--Spark做数据清洗上篇博客，说的是用hive代替kettle的表关联。是为了提高效率。本文要说的spark就不光是为了效率的问题。 1、用spark的原因（如果是一个sql能搞定的关联操作，可以直接用kettle导原始数据到hive，用hive视图做关联直接给kylin提供数据阅读全文

posted @ 2018-01-15 10:16 double_kill 阅读(13775) 评论(0) 推荐(2) 编辑

double_kill

公告