摘要: ETL实践--Spark做数据清洗 上篇博客,说的是用hive代替kettle的表关联。是为了提高效率。 本文要说的spark就不光是为了效率的问题。 1、用spark的原因 (如果是一个sql能搞定的关联操作,可以直接用kettle导原始数据到hive,用hive视图做关联直接给kylin提供数据 阅读全文
posted @ 2018-01-15 10:16 double_kill 阅读(13750) 评论(0) 推荐(2) 编辑
摘要: 数据etl常用工具kettle。 1、说明: kettle-数据源配置化:是指kettle的数据源连接信息全部或者部分从配置文件中读取(如果是数据库的资源库,那么资源库也可以配置化)。 2、优点: 1、这样程序本身就和kettle的业务解绑了,开发、生产采用不同配置;每次开发完成就可以直接导入线上, 阅读全文
posted @ 2018-01-06 17:14 double_kill 阅读(4029) 评论(0) 推荐(0) 编辑
摘要: 一、大数据框架: Impala:hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 Spark:各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/pytho 阅读全文
posted @ 2017-12-29 11:46 double_kill 阅读(4507) 评论(0) 推荐(1) 编辑
摘要: 此篇说明对应的kettle版本是6.1,实际使用时7.x应该也是一样的。 一、 kettle开发流程(规范步骤,防止出错) (一) Kettle设置检查 如果不加一下配置项,数据转换后中文会出现乱码,很难处理。 本地连接资源库:配置项 defaultFetchSize 500 useCursorFe 阅读全文
posted @ 2017-12-28 12:34 double_kill 阅读(2637) 评论(0) 推荐(3) 编辑