随笔分类 - ETL实战
记录一些轮子
摘要:细节: org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the database Error connecting to database: (using
阅读全文
摘要:1.从调度到airflow ETL,是英文 Extract,Transform,Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,合理安排三者以及三者子类的过程被称之为数据调度。 在数据调度中,数据流程之间的依赖主要是以下
阅读全文
摘要:问题介绍 打印了一下数据格式,并未发现问题。如果说是字典实例引起的。 我猜测也是extra字段引起的,因为extra字段是一个json字段。根据网上的提示要对这样的格式进行强转str. 其他发现:pd.to_sql操作还对我们的表进行了删除和重建(if_exists="replace"),改变了我们
阅读全文
摘要:用字符串拼接SQL串实现动态SQL语句,经常使用。 不过在拼接SQL串中有许多技巧和小陷阱 1.遗漏""和'' 错误案例: 错误结果: 发现没有数据产生。。我还以为是连接错了数据库,检查了半天 修正: 修正后结果:
阅读全文
摘要:由python2.7语言实现的,包也比较旧了。 conf文件如下
阅读全文
摘要:如何将上个SQL的结果作为参数传递给下个SQL:
阅读全文
摘要:1.初始化日志文件。对文件的大小进行判断和压缩 2.写日志
阅读全文
摘要:一个简单的ETL脚本应该包含如下内容 1.注释 2.设置字符集 3.基础路径参数 脚本路径 票据路径 日志路径 当前SHELL的脚本别名:declare SHELL_NAME=“${basename $0 |sed s/\./_/g}” eg:sss.sh =>sss_sh 票据文件 4.集群的相关
阅读全文
摘要:python: 把config.ini文件成map返回 shell: shell脚本比较简单。 直接source config.ini 就会把等值对(变量和对应的值)传递到linux环境
阅读全文

浙公网安备 33010602011771号