上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 59 下一页
摘要: 阅读全文
posted @ 2019-12-09 16:39 wqbin 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-12-08 16:20 wqbin 阅读(2532) 评论(1) 推荐(0) 编辑
摘要: 前言 作为一个数据工程师,最喜欢的事情就是不停的在现实的服务端环境调试代码的参数。我们在本地的环境与生产的状况决然不同,我们一开始在本地写代码测试再部署到服务端的三板斧就不适用了。 最好的方式可以直接在linux环境下的服务端直接写代码,分步调试。之前我在银行都是使用集成在CDSW的环境IDE,但是 阅读全文
posted @ 2019-12-06 17:49 wqbin 阅读(10613) 评论(1) 推荐(3) 编辑
摘要: kill这个残留进程然后直接重新启动airflow webserver就OK (wqbin) rdev@testhk1:~/etl/py_etl/warehouse$ cat /home/rdev/airflow/airflow-webserver.pid 22603 (wqbin) rdev@te 阅读全文
posted @ 2019-12-06 14:02 wqbin 阅读(1485) 评论(0) 推荐(0) 编辑
摘要: 作为一个IT从业不满三年的菜鸟,可能写类似总结性的文章还是比较费力,但是我还是想尝试写一篇比较出色总结,那么我讲从数据调度N个方面依次详细讲述ETL调度问题。 回答内容如下: 1.什么是数据调度 2.数据调度的 3.数仓调度的工具 crontab quartz airflow azkaban ozi 阅读全文
posted @ 2019-12-06 11:15 wqbin 阅读(648) 评论(0) 推荐(0) 编辑
摘要: lag和lead VS shift 该函数的格式如下: 第一个参数为列名, 第二个参数为往上第n行(可选,默认为1), 第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) lag lag(字段名,N,默认值) over(partition by 分组字段 order 阅读全文
posted @ 2019-12-05 10:00 wqbin 阅读(1878) 评论(0) 推荐(0) 编辑
摘要: 方法一:sys.args[0] 在python的运行时,sys.argv[0],存了当前脚本的运行路径包括文件名 python test.py 则:sys.argv[0] =>test.py python dirname1/dirname2/test.py 则:sys.argv[0] =>dirna 阅读全文
posted @ 2019-12-04 16:47 wqbin 阅读(1182) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd data = pd.read_csv(r"test数据.csv", engine="python", encoding="utf-8") def pprint(row): row["extra"]=1 print(row) return row data = 阅读全文
posted @ 2019-12-04 12:06 wqbin 阅读(2533) 评论(0) 推荐(0) 编辑
摘要: Expecting ',' delimiter: line 1 column 2674 json_dict = json.loads(row[json_columns].replace("'","\"")) 为什么要replace("'","\"")见博客 但是依旧报错 我用try catch的方法 阅读全文
posted @ 2019-12-03 16:29 wqbin 阅读(9338) 评论(0) 推荐(0) 编辑
摘要: 在运行代码时,有时出现warning信息, 1.当你后台不需要warning信息的时候,可以直接把warning信息省略掉。 2.如果代码是循环,则会在控制台打印多次warning信息,这会使得warning信息占满整个控制台,失去了有效的历史记录。 1.warning的地位 BaseExcepti 阅读全文
posted @ 2019-12-03 11:37 wqbin 阅读(1169) 评论(0) 推荐(0) 编辑
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 59 下一页