摘要: 不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL工程师>BI工程师(不喜勿喷哈),现在做的工作主要是离线数仓,当然前期也做过一些ETL的工作,为了职业的长远发展,拓宽自己的技术 阅读全文
posted @ 2021-01-25 00:49 Hoult丶吴邪 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL工程师>BI工程师(不喜勿喷哈),现在做的工作主要是离线数仓,当然前期也做过一些ETL的工作,为了职业的长远发展,拓宽自己的技术 阅读全文
posted @ 2021-01-25 00:47 Hoult丶吴邪 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 生产环境版本 Hive: 1.2.1, Spark: 2.3.2 1.insert overwrite directory 不会覆盖数据 注意,生成结果是目录,生成目录里面的不同文件名不会被覆盖,因此很容易出现数据double或者没有覆盖到数据的问题,比如数据分片原始结果如下: /mytable/0 阅读全文
posted @ 2021-01-25 00:46 Hoult丶吴邪 阅读(367) 评论(0) 推荐(0) 编辑