上一页 1 2 3 4 5 6 7 8 9 ··· 24 下一页
摘要: 如果要join两张表,其中一张很大,另外一张很小,我们应该broadcast小表,把小表广播到各个节点。 还有另外一种,使用Cartesian product笛卡尔积,也就是直接join 不on 那么必须使用map join 举例,如果要计算会员数量及所占比例,需要除以会员总数,而这个总数我们就需要 阅读全文
posted @ 2021-02-22 15:31 yjy888 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 1、datetime在dataframe里是 TimestampType 2、参数配置 https://github.com/aliyun/MaxCompute-Spark/wiki/02.-Spark-on-Dataworks?spm=a2c6h.12873639.0.0.1d356e5bFvc3 阅读全文
posted @ 2021-02-19 16:45 yjy888 阅读(352) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-01-25 14:32 yjy888 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 大部分参考http://dblab.xmu.edu.cn/blog/install-hadoop/ 1、hadoop2和3都支持java8,我们先安装java8 只要下载后直接解压到/usr/lib/jvm,一般usr/lib用来存放库,比如java python都放这里 2、配置一个用户名hado 阅读全文
posted @ 2021-01-21 11:30 yjy888 阅读(117) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/u011796949/article/details/109124825 也可以挂vpn全局加载一次,之后就不用了 阅读全文
posted @ 2021-01-14 17:19 yjy888 阅读(79) 评论(0) 推荐(0) 编辑
摘要: nginx+supervisor+gunicorn+flask架构 1、工程里添加sale_math_main.py文件,和gunicorn_conf配置端口、线程和进程数 2、在project下添加文件夹mkdir SalesMatch, chmod 777 SalesMatch修改权限,注意使用 阅读全文
posted @ 2021-01-08 14:45 yjy888 阅读(108) 评论(0) 推荐(0) 编辑
摘要: python资源上传、提交之后,一般可以作为udf user define function,直接用于sql语句,也可以作为配置文件或者包使用在pyodps节点 https://developer.aliyun.com/article/755297 示例代码如下: # -*- coding: utf 阅读全文
posted @ 2020-12-23 16:07 yjy888 阅读(578) 评论(0) 推荐(0) 编辑
摘要: 元数据库 大家在安装或使用MYSQL时,会发现除了自己安装的数据库以外,还有一个information_schema数据库。 information_schema数据库是做什么用的呢,使用WordPress博客的朋友可能会想,是不是安装模板添加的数据库呀?看完本片文章 后,你就会对informati 阅读全文
posted @ 2020-12-22 18:11 yjy888 阅读(62) 评论(0) 推荐(0) 编辑
摘要: 自定义参数的调用与SQL节点不太一样,采用 args[‘参数名’] 的形式,需要注意。args['bizdate'] = '20201221' print(args['bizdate'])调度配置的时候, bizdate=$[yyyymmdd-1]即可 阅读全文
posted @ 2020-12-22 17:19 yjy888 阅读(522) 评论(0) 推荐(0) 编辑
摘要: pip install pyinstaller pyinstaller -F setup.py 打包exe pyinstaller -F -w setup.py 不带控制台的打包 (会出错?can not execute script ...) pyinstaller -F -i xx.ico se 阅读全文
posted @ 2020-10-26 11:31 yjy888 阅读(88) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 24 下一页