上一页 1 2 3 4 5 6 ··· 15 下一页

2020年9月12日

摘要: pyspark提交任务报错: Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED 解决方案: 1. os.environ['PYTHONHASHSEED'] = "123" —— 失败,该方案改动 阅读全文
posted @ 2020-09-12 09:42 落日峡谷 阅读(425) 评论(0) 推荐(0) 编辑

2020年8月30日

摘要: crontab用于配置定时任务,主要参数是: -e:编辑当前用户的定时任务 -r:删除当前用户的定时任务 -l:列出当前用户的定时任务 其一般格式是: * * * * * shell_command # 第一个*号表示分钟:范围在0-59 # 第二个*号表示小时:0-23 # 第三个*号表示一个月的 阅读全文
posted @ 2020-08-30 23:15 落日峡谷 阅读(3712) 评论(0) 推荐(0) 编辑
摘要: 在linux上设置定时任务或者使用shell脚本都可以执行python代码;其中定时任务的设置在命令 crontab -e 中可以查看和设置。 假设目前有一个python脚本: import numpy as np print(' ') aa = [[1,2,3],[4,5,6]] print('a 阅读全文
posted @ 2020-08-30 22:05 落日峡谷 阅读(10248) 评论(0) 推荐(0) 编辑
摘要: 最近遇到一个神奇的hive功能:lateral view explode,感觉与Mysql中的group concat相反,将原本在一起的数据拆分成多行形成虚拟表,再与原表进行笛卡尔积。 一般模式:select column_A,column_B,tmp_table.tmp_column from 阅读全文
posted @ 2020-08-30 00:17 落日峡谷 阅读(9714) 评论(0) 推荐(0) 编辑

2020年8月29日

摘要: mysql中的group_concat分组连接功能相当强大,可以先分组再连接成字符串,还可以进行排序连接。但是hive中并没有这个函数,那么hive中怎么实现这个功能呢? 这里要用到:concat_ws函数和collect_list、collect_set 函数。 1. 建立测试表(无分区表): c 阅读全文
posted @ 2020-08-29 23:16 落日峡谷 阅读(17304) 评论(0) 推荐(2) 编辑

2020年8月24日

摘要: Git 版本控制系统是一个分布式的系统(与SVN不一样),可用于保存工程源代码及其历史状态的命令行工具。 Git下载地址:https://git-scm.com/downloads,安装之后,windows系统中会出现: 点击打开 Git Bash,出现: 这是属于命令行模式的界面,而Git GUI 阅读全文
posted @ 2020-08-24 00:15 落日峡谷 阅读(124) 评论(0) 推荐(0) 编辑

2020年6月2日

摘要: python参数传递时,主要有位置参数和关键字参数。 1. 位置参数:顾名思义,参数的位置顺序很重要,因为是直接根据位置赋值的。 def func1(a, b): print(a,b) # 位置参数,位置顺序很重要 func1(1,2) 2. 关键字参数:首先使得位置不那么重要了,毕竟参数一多,有些 阅读全文
posted @ 2020-06-02 21:35 落日峡谷 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 1. 使用base64解码时,出现:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 21: invalid continuation byte 这里不是读文件的时候,需要加入 encoding='utf-8' 阅读全文
posted @ 2020-06-02 20:37 落日峡谷 阅读(1569) 评论(0) 推荐(0) 编辑

2020年5月23日

摘要: 1. Pandas读取csv或excel数据时,很可能遇到的columns中,列名会带有特殊字符,例如:空格、\n、\t、双空格、引号等等,如果不想手动修改的话,可以df.rename()来解决。 df = pd.read_excel(data_path) df_ = df.rename(colum 阅读全文
posted @ 2020-05-23 19:44 落日峡谷 阅读(2296) 评论(0) 推荐(0) 编辑

2020年5月22日

摘要: Base64常用于对电子邮件、短信、URL等进行编码和传输,在Python和Mysql中都有实现方式。 但这里要说的是它编码的基本原理和步骤。 1. 首先相信大家都会看到这个表:Base64对应的字符表,一共64个字符,包括26个字母的大小写、10个阿拉伯数字、+号和/号;附:(还有一个' =' 号 阅读全文
posted @ 2020-05-22 21:58 落日峡谷 阅读(2835) 评论(1) 推荐(1) 编辑
上一页 1 2 3 4 5 6 ··· 15 下一页

导航