上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 81 下一页
摘要: #将字典转json并写入文件 import json i=3 j=5 a={'a':i,'b':j} js=json.dumps(a) print(js) with open("/Users/binwang/Downloads/test/result.json", "w") as fp: fp.wr 阅读全文
posted @ 2019-12-13 11:51 Mars.wang 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 在一般从流接收数据写入介质的场景中,大部分存在每批次数据较小,导致小文件较多的问题. 一般考虑设置一个缓冲池,将多个批次的数据先缓冲进去,达到一定大小,再一次性批量写入 对应的python版本 阅读全文
posted @ 2019-12-04 13:49 Mars.wang 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 信号量通常用于保护数量有限的资源,例如数据库服务器。在资源数量固定的任何情况下,都应该使用有界信号量。在生成任何工作线程前,应该在主线程中初始化信号量。 工作线程生成后,当需要连接服务器时,这些线程将调用信号量的 acquire 和 release 方法: 使用有界信号量能减少这种编程错误:信号量的 阅读全文
posted @ 2019-11-26 17:27 Mars.wang 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 一.进程间同步 对于一些临界资源,不能使用并发无限消耗,就需要设置专门的临界标示,比如锁或者信号量等 二.进程间通信 有时候需要在进程之间交换对象 multiprocessing 支持进程之间的两种通信通道: (1).队列 Queue 类是一个近似 queue.Queue 的克隆。 例如: 队列是线 阅读全文
posted @ 2019-11-26 17:15 Mars.wang 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 并发是快速处理大量相似任务的绝佳办法,但对于有返回值的方法,需要一个容器专门来存储每个进程处理完的结果 还有使用map的方式: 阅读全文
posted @ 2019-11-26 16:55 Mars.wang 阅读(4663) 评论(0) 推荐(0) 编辑
摘要: #获取表的最大分区 import boto3 from datetime import datetime,timedelta def get_max_partition(db_name,table_name,partition_format='%Y-%m-%d'): client=boto3.client('glue') yesterday=datetime.utcnow() max_partit 阅读全文
posted @ 2019-11-07 14:32 Mars.wang 阅读(1229) 评论(0) 推荐(0) 编辑
摘要: 获取一个目录下所有指定格式的文件是实际生产中常见需求. 阅读全文
posted @ 2019-11-07 14:30 Mars.wang 阅读(897) 评论(0) 推荐(0) 编辑
摘要: #redis内自维护线程池,过期就断掉链接,所以不需要手动关闭链接 import redis r = redis.StrictRedis(host='host.com', port=6379) start_dt = str(r.hget('key_v2', 'start_dt'), encoding 阅读全文
posted @ 2019-10-31 19:45 Mars.wang 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 工作中遇到一个小问题,需要在一个日志文件中,删选出包含emrfs sync命令和之后内容的行,格式如下, 考虑采用正则表达式来做,代码如下 阅读全文
posted @ 2019-10-31 17:35 Mars.wang 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 一.简介 SerDe是Serializer/Deserializer的缩写。SerDe允许Hive读取表中的数据,并将其以任何自定义格式写回HDFS。 任何人都可以为自己的数据格式编写自己的SerDe。 序列化与反序列化的作用 1,序列化是对象转化为字节序列的过程; 2,反序列化是字节码恢复为对象的 阅读全文
posted @ 2019-10-25 17:13 Mars.wang 阅读(1044) 评论(0) 推荐(0) 编辑
上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 81 下一页