摘要: 这个参数不常用,不过很巧妙的一个参数. 当下载大的文件的时候,建议使用strea模式. 默认情况下是stream=Ffalse,他会立即开始下载文件并存放到内存当中,倘若文件过大就会导致内存不足的情况. 当把get函数的stream参数设置成True时,它不会立即开始下载,当你使用iter_cont 阅读全文
posted @ 2020-04-01 00:29 天马行宇 阅读(10376) 评论(0) 推荐(3) 编辑
摘要: 直接上代码: import requests import csv from contextlib import closing # 保存csv文件 def save_csv(f_name, data): # 1. 创建文件对象 f = open(f_name, 'w', encoding='utf 阅读全文
posted @ 2020-04-01 00:26 天马行宇 阅读(5978) 评论(0) 推荐(0) 编辑
摘要: 一. 多条数据插入,性能相关. 1. 多条数据插入的时候,如果数据量大,一定要记得给字段添加索引. 2. 可以使用 insert_many, update_many 二. 更新多条数据的时候.( $setOnInsert、upsert和$set、upsert) $setOnInsert$setOnI 阅读全文
posted @ 2020-03-26 16:36 天马行宇 阅读(8229) 评论(0) 推荐(0) 编辑
摘要: 转载自: https://www.cnblogs.com/morries123/p/8568223.html Linux环境下虚拟环境virtualenv安装和使用 virtualenv用于创建独立的Python环境,多个Python相互独立,互不影响,它能够: 1. 在没有权限的情况下安装新套件 阅读全文
posted @ 2020-03-24 10:38 天马行宇 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 转载于: https://www.cnblogs.com/caiwenjun/p/11761533.html 在linux和windows中使用selenium 在linux和windows中使用selenium 一. selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是 阅读全文
posted @ 2020-03-23 20:32 天马行宇 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 通过判断列表的第一个值,来判断列表是否为空。 db.cited_papers_new.find( {'title2titles.0': {'$exists': true}, # title2titles的第一个值:存在 'result.0': {'$exists': false}} # result 阅读全文
posted @ 2020-01-07 17:28 天马行宇 阅读(15862) 评论(0) 推荐(0) 编辑
摘要: pdf2htmlEX项目路径:https://github.com/coolwanglu/pdf2htmlEX Linux上安装: 详见上述路径,需要安装docker,然后直接命令调用即可。 Mac上安装: $ brew install poppler 使用: # 默认输出 (生成多个互相嵌套的ht 阅读全文
posted @ 2020-01-04 16:13 天马行宇 阅读(1412) 评论(0) 推荐(0) 编辑
摘要: 我的虚拟机中的center os 7 的联网情况一直都是量子状态,没有规律可循,不知道哪次关机回来就不能上网了,ifconfig看不到真正网卡的信息,启动网卡体提示: Job for network.service failed. See 'systemctl status network.serv 阅读全文
posted @ 2019-12-24 21:38 天马行宇 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 现象描述: 我有2个文件,一个文件里边有2个类,使用了 concurrent.futures 来实现多线的,然后这个文件封装好后直接在__name__ == '__main__'”下运行,没有问题, 然后,我需要在其他文件中调用这个文件了,结果发现引用类进来后,运行报错,而且会是多个相同错误同时报, 阅读全文
posted @ 2019-12-12 17:24 天马行宇 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 发现了遍历文件夹下文件更简单的方法库了,激动。 你就看看代码相比os模块有多简单: root = Path("./try—_python") new_dir = root/Path("test") # 这句话相当于 new_dir = os.path.join(root, 'test') print 阅读全文
posted @ 2019-12-08 22:25 天马行宇 阅读(357) 评论(0) 推荐(0) 编辑