摘要: phantomjsMiddleware 阅读全文
posted @ 2017-11-28 11:37 人微言轻1 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 1. 进程 python /tmp/2.py > /tmp/log& pid 进程唯一标识符 kill pidNum 创建一个进程的时候,会创建一个主线程 一个进程中只有一个主线程 主线程可以生成多个子线程,主线程和子线程一起就可以称之为多线程 全局锁: 在任意指定的时间里,有且只有一个线程在运行 阅读全文
posted @ 2017-11-27 23:02 人微言轻1 阅读(147) 评论(0) 推荐(0) 编辑
摘要: re.split(r'\d+','one1two2three4five')['one', 'two', 'three', 'five'] 适用场景: 从一堆字符串中匹配若干组数字 阅读全文
posted @ 2017-11-27 22:05 人微言轻1 阅读(198) 评论(0) 推荐(0) 编辑
摘要: echarts中的图表大小自适应 阅读全文
posted @ 2017-11-26 13:32 人微言轻1 阅读(7871) 评论(0) 推荐(0) 编辑
摘要: vim .gitignore *.mp4 *.pyc *.swp *.old *.bak 阅读全文
posted @ 2017-11-25 23:01 人微言轻1 阅读(741) 评论(0) 推荐(0) 编辑
摘要: 1. 阅读全文
posted @ 2017-11-25 22:01 人微言轻1 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1. 针对需要带cookies访问的网站 scrapy.Request() 设置cookies 设置phantomjs后运行爬虫 还是依然会别ban > 解决方法是在 phantomjs中设置cookies driver.add_cookies(cookies) 阅读全文
posted @ 2017-11-24 15:53 人微言轻1 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1. scrapy.Request 对象 和 requests.get() 阅读全文
posted @ 2017-11-24 15:50 人微言轻1 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 1 # scheduler的作用: 用于控制Request对象的存储和获取,并提供了过滤重复Request的功能。 2 3 class Scheduler(object): 4 5 def __init__(self, dupefilter, jobdir=None, dqclass=None, mqclass=None, 6 logun... 阅读全文
posted @ 2017-11-24 13:20 人微言轻1 阅读(1336) 评论(0) 推荐(0) 编辑
摘要: 1. vim /etc/apache2/apache2.conf 3. 更改目录权限 chomod 755 /path/to/mysite (父级目录也要改!) 2.卸载,安装 阅读全文
posted @ 2017-11-23 01:12 人微言轻1 阅读(364) 评论(0) 推荐(0) 编辑