01 2017 档案

摘要:前面(1)(2)的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站。 而要爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取。经过测试发现,微博,知乎都不是很好登录,知乎有时候的验证码会类似12306那样,而微博除了验证码,在传递参数的时候会对用户名进行base64加密。这 阅读全文
posted @ 2017-01-24 14:11 夏末秋凉 阅读(4283) 评论(1) 推荐(0)
摘要:前面说过由于GIL的存在,Python的多线程效率没有希望的那么高,python的多线程适合IO密集型的情况,而爬虫恰好就是一个IO密集的情况,因为爬虫中很大一部分时间,是在等待socket返回数据。 下面写一个例子: 换成多线程之后: 速度有了很大的提升 线程池 threadpool.Thread 阅读全文
posted @ 2017-01-24 12:42 夏末秋凉 阅读(383) 评论(0) 推荐(0)
摘要:转自:http://blog.sina.com.cn/s/blog_61c006ea0100mlgq.html SQL Select语句完整的执行顺序: 1、from子句组装来自不同数据源的数据;2、where子句基于指定的条件对记录行进行筛选;3、group by子句将数据划分为多个分组;4、使用 阅读全文
posted @ 2017-01-24 10:22 夏末秋凉 阅读(138) 评论(0) 推荐(0)
摘要:Python上手很容易,免费开源,跨平台不受限制,面向对象,框架和库很丰富。 Python :Monty Python's Flying Circus (Python的名字来源,和蟒蛇其实无关)。 通过homebrew和pyenv可以维护多个Python版本。 相关知识 HTTP = HyperTe 阅读全文
posted @ 2017-01-18 12:58 夏末秋凉 阅读(516) 评论(0) 推荐(0)
摘要:1.首先使用exe文件安装python-mysql.链接: http://pan.baidu.com/s/1kVqILTX 密码: manj。 2.虚拟环境创建后,我们把已经在公共环境使用exe安装好的mysql涉及到的四个文件复制到虚拟环境对应目录(copy到虚拟环境下的\venv\Lib\sit 阅读全文
posted @ 2017-01-05 12:38 夏末秋凉 阅读(264) 评论(0) 推荐(0)