摘要:
前面(1)(2)的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站。 而要爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取。经过测试发现,微博,知乎都不是很好登录,知乎有时候的验证码会类似12306那样,而微博除了验证码,在传递参数的时候会对用户名进行base64加密。这 阅读全文
摘要:
前面说过由于GIL的存在,Python的多线程效率没有希望的那么高,python的多线程适合IO密集型的情况,而爬虫恰好就是一个IO密集的情况,因为爬虫中很大一部分时间,是在等待socket返回数据。 下面写一个例子: 换成多线程之后: 速度有了很大的提升 线程池 threadpool.Thread 阅读全文
摘要:
转自:http://blog.sina.com.cn/s/blog_61c006ea0100mlgq.html SQL Select语句完整的执行顺序: 1、from子句组装来自不同数据源的数据;2、where子句基于指定的条件对记录行进行筛选;3、group by子句将数据划分为多个分组;4、使用 阅读全文