2012 年 7月 31 日随笔档案 - 风中之炎

2012年7月31日

摘要：由于要准备测试数据，不得不大量爬取某个网站的内容。为了防止被封，特意将爬虫设计为单线程同步的爬虫。结果在爬了大约3万个页面的时候，对方发回Access Denied。等一段时间后再启动爬虫，结果还是Access Denied。这时才明白这样的想法太天真了，当初就应该找其它方法来避免才对。而本文则记述了这些其它方法。1. 伪装user agent User agent 是HTTP协议的中的一个字段，其作用是描述发出HTTP请求的终端的一些信息。服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器，每个正规的爬虫都有其固定的user agent，因此只要将这个字段改为这些知名... 阅读全文

posted @ 2012-07-31 16:55 风中之炎阅读(20719) 评论(7) 推荐(7) 编辑

公告