摘要: 公司的爬虫在爬取个别网站内容时候发现目标服务器对访问频率做了限制,这样只能限制爬虫访问的频率,造成了信息的滞后和数量始终上不去。于是就研究能不能让访问请求依次通过不同的IP地址访问目标服务器来增大访问的频率。让爬虫在不同的服务器上运行,这是另外一种解决思路,涉及到分布式爬虫的很多问题,不在本文讨论范围内。 Google搜索了半天,找到了一些蛛丝马迹,发现Socket.Bind方法理论上可行。接下... 阅读全文
posted @ 2010-08-14 18:54 wenhx 阅读(5265) 评论(13) 推荐(0) 编辑