摘要: 之前我们说网站反爬虫的一个常用方法是检测ip,限制访问频率。所以我们要通过设置代理ip的办法绕过这个限制。有不少提供免费代理ip的网站,像https://www.xicidaili.com/nt/,我们可以从网站上拿到很多代理ip。但是这些ip并不是每个都能用的,或者说,没几个能用的。 我们可以用b 阅读全文
posted @ 2019-09-13 16:31 rain_poi 阅读(1588) 评论(0) 推荐(1) 编辑
摘要: 爬虫用久了,总是会被封的。——鲁迅 有些网站,特别是一些陈年老站,没有做过反爬虫机制的,我们可以尽情地爬,愉快地爬,把它们的底裤。。数据全都爬下来。最多出于情怀考虑,我们爬慢一点,不给它的服务器太大压力。但是对于有反爬虫机制的网站,我们不能这样。 U-A校验 最简单的反爬虫机制应该是U-A校验了。浏 阅读全文
posted @ 2019-09-13 09:55 rain_poi 阅读(8514) 评论(0) 推荐(5) 编辑