Fork me on GitHub
摘要: 分析 打开页面http://www.coobobo.com/free-http-proxy/,端口数字一看就不对劲,老规律ctrl+shift+c选一下: 这就很悲剧了,端口数字都是用图片显示的: 不过没关系,看这些图片长得这么清秀纯天然无杂质,识别是很容易的。 然后再来选一下ip地址: 很可能ip地址是用这个js现写进来的,要确定的话还得看一眼返回的原始html,查看源码定位这... 阅读全文
posted @ 2018-03-25 22:54 CC11001100 阅读(898) 评论(0) 推荐(0) 编辑
摘要: 简述 本次要爬取的网站是全网代理,貌似还是代理ip类网站中比较有名的几个之一,其官网地址: http://www.goubanjia.com/。 对于这个网站的爬取是属于比较悲剧的,因为很久之前就写好了代码了只是没写博客总结,结果刚才看的时候发现人家改版了…之前的代码基本不能用了只好重新写… 原来是一个列表页有很多项可以看到的,现在改版成只看前20条了,貌似只有不断的检测抓取不然这东西鸡肋没啥... 阅读全文
posted @ 2018-03-25 21:32 CC11001100 阅读(3730) 评论(0) 推荐(0) 编辑
摘要: 起因 为了训练爬虫技能(其实主要还是js技能…),翻了可能有反爬的网站挨个摧残,现在轮到这个网站了:http://www.data5u.com/free/index.shtml 解密过程 打开网站,在免费ip的列表页查看元素选一个端口,发现表示端口的元素class属性上有可疑的东西(代理ip类网站的反爬总是这么没有创意…): 上面的“GEA”很像是密文存储的东西,怀疑端口号是页面加载... 阅读全文
posted @ 2018-03-25 19:12 CC11001100 阅读(13773) 评论(0) 推荐(3) 编辑