随笔 - 388  文章 - 1  评论 - 31  阅读 - 94万 

随笔分类 -  爬虫

java下使用chromedriver获取访问页面状态码
摘要:##在使用chromedriver的时候 并没有提供api来获取访问页面的状态码,但是可以打开日志来获取到 全部代码如下: 阅读全文
posted @ 2018-12-06 14:35 yuluoxingkong 阅读(1701) 评论(0) 推荐(0) 编辑
禁止网站被别人通过iframe引用
摘要:https://blog.csdn.net/dugujiancheng/article/details/51669164 解决方案一:js方法这种方法不可靠,不推荐使用 <script type="text/javascript"> if(self != top) { top.location = 阅读全文
posted @ 2018-11-26 11:35 yuluoxingkong 阅读(2753) 评论(0) 推荐(0) 编辑
java爬虫进阶 —— ip池使用,iframe嵌套,异步访问破解
摘要:写之前稍微说一下我对爬与反爬关系的理解 一、什么是爬虫 爬虫英文是splider,也就是蜘蛛的意思,web网络爬虫系统的功能是下载网页数据,进行所需数据的采集。主体也就是根据开始的超链接,下载解析目标页面,这时有两件事,一是把相关超链接继续往容器内添加,二是解析页面目标数据,不断循环,直到没有url 阅读全文
posted @ 2018-11-26 11:16 yuluoxingkong 阅读(1906) 评论(0) 推荐(0) 编辑
Python爬虫关于多层嵌套iframe的解决
摘要:近期由于公司资源需要,我爬取了一个视频网站,结果以为一个很容易的小爬虫,却步步是坑啊,费了一天终于都解决了(太菜了!!!)。 前面导航页的爬虫就不多说了,无非就是webdriver和PhantomJS,然后设置referer和ua,就可以一层一层访问了。其实大多数的网站的防爬都会这么做。 然后到了详 阅读全文
posted @ 2018-11-26 11:12 yuluoxingkong 阅读(7502) 评论(0) 推荐(0) 编辑
爬虫解决网页重定向问题
摘要:https://blog.csdn.net/ingiaohi/article/details/72672169 1.服务器端重定向,在服务器端完成,一般来说爬虫可以自适应,是不需要特别处理的,如响应代码301(永久重定向)、302(暂时重定向)等。具体来说,可以通过requests请求得到的resp 阅读全文
posted @ 2018-09-18 14:37 yuluoxingkong 阅读(2915) 评论(0) 推荐(0) 编辑
《Python爬虫学习系列教程》学习笔记
摘要:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与 阅读全文
posted @ 2018-08-18 09:17 yuluoxingkong 阅读(203) 评论(0) 推荐(0) 编辑
反爬虫技术方案
摘要:https://blog.csdn.net/yixuandong9010/article/details/75861233 随之大数据的火热,网络上各种网页抓取/爬虫工具蜂拥而来,因而,网页数据成了大家竞争掠夺的资源,但网站运营者却要开始保护自己的数据资源,以避免被竞争对手获取到自己的数据,防止更大 阅读全文
posted @ 2018-07-26 19:36 yuluoxingkong 阅读(788) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示