随笔 - 388 文章 - 1 评论 - 31 阅读 - 94万

随笔分类 - 爬虫

摘要：##在使用chromedriver的时候并没有提供api来获取访问页面的状态码，但是可以打开日志来获取到全部代码如下：阅读全文

posted @ 2018-12-06 14:35 yuluoxingkong 阅读(1701) 评论(0) 推荐(0) 编辑

摘要：https://blog.csdn.net/dugujiancheng/article/details/51669164 解决方案一：js方法这种方法不可靠，不推荐使用 <script type="text/javascript"> if(self != top) { top.location = 阅读全文

posted @ 2018-11-26 11:35 yuluoxingkong 阅读(2753) 评论(0) 推荐(0) 编辑

java爬虫进阶 —— ip池使用，iframe嵌套，异步访问破解

摘要：写之前稍微说一下我对爬与反爬关系的理解一、什么是爬虫爬虫英文是splider，也就是蜘蛛的意思，web网络爬虫系统的功能是下载网页数据，进行所需数据的采集。主体也就是根据开始的超链接，下载解析目标页面，这时有两件事，一是把相关超链接继续往容器内添加，二是解析页面目标数据，不断循环，直到没有url 阅读全文

posted @ 2018-11-26 11:16 yuluoxingkong 阅读(1906) 评论(0) 推荐(0) 编辑

Python爬虫关于多层嵌套iframe的解决

摘要：近期由于公司资源需要，我爬取了一个视频网站，结果以为一个很容易的小爬虫，却步步是坑啊，费了一天终于都解决了（太菜了！！！）。前面导航页的爬虫就不多说了，无非就是webdriver和PhantomJS,然后设置referer和ua，就可以一层一层访问了。其实大多数的网站的防爬都会这么做。然后到了详阅读全文

posted @ 2018-11-26 11:12 yuluoxingkong 阅读(7502) 评论(0) 推荐(0) 编辑

爬虫解决网页重定向问题

摘要：https://blog.csdn.net/ingiaohi/article/details/72672169 1.服务器端重定向，在服务器端完成，一般来说爬虫可以自适应，是不需要特别处理的，如响应代码301（永久重定向）、302（暂时重定向）等。具体来说，可以通过requests请求得到的resp 阅读全文

posted @ 2018-09-18 14:37 yuluoxingkong 阅读(2915) 评论(0) 推荐(0) 编辑

《Python爬虫学习系列教程》学习笔记

摘要：http://cuiqingcai.com/1052.html 大家好哈，我呢最近在学习Python爬虫，感觉非常有意思，真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来，还记录了一些自己实际写的一些小爬虫，在这里跟大家一同分享，希望对Python爬虫感兴趣的童鞋有帮助，如果有机会期待与阅读全文

posted @ 2018-08-18 09:17 yuluoxingkong 阅读(203) 评论(0) 推荐(0) 编辑

反爬虫技术方案

摘要：https://blog.csdn.net/yixuandong9010/article/details/75861233 随之大数据的火热，网络上各种网页抓取/爬虫工具蜂拥而来，因而，网页数据成了大家竞争掠夺的资源，但网站运营者却要开始保护自己的数据资源，以避免被竞争对手获取到自己的数据，防止更大阅读全文

posted @ 2018-07-26 19:36 yuluoxingkong 阅读(788) 评论(0) 推荐(0) 编辑