fake-useragent插件无法正常使用的问题
摘要:在进行Scrapy开发的时候,需要使用UA中间件,这里就采用了fake-useragent来随机获取浏览器的UA值,但貌似直接访问的话有异常: File "/Users/mazhiyong/.virtualenvs/scrapy/lib/python3.7/site-packages/fake_us
阅读全文
posted @
2020-05-15 11:16
麦克煎蛋
阅读(3047)
推荐(0) 编辑
豆瓣图书接口API
摘要:所有数据均来源于豆瓣图书,数据量并不完整,仅供学习爬虫对照结果使用,大概每天新增几百条。 接口地址: http://api.xiaomafeixiang.com/api/bookinfo?isbn=9787544270878 把上述示例中的"9787544270878"替换为实际需要查询图书的isb
阅读全文
posted @
2020-04-08 10:55
麦克煎蛋
阅读(6894)
推荐(0) 编辑
Python项目实践--环境准备03 Scrapy + Selenium Chrome工作环境
摘要:一、虚拟环境 mkvirtualenv --python=/usr/local/bin/python3 scrapy workon scrapy 二、安装Scrapy pip install scrapy 三、Scrapy终端 pip install ipython Scrapy终端是一个交互终端,
阅读全文
posted @
2020-03-31 16:56
麦克煎蛋
阅读(288)
推荐(0) 编辑
Scrapy爬取动态内容(四)Selenium-Server方案
摘要:参考文章: https://blog.csdn.net/GAMEloft9/article/details/81017262 https://github.com/SeleniumHQ/selenium/wiki/Grid2 下载地址 http://selenium-release.storage.
阅读全文
posted @
2020-03-31 16:18
麦克煎蛋
阅读(265)
推荐(0) 编辑
Scrapy爬取动态内容(三)Selenium Firefox方案
摘要:Selenium Firefox方案的使用过程基本类似Selenium Chrome方案,但痛点是未找到合理的方法动态设置代理,最后放弃了使用。 参考文章: 动态设置代理 https://stackoverflow.com/questions/20884089/dynamically-changin
阅读全文
posted @
2020-03-31 16:15
麦克煎蛋
阅读(396)
推荐(0) 编辑
Scrapy爬取动态内容(二)Selenium Chrome方案
摘要:Selemium参考文章: https://www.jianshu.com/p/a1a64f649472 https://blog.csdn.net/htsait4113/article/details/84326817 https://blog.csdn.net/zhusongziye/artic
阅读全文
posted @
2020-03-31 16:10
麦克煎蛋
阅读(891)
推荐(0) 编辑
Scrapy爬取动态内容(一)Splash方案
摘要:一、方案: 之前我们学习的内容都是抓取静态页面,每次请求,它的网页全部信息将会一次呈现出来。 但是,像比如一些购物网站,他们的商品信息都是js加载出来的,并且会有ajax异步加载。像这样的情况,直接使用scrapy的Request请求是拿不到我们想要的信息的,解决的方法就是使用selenium或者s
阅读全文
posted @
2020-03-31 16:04
麦克煎蛋
阅读(627)
推荐(0) 编辑
图书爬虫的进展
摘要:豆瓣的数据抓取中,豆瓣的反扒措施比较严谨,这里不得已采用了芝麻代理的ip,豆瓣的数据整理的比较好。 另外也对比过京东和当当的数据,发现当当的图书数据是最乱的。
阅读全文
posted @
2019-11-05 15:27
麦克煎蛋
阅读(182)
推荐(0) 编辑