Scrapy - 随笔分类 - 麦克煎蛋

fake-useragent插件无法正常使用的问题

摘要：在进行Scrapy开发的时候，需要使用UA中间件，这里就采用了fake-useragent来随机获取浏览器的UA值，但貌似直接访问的话有异常： File "/Users/mazhiyong/.virtualenvs/scrapy/lib/python3.7/site-packages/fake_us 阅读全文

posted @ 2020-05-15 11:16 麦克煎蛋阅读(3095) 评论(0) 推荐(0)

豆瓣图书接口API

摘要：所有数据均来源于豆瓣图书，数据量并不完整，仅供学习爬虫对照结果使用，大概每天新增几百条。接口地址： http://api.xiaomafeixiang.com/api/bookinfo?isbn=9787544270878 把上述示例中的"9787544270878"替换为实际需要查询图书的isb 阅读全文

posted @ 2020-04-08 10:55 麦克煎蛋阅读(6984) 评论(1) 推荐(0)

Python项目实践--环境准备03 Scrapy + Selenium Chrome工作环境

摘要：一、虚拟环境 mkvirtualenv --python=/usr/local/bin/python3 scrapy workon scrapy 二、安装Scrapy pip install scrapy 三、Scrapy终端 pip install ipython Scrapy终端是一个交互终端，阅读全文

posted @ 2020-03-31 16:56 麦克煎蛋阅读(290) 评论(0) 推荐(0)

Scrapy爬取动态内容(四)Selenium-Server方案

摘要：参考文章： https://blog.csdn.net/GAMEloft9/article/details/81017262 https://github.com/SeleniumHQ/selenium/wiki/Grid2 下载地址 http://selenium-release.storage. 阅读全文

posted @ 2020-03-31 16:18 麦克煎蛋阅读(273) 评论(0) 推荐(0)

Scrapy爬取动态内容(三)Selenium Firefox方案

摘要：Selenium Firefox方案的使用过程基本类似Selenium Chrome方案，但痛点是未找到合理的方法动态设置代理，最后放弃了使用。参考文章：动态设置代理 https://stackoverflow.com/questions/20884089/dynamically-changin 阅读全文

posted @ 2020-03-31 16:15 麦克煎蛋阅读(398) 评论(0) 推荐(0)

Scrapy爬取动态内容(二)Selenium Chrome方案

摘要：Selemium参考文章： https://www.jianshu.com/p/a1a64f649472 https://blog.csdn.net/htsait4113/article/details/84326817 https://blog.csdn.net/zhusongziye/artic 阅读全文

posted @ 2020-03-31 16:10 麦克煎蛋阅读(903) 评论(0) 推荐(0)

Scrapy爬取动态内容(一)Splash方案

摘要：一、方案：之前我们学习的内容都是抓取静态页面，每次请求，它的网页全部信息将会一次呈现出来。但是，像比如一些购物网站，他们的商品信息都是js加载出来的，并且会有ajax异步加载。像这样的情况，直接使用scrapy的Request请求是拿不到我们想要的信息的，解决的方法就是使用selenium或者s 阅读全文

posted @ 2020-03-31 16:04 麦克煎蛋阅读(641) 评论(0) 推荐(0)

图书爬虫的进展

摘要：豆瓣的数据抓取中，豆瓣的反扒措施比较严谨，这里不得已采用了芝麻代理的ip，豆瓣的数据整理的比较好。另外也对比过京东和当当的数据，发现当当的图书数据是最乱的。阅读全文

posted @ 2019-11-05 15:27 麦克煎蛋阅读(187) 评论(0) 推荐(0)

随笔分类 - Scrapy