摘要: 先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防 阅读全文
posted @ 2021-05-17 18:36 mingruqi 阅读(372) 评论(0) 推荐(0) 编辑
摘要: Headless Chrome是无头Chrome浏览器,可以利用Chrome V8引擎的高效。可以代替phantomjs,Scrapy也不建议使用phantomjs了。启用无头Chrome,必须使用Chrome对应版本的WebDriver。 准备windows10Anaconda3python 3. 阅读全文
posted @ 2021-05-17 17:37 mingruqi 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 一、简单实例,了解基本。 1、安装Scrapy框架 这里如果直接pip3 install scrapy可能会出错。 所以你可以先安装lxml:pip3 install lxml(已安装请忽略)。 安装pyOpenSSL:在官网下载wheel文件。 安装Twisted:在官网下载wheel文件。 安装 阅读全文
posted @ 2021-05-17 10:07 mingruqi 阅读(373) 评论(0) 推荐(0) 编辑