2021 年 5月 17 日随笔档案 - mingruqi

2021年5月17日

摘要：先说结论，关闭scrapy自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可解决。使用scrapy爬取淘宝页面的时候，在提交http请求时出现debug信息Forbidden by robots.txt，看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制，防阅读全文

posted @ 2021-05-17 18:36 mingruqi 阅读(372) 评论(0) 推荐(0) 编辑

Scrapy和Headless Chrome采集动态网站数据

摘要： Headless Chrome是无头Chrome浏览器，可以利用Chrome V8引擎的高效。可以代替phantomjs，Scrapy也不建议使用phantomjs了。启用无头Chrome，必须使用Chrome对应版本的WebDriver。准备windows10Anaconda3python 3. 阅读全文

posted @ 2021-05-17 17:37 mingruqi 阅读(329) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy的安装与基本使用

摘要：一、简单实例，了解基本。 1、安装Scrapy框架这里如果直接pip3 install scrapy可能会出错。所以你可以先安装lxml：pip3 install lxml(已安装请忽略)。安装pyOpenSSL：在官网下载wheel文件。安装Twisted：在官网下载wheel文件。安装阅读全文

posted @ 2021-05-17 10:07 mingruqi 阅读(373) 评论(0) 推荐(0) 编辑

ming

公告