scrapy 启动

虚拟环境安装好了之后，scrapy 框架安装好了以后：

workon article_spider (项目名称)

scrapy startproject Article Spider 工程目录

cd 到工程目录

Scrapy genspider jobbole blog.jobbole.com 第一个文件名称要爬取网站的域名

启动一个工程的cmd： scrapy crawl jobbole

如果运行报 No module named “win32api”

要安装 pip install pypiwin32 这个包

settings

把

这样设置，否则遵循 robots.txt rules ,它将会不爬

如果是 xpath selector 对象想提取里面的内容，调用extract（）成一个列表，然后索引取出，但是列表没有值，索引取出就会报错，所以

extract_first 提取不到就返回None。比较好

posted @ 2018-08-06 19:52 python成长中阅读(3088) 评论(0) 编辑收藏举报

刷新页面返回顶部

python成长中