scrapy：快速入门

1. 安装

创建爬虫的项目【scrapy startproject 项目的名字】
注意：项目的名字不允许使用数字开头也不能包含中文
创建爬虫文件
要在spiders文件夹中去创建爬虫文件
【cd 项目的名字\项目的名字\spiders】
cd scrapy_baidu_091\scrapy_baidu_091\spiders
创建爬虫文件
【scrapy genspider 爬虫文件的名字要爬取网页】
eg：scrapy genspider baidu http://www.baidu.com
一般情况下不需要添加http协议因为start_urls的值是根据allowed_domains
修改的所以添加了http的话那么start_urls就需要我们手动去修改了
运行爬虫代码
【scrapy crawl 爬虫的名字】
eg：scrapy crawl baidu
[可选]scrapy shell 调试
进入到scrapy shell的终端直接在window的终端中输入【scrapy shell 域名】
如果想看到一些高亮或者自动补全那么可以安装ipython pip install ipython
例如scrapy shell www.baidu.com

posted @ 2023-05-25 10:35 yub4by 阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部