scrapy使用笔记

新建项目

在需要新建项目的目录下发指令

scrapy startproject MySpider

其中MySpider为工程的名字，会新建一个文件夹

进入工程目录
新建一个爬虫

scrapy genspider test "www.baidu.com"

test是爬虫名字
网址是允许爬取的网站，不需要带HTTP://

执行爬虫文件：

scrapy crawl test

test是爬虫名字

只需要在pycharm中的Run下Edit Configurations...中做运行配置即可

这样就可以直接点RUN，看效果，不用去再输入指令了

# json格式，默认为unicode编码
scrapy crawl test -o test.json
# csv 逗号表达式，可以用excel打开
scrapy crawl test -o test.csv
#xml格式
scrapy crawl test -o test.xml

posted on 2018-04-27 22:52 神秘藏宝室阅读(223) 评论(0) 收藏举报