Scrapy模块安装和启动
安装
1、pip install wheel
2、pip twisted(如报错手动安装)
下载离线的安装(下载自己的版本)
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
然后在cmd 中 pip install (将下载好的文件拖入)
3、pip install pywin32
4、pip install scrapy
.创建工程
1、打开命令行,然后切换到需要的目录
输入下面的命令创建工程
scrapy startproject weibo
其中weibo是你需要创建的工程的名字,前两个参数不动。
2、然后到达工程的目录,cd weibo
scrapy genspider weibocn m.weibo.cn
然后这时候进入工程的spider文件发现多了一个文件weibocn.py
weibocn 是爬虫的名字,具有唯一性,每个工程拥有一个唯一的爬虫名,m.weibo.cn是指定域范围,获取的内容只在指定的域。
3、在settings中 19行:对请求载体的身份进行伪装
22行:不遵从robots协议
4、执行 scrapy crawl weibocn --nolg