Scrapy学习笔记(1)
最近总被房产中介骚扰,因此打算做一件事情:找一个爬虫把自己区域内所有中介的手机号爬下来,统统导入手机黑名单。
经过简单比较,感觉Scrapy挺小巧的,因此选择了它。
安装:
(windows环境)
scrapy的安装还是有一点麻烦,因为它本身依赖的项目足有5个之多。不过你如果正确安装了vs2008的c++编译器(注意是vs2008。。。高版本也不行)
直接用
pip install scrapy
就可以搞定所有依赖项自动安装。
不然的话。就有点麻烦了。可以根据pip的出错信息,一个个手动安装完依赖(想偷懒的话下binary的包比较省事)。
官方安装文档:http://doc.scrapy.org/en/latest/intro/install.html
可以参考stackoverflow的帖子:http://stackoverflow.com/questions/2817869/error-unable-to-find-vcvarsall-bat
一劳永逸的解决python安装时遇到的编译问题:两条路,用mingGW的gcc编译(我选的),搞定其它版本VS。
第一个小例子:
创建一个目录,在命令行模式进入这个目录后执行下面语句。
scrapy startproject firstscrapy
你会得到如下的一个目录结构:
firstscrapyl/ scrapy.cfg firstscrapy/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py
未完。