创建虚拟环境和新建工程目录
一、创建虚拟环境
virtualenv -p python版本的路径.exe 虚拟环境名称 #新建虚拟环境
eg:virtualenv -p C:\Users\fanlala\AppData\Local\Programs\Python\Python35-32\python.exe article_spider #使用python3.5新建名为article_spider的虚拟环境。
新建完成虚拟环境后,会自动进入虚拟环境。
在虚拟环境中安装需要的库文件:
如:pip install -i https://pypi.douban.com/simple/ scrapy #使用豆瓣源镜像可以加速安装,对于一些较新的库不适用
二、新建工程目录
在CMD中进入到存放工程的目录下后,
workon 虚拟环境名称 #进入到虚拟环境中
scrapy startproject ArticleSpider #新建名为ArticleSpider的项目
生成一个爬虫模板
前提条件:在新建的工程目录路径下,并且工作与创建的虚拟环境下
scrapy genspider jobbole blog.jobbole.com #创建了一个名称为jobbole.py爬虫模板文件,爬虫的起始地址为blog.jobbole.com
三、pycharm 调试scrapy 执行流程
新建一个main.py文件:
from scrapy.cmdline import execute
import sys
inport os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy','crawl','jobbole']) #启动scrapy
在cmd中启动scrapy 的命令为:scrapy crawl jobbole #jobbole为爬虫模板.py文件名称
#encoding=utf-8
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__))) #工程目录,设置了工程目录启动scrapy才能找到项目
execute(['scrapy','crawl','jobbole'])
pycharm中调试运行比较慢,为了加快调试速度,可以在CMD中快速调试 :
进入到工作目录下,并处于需要的虚拟环境中:
输入:scrapy shell 调试的网址
然后进入到调试环境进行快速调试。