园龄：3年9个月粉丝：2 关注：1

scrapy运行

'''
scrapy创建并运行
1.创建项目，控制台输入scrapy startproject xiachufangs
2.跳转到项目 cd xiachufang
3.创建爬虫项目，scrapy genspider xiachufang 域名(www开头) ,项目名和文件名不能一样
4.修改设置。在setting中，进行以下修改
不遵守，不然不能拿到需要的数据
ROBOTSTXT_OBEY = False
延迟三秒，防止被检测到
DOWNLOAD_DELAY = 3
请求头，一般只需要写Mozilla/5.0 ，防止返回脏数据
DEFAULT_REQUEST_HEADERS = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'

}
# 项目优先级，数字越小，优先级越高
ITEM_PIPELINES = {
    'xiachufangs.pipelines.XiachufangsPipeline': 300,
}
# 关闭日志，不推荐，关闭之后，无法定位错误位置
LOG_ENABLED = False
5.编写爬虫脚本
一般先写一个独立的爬虫项目，然后移植到scrapy框架里
最终的返回值是一个字典，用yield返回，不一定是item
注：域名是开头到com的连接，不是一个url地址
注意不要多写一个/
6.在管道pipelines里，进行数据入库，入表等操作
7.在项目建立一个同级文件，文件名为run.py,内容如下
from scrapy import cmdline

cmdline.execute('scrapy crawl xiachufang'.split())
crawl后面的名称和爬虫文件里的名字就也一样
8.运行run.py即可

'''