scrapy运行
'''
scrapy创建并运行
1.创建项目,控制台输入scrapy startproject xiachufangs
2.跳转到项目 cd xiachufang
3.创建爬虫项目,scrapy genspider xiachufang 域名(www开头) ,项目名和文件名不能一样
4.修改设置。在setting中,进行以下修改
不遵守,不然不能拿到需要的数据
ROBOTSTXT_OBEY = False
延迟三秒,防止被检测到
DOWNLOAD_DELAY = 3
请求头,一般只需要写Mozilla/5.0 ,防止返回脏数据
DEFAULT_REQUEST_HEADERS = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}
# 项目优先级,数字越小,优先级越高
ITEM_PIPELINES = {
'xiachufangs.pipelines.XiachufangsPipeline': 300,
}
# 关闭日志,不推荐,关闭之后,无法定位错误位置
LOG_ENABLED = False
5.编写爬虫脚本
一般先写一个独立的爬虫项目,然后移植到scrapy框架里
最终的返回值是一个字典,用yield返回,不一定是item
注:域名是开头到com的连接,不是一个url地址
注意不要多写一个/
6.在管道pipelines里,进行数据入库,入表等操作
7.在项目建立一个同级文件,文件名为run.py,内容如下
from scrapy import cmdline
cmdline.execute('scrapy crawl xiachufang'.split())
crawl后面的名称和爬虫文件里的名字就也一样
8.运行run.py即可
'''
本文作者:布都御魂
本文链接:https://www.cnblogs.com/wolvies/p/15504730.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步