Python scrapy项目使用
作者:@kuaiquxie
作者的github:https://github.com/bitebita
本文为作者原创,如需转载,请注明出处:https://www.cnblogs.com/dzwj/p/16861753.html
scrapy项目:
1.scrapy使用:
1.1.创建爬虫的项目:
在创建scrapy项目的时候,项目名不能用数字开头,也不能包含汉字
pycharm终端执行命令:
命令:
scrapy startproject 项目的名字
1.2.创建爬虫文件:
进入爬虫文件目录:
要在spiders文件夹里面创建爬虫文件
cd 项目的名字\项目的名字\spiders
命令:
cd scrapy_baidu_01\scrapy_baidu_01\spiders
创建爬虫文件命令:
scrapy genspider 爬虫文件的名字 要爬取网页
命令:
scrapy genspider baidu www.baidu.com
一般情况下,不需要加http协议
1.3.运行爬虫文件命令(在spiders下运行命令):
scrapy crawl 爬虫的名字 (之前提到的 爬虫的名字)
命令:
scrapy crawl baidu
注意robots协议:
# 一般大的网站需要遵守
# 注释掉之后,就不遵守robots协议了,他是一个君子协议,一般情况下,我们不用遵守
# ROBOTSTXT_OBEY = True
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人