Python scrapy项目使用

作者:@kuaiquxie
作者的github:https://github.com/bitebita
本文为作者原创,如需转载,请注明出处:https://www.cnblogs.com/dzwj/p/16861753.html


scrapy项目:

1.scrapy使用:
1.1.创建爬虫的项目:

在创建scrapy项目的时候,项目名不能用数字开头,也不能包含汉字
pycharm终端执行命令:
命令:
scrapy startproject 项目的名字

1.2.创建爬虫文件:

进入爬虫文件目录:
要在spiders文件夹里面创建爬虫文件
cd 项目的名字\项目的名字\spiders
命令:
cd scrapy_baidu_01\scrapy_baidu_01\spiders

创建爬虫文件命令:
scrapy genspider 爬虫文件的名字 要爬取网页
命令:
scrapy genspider baidu www.baidu.com
一般情况下,不需要加http协议

1.3.运行爬虫文件命令(在spiders下运行命令):
scrapy crawl 爬虫的名字 (之前提到的 爬虫的名字)
命令:
scrapy crawl baidu
注意robots协议:
# 一般大的网站需要遵守
# 注释掉之后,就不遵守robots协议了,他是一个君子协议,一般情况下,我们不用遵守
# ROBOTSTXT_OBEY = True

posted @   kuaiquxie  阅读(27)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示