scrapy 用法

1、创建scrapy项目:在终端Terminal运行命令：scrapy startproject 【项目名称】

scrapy startproject lfj_pro

PS D:\pythonProject8_scrapy> scrapy startproject lfj_pro
New Scrapy project 'lfj_pro', using template directory 'C:\Users\Administrator\AppData\Local\Programs\Python\Python311\Lib\site-packages\scrapy\templates\project', created in:
    D:\pythonProject8_scrapy\lfj_pro

You can start your first spider with:
    cd lfj_pro
    scrapy genspider example example.com
PS D:\pythonProject8_scrapy>

2、切换目录，创建爬虫程序

创建爬虫程序： scrapy genspider 【爬虫程序名字】【域名/起始爬虫地址】

PS D:\pythonProject8_scrapy> cd lfj_pro           
PS D:\pythonProject8_scrapy\lfj_pro> scrapy genspider lfj_baidu https://www.baidu.com
Created spider 'lfj_baidu' using template 'basic' in module:
  lfj_pro.spiders.lfj_baidu

创建的py文件

PS D:\pythonProject8_scrapy\lfj_pro> scrapy genspider lfj_jd  https://jd.com
Created spider 'lfj_jd' using template 'basic' in module:
  lfj_pro.spiders.lfj_jd

3、运行脚本：scrapy crawl 【脚本名字】，记得先把settings.py里的【ROBOTSTXT_OBEY】的值改为【False】

scrapy crawl lfj_baidu

这里有个需要注意的问题，直接运行爬虫程序会显示Forbidden，这是因为robots(网站跟爬虫间的协议)

2023-09-11 11:48:54 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://baidu.com/robots.txt> (referer: None)
2023-09-11 11:48:54 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://baidu.com>

robots是一个君子协议，我们就不遵守了

将【项目名字】\【项目名字】\settings.py里的【ROBOTSTXT_OBEY】的值改为【False】

4、编写逻辑代码，比如获取百度首页，写入文件

但是得到的不太对，那这里应该是遇到了反爬

posted @ 2023-09-11 12:02 勋勋的大宝贝阅读(44) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· DWARF信息

· selenium测试环境搭建

· 爬虫_scrapy_基本使用

· Python scrapy项目使用

· Scrapy入门

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· Vue3状态管理终极指南：Pinia保姆级教程

公告

昵称：勋勋的大宝贝
园龄： 3年1个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

勋勋的大宝贝

scrapy 用法

1、创建scrapy项目:在终端Terminal运行命令：scrapy startproject 【项目名称】

2、切换目录，创建爬虫程序

3、运行脚本：scrapy crawl 【脚本名字】，记得先把settings.py里的【ROBOTSTXT_OBEY】的值改为【False】

4、编写逻辑代码，比如获取百度首页，写入文件

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

勋勋的大宝贝

scrapy 用法

1、 创建scrapy项目:在终端Terminal运行命令：scrapy startproject 【项目名称】

2、 切换目录，创建爬虫程序

3、 运行脚本：scrapy crawl 【脚本名字】，记得先把settings.py里的【ROBOTSTXT_OBEY】的值改为【False】

4、 编写逻辑代码，比如获取百度首页，写入文件

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

1、创建scrapy项目:在终端Terminal运行命令：scrapy startproject 【项目名称】

2、切换目录，创建爬虫程序

3、运行脚本：scrapy crawl 【脚本名字】，记得先把settings.py里的【ROBOTSTXT_OBEY】的值改为【False】

4、编写逻辑代码，比如获取百度首页，写入文件