scrapy 命令
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 | 创建项目: scrapy startproject myproject cd myproject 创建一个spider scrapy genspider spidername spiderurl.com 查看所有命令: scrapy - h 全局命令: startproject settings runspider shell fetch view version 项目命令: crawl check list edit parse genspider bench 创建项目: startproject scrapy startproject myproject 查看模板: scrapy genspider - l (basic, crawl, csvfeed, xmlfeed) 在当前项目创建spider(使用模板: - t basic) scrapy genspider [ - t template] <spiderName> <spiderUrl> 运行spider scrapy crawl myspidername 保存json文件.xml, .jl... scrapy crawl myspider - o fileName.json 检查项目代码: scrapy check [ - l] [spider] fetch查看网页返回内容: scrapy fetch <url> 生成静态页面 scrapy view url scrapy 终端 scrapy shell url ### parse语法: scrapy parse <url> [options] settings: 查看设置 scrapy settings - - get BOT_NAME scrapy settings - - get DOWNLOAD_DELAY 运行一个spider runspider: scrapy runspider myspider.py 选择器使用: 获取title标签(第一个)下的文本 response.selector.xpath( '//title/text()' ).extract_first() response.css( 'title::text' ).extract_first() 获取title标签(所有)下的文本 response.selector.xpath( '//title/text()' ).extract() 获取子标签文本 <div id = "images" > <a>< / a> < / div> response.xpath( '//div[@id="images"]/a/text()' ).extract_first() 获取属性 base标签的href属性 response.xpath( '//base/@href' ).extract() response.css( 'base::attr(href)' ).extract() href包含image的 response.css( 'a[href*=image]::attr(href)' ).extract() response.xpath( '//a[contains(@href,"image")]/@href' ).extract() a标签包含image的子标签img的src属性 response.xpath( '//a[contains(@href,"image")]/img/@src' ).extract() response.css( 'a[href*="image"] img::attr(src)' ).extract() re选择器 response.xpath().re( 'Name:(.*)' ) 获取匹配 () 里面的所有, re_first()获取第一个 如果没有匹配返回 None 也可以 .extract_first( '自定义返回' )<br>解决中文乱码问题: scrapy crawl zymkdouluodalu - o file .json - s FEED_EXPORT_ENCODING = utf - 8 |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义