摘要: 1、官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html 2、Spider简介 Spider类定义了如何爬取某个(或某些)网站。包括爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取it 阅读全文
posted @ 2020-05-11 21:18 Norni 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 1、官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html 2、简介 当item在Spider中被收集之后,它会将被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理 阅读全文
posted @ 2020-05-11 20:10 Norni 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 1、简介 Scrapy终端是一个交互终端,可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看它们的工作方式,方便在爬取的网页中提取数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终 阅读全文
posted @ 2020-05-11 17:38 Norni 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 1、新建项目 (1)创建一个新的Scarpy项目,进入自定义的项目目录中,运行命令:`scrapy startproject mySpider` 说明:(1)mySpider为项目名称 (2)运行这条命令后,会生成一个mySpider的文件夹,里面存放创建的spider项目 (2)mySpider的 阅读全文
posted @ 2020-05-11 16:15 Norni 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 1、简介 (1)Scrapy是用纯python实现的,一个为了爬取网站数据、提取结构性数据而编写的应用框架。 (2)框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 (3)Scrapy使用了Twisted(其主要对手是Tornado)异步网络框架来处理网 阅读全文
posted @ 2020-05-11 10:56 Norni 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 1、问题描述 用selenium模拟登录豆瓣的时候发现无法定位到登录选项,查看网页源代码发现嵌套了iframe iframe标记又叫浮动帧标记,可以用它将一个HTML文档嵌入在一个HTML中显示,<iframe></iframe>所包含的内容与整个页面是一个整体,应用iframe可以在同一个页面中多 阅读全文
posted @ 2020-05-11 09:00 Norni 阅读(511) 评论(0) 推荐(0) 编辑