2020 年 5月 11 日随笔档案 - Norni

2020年5月11日

摘要： 1、官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html 2、Spider简介 Spider类定义了如何爬取某个（或某些）网站。包括爬取的动作（例如：是否跟进链接）以及如何从网页的内容中提取结构化数据（爬取it 阅读全文

posted @ 2020-05-11 21:18 Norni 阅读(193) 评论(0) 推荐(0) 编辑

四、Item Pipeline

摘要： 1、官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html 2、简介当item在Spider中被收集之后，它会将被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理阅读全文

posted @ 2020-05-11 20:10 Norni 阅读(183) 评论(0) 推荐(0) 编辑

三、Scrapy Shell

摘要： 1、简介 Scrapy终端是一个交互终端，可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看它们的工作方式，方便在爬取的网页中提取数据。如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终阅读全文

posted @ 2020-05-11 17:38 Norni 阅读(165) 评论(0) 推荐(0) 编辑

二、Scrapy案例入门

摘要： 1、新建项目（1）创建一个新的Scarpy项目，进入自定义的项目目录中，运行命令：`scrapy startproject mySpider` 说明：（1）mySpider为项目名称（2）运行这条命令后，会生成一个mySpider的文件夹，里面存放创建的spider项目（2）mySpider的阅读全文

posted @ 2020-05-11 16:15 Norni 阅读(247) 评论(0) 推荐(0) 编辑

一、Scrapy简介

摘要： 1、简介（1）Scrapy是用纯python实现的，一个为了爬取网站数据、提取结构性数据而编写的应用框架。（2）框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。（3）Scrapy使用了Twisted(其主要对手是Tornado)异步网络框架来处理网阅读全文

posted @ 2020-05-11 10:56 Norni 阅读(353) 评论(0) 推荐(0) 编辑

selenium定位iframe中的元素

摘要： 1、问题描述用selenium模拟登录豆瓣的时候发现无法定位到登录选项，查看网页源代码发现嵌套了iframe iframe标记又叫浮动帧标记，可以用它将一个HTML文档嵌入在一个HTML中显示，<iframe></iframe>所包含的内容与整个页面是一个整体，应用iframe可以在同一个页面中多阅读全文

posted @ 2020-05-11 09:00 Norni 阅读(511) 评论(0) 推荐(0) 编辑

公告