上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 28 下一页
摘要: 1、可以使用`yield scrapy.FormRequest(url,formdata,callback)`方法发送POST请求。 其中构造参数formdata可以是字典,也可以是可迭代的(key,value)元组,代表着需要提交的表单数据。 2、如果希望程序执行一开始就发送POST请求,可以重写 阅读全文
posted @ 2020-05-12 14:12 Norni 阅读(431) 评论(0) 推荐(0) 编辑
摘要: Scrapy提供了log功能,可以通过logging模块使用 1、在settings.py配置Logging ``` # 添加如下代码 LOG_FILE = "xxxSpider.log" LOG_LEVEL="INFO" ``` (1)`LOG_ENABLED`:默认:True,启用logging 阅读全文
posted @ 2020-05-12 12:02 Norni 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 1、简介 通过命令可以快速创建CrawlSpider模板:`scrapy genspider -t crawl tencent tencent.com` `scrapy.spiders.CrawlSpider`,它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页 阅读全文
posted @ 2020-05-12 11:46 Norni 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 1、官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html 2、Spider简介 Spider类定义了如何爬取某个(或某些)网站。包括爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取it 阅读全文
posted @ 2020-05-11 21:18 Norni 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 1、官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html 2、简介 当item在Spider中被收集之后,它会将被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理 阅读全文
posted @ 2020-05-11 20:10 Norni 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 1、简介 Scrapy终端是一个交互终端,可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看它们的工作方式,方便在爬取的网页中提取数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终 阅读全文
posted @ 2020-05-11 17:38 Norni 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 1、新建项目 (1)创建一个新的Scarpy项目,进入自定义的项目目录中,运行命令:`scrapy startproject mySpider` 说明:(1)mySpider为项目名称 (2)运行这条命令后,会生成一个mySpider的文件夹,里面存放创建的spider项目 (2)mySpider的 阅读全文
posted @ 2020-05-11 16:15 Norni 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 1、简介 (1)Scrapy是用纯python实现的,一个为了爬取网站数据、提取结构性数据而编写的应用框架。 (2)框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 (3)Scrapy使用了Twisted(其主要对手是Tornado)异步网络框架来处理网 阅读全文
posted @ 2020-05-11 10:56 Norni 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 1、问题描述 用selenium模拟登录豆瓣的时候发现无法定位到登录选项,查看网页源代码发现嵌套了iframe iframe标记又叫浮动帧标记,可以用它将一个HTML文档嵌入在一个HTML中显示,<iframe></iframe>所包含的内容与整个页面是一个整体,应用iframe可以在同一个页面中多 阅读全文
posted @ 2020-05-11 09:00 Norni 阅读(511) 评论(0) 推荐(0) 编辑
摘要: 1、Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自动加载页 阅读全文
posted @ 2020-05-10 21:41 Norni 阅读(228) 评论(0) 推荐(0) 编辑
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 28 下一页