2019 年 8月 9 日随笔档案 - 笑得好美

2019年8月9日

摘要：增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为I 阅读全文

posted @ 2019-08-09 23:36 笑得好美阅读(567) 评论(0) 推荐(0) 编辑

scrapy请求发送详解

摘要： scrapy自动发送请求对start_urls列表中存储的起始url进行过请求的发送并没有通过手动实现，但是在parse函数中还是获取到了响应数据，这是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests（self）这个方法，该方法就可以对start_urls列表中的ur 阅读全文

posted @ 2019-08-09 23:34 笑得好美阅读(1762) 评论(0) 推荐(0) 编辑

scrapy五大核心组件

摘要： scrapy五大核心组件引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 阅读全文

posted @ 2019-08-09 23:20 笑得好美阅读(242) 评论(0) 推荐(0) 编辑

scrapy实现数据持久化、数据库连接、图片文件下载及settings.py配置

摘要：数据持久化的两种方式：（1）基于终端指令的持久化存储；（2）基于管道的持久化存储基于终端指令的持久化存储在爬虫文件的parse方法中必须要return可迭代对象类型（通常为列表或字典等）的返回值，该返回值作为基于终端指令持久化指定文件的输出内容。基于管道的持久化存储 (1)编写爬虫文件进行数据阅读全文

posted @ 2019-08-09 23:11 笑得好美阅读(839) 评论(0) 推荐(1) 编辑

scrapy框架简介与安装启动

摘要： Scrapy 是一个专业的、高效的爬虫框架，它使用专业的 Twisted 包（基于事件驱动的网络引擎包）高效地处理网络通信，使用 lxml（专业的 XML 处理包）、cssselect 高效地提取 HTML 页面的有效信息，同时它也提供了有效的线程管理。安装scrapy pip3 install 阅读全文

posted @ 2019-08-09 18:14 笑得好美阅读(708) 评论(0) 推荐(0) 编辑

笑得好美

公告