2022 年 5月 10 日随笔档案 - 那就凑个整吧

2022年5月10日

摘要：一介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scrapy的Scheduler，让新的Schedul 阅读全文

posted @ 2022-05-10 16:56 那就凑个整吧阅读(12) 评论(0) 推荐(0) 编辑

Scrapy

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2022-05-10 16:55 那就凑个整吧阅读(213) 评论(0) 推荐(0) 编辑

Beautifulsoup4

摘要：一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文

posted @ 2022-05-10 16:54 那就凑个整吧阅读(32) 评论(0) 推荐(0) 编辑

selenium

摘要：一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium 阅读全文

posted @ 2022-05-10 16:53 那就凑个整吧阅读(13) 评论(0) 推荐(0) 编辑

那就凑个整吧

公告