爬虫开发需要掌握的知识点

第一篇：爬虫基本原理

第二篇：环境安装与搭建

第三篇：网页抓取：urllib，requests，aiohttp，selenium，Splash

第四篇：网页解析：re，lxml，BeautifulSoup，pyquery

第五篇：数据存储：JSON，XML，CSV，Mysql，Mongodb，Redis

第六篇：高性能爬虫：

第七篇：Web组件：Flask，Tornado

第八篇：反爬之验证码破解：Tesserocr，滑动验证码破解，九宫格验证码破解

第九篇：反爬之池子：ADSLProxy，ProxyPool（代理池），CookiesPool（Cookie池）

第十篇：App抓取：Charles，mitmproxy，mitmdump，Appium

第十一篇：爬虫框架之：pyspider，Scrapy，Scrapy-Redis，Scrapy-Splash

第十二篇：管理部署：Docker，Scrapyd，Scrapyd-API，Scrapyd-Client，Gerapy

第十三篇：项目实战

posted @ 2024-08-30 16:45 鲸鱼的海老大阅读(11) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

昵称：鲸鱼的海老大
园龄： 7年1个月
粉丝： 2
关注： 8

2025年3月

日

一

二

三

四

五

六

不积跬步无以至千里