爬虫基本原理
1. 什么是爬虫
爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
2. 爬虫工作原理
-
发送请求
模拟浏览器向web服务端
-
获取数据
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等 -
解析数据
解析得到有用的数据
-
保存数据
将数据存储到数据库或本地
3. 爬虫实现手段
3.1 请求库
3.2 解析库
- re
- BeautifulSoup4
- pyquery
3.3 存储库
3.4 其他工具
略