爬虫的基本原理

一.爬虫是什么

　模拟浏览器发送请求---->下载网页代码------>只有提取有用的数据------>存放于数据库或文件中

1.发送请求

　　使用http库向目标站点发起请求，即发送一个Request

　　Request包含：请求头，请求体

2.获取响应内容b

　　如果服务器能正常响应，则会得到一个Response

　　Response包含:html,json,图片，视频等
3.解析内容

解析html数据：正则表达式，第三方解析库和Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以b的方式写入文件

4.保存数据

数据库

文件

1.总结爬虫流程:

　　爬虫----->解析------->存储

2.爬虫所需工具

　　请求库:request,selenium

　　解析库:正则,beautifulsoup,pyquery

　　存储库:文件，MySQL,Mongodb,Redis

3.爬虫常用框架:

　　scrapy

posted @ 2019-12-02 22:13 s686编程传阅读(239) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页