爬虫流程概述

爬虫,就是给网站发起请求,并从相应中提取需要的数据的自动化程序

①发起请求,获取相应

通过http库,对目标站点进行请求。等同于自己打开浏览器,输入网址

常用库:urllib、urllib3、requests

服务器会返回请求的内容,一般为:html、二进制文件(视频,音频)、文档、json字符串等

②解析内容

寻找自己需要的信息,就是利用正则表达式或者其他库获取目标信息

常用库:re、beautifulsoup4

③保存数据

将解析得到的数据持久化到文件或者数据库中

posted @ 2020-05-30 00:30  chuyaoxin  阅读(224)  评论(0编辑  收藏  举报