爬虫流程概述

爬虫，就是给网站发起请求，并从相应中提取需要的数据的自动化程序

①发起请求，获取相应

通过http库，对目标站点进行请求。等同于自己打开浏览器，输入网址

常用库：urllib、urllib3、requests

服务器会返回请求的内容，一般为：html、二进制文件（视频，音频）、文档、json字符串等

寻找自己需要的信息，就是利用正则表达式或者其他库获取目标信息

常用库：re、beautifulsoup4

将解析得到的数据持久化到文件或者数据库中

posted @ 2020-05-30 00:30 chuyaoxin 阅读(224) 评论(0) 编辑收藏举报

刷新页面返回顶部