爬虫常见的面试题1

一、我们获取数据的方式都有哪几种，分别是什么？

企业生产数据
数据平台购买数据
政府机构公开数据
数据管理咨询公司获取数据
通过爬虫爬取数据

二、爬虫的简介

爬虫定义：网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
爬虫的分类：

通用爬虫：通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
聚焦爬虫：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

三、浏览器请求url的过程

浏览器首先会解析url，向url所对应的服务器发送请求。
服务器会将该url所对应的html数据进行返回，浏览器收到返回的html，会继续请求html中css，js，images等静态资源，最终按照html的语法完整的显示到页面。

posted @ 2021-09-28 21:04 自信且从容阅读(176) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部