爬虫基础-爬虫介绍及环境准备
-
什么是爬虫
- 通过编写程序,让其模拟浏览器上网,然后去互联网上爬取数据的过程
- 关键字:
- 模拟:所谓的浏览器就是一款纯天然爬虫工具。
- 爬取:
- 抓取到一张页面的一整张数据
- 抓取页面中的局部数据
-
爬虫在使用场景中的分类?
- 通用爬虫
- 需要将一整张数据进行爬取
- 聚焦爬虫
- 需要将页面中局部的指定数据进行爬取
- 关联:聚焦爬虫是需要建立在通用爬虫基础之上
- 增量式爬虫
- 用于检测网站数据更新的情况。爬取网站中最新更新出来的数据
- 分布式爬虫
- 搭建一个分布式机群,可以快速的进行海量数据的爬取
- 通用爬虫
-
爬虫合法性探究
- 如果爬虫程序没有影响对方网站的正常运行且没有爬取相关涉及侵权的数据
-
爬虫的核心
- 反爬机制
- 门户网站在服务器端会设置一些机制或策略来阻止爬虫进行数据的爬取
- 反反爬策略
- 爬虫需要破解网站指定的反爬机制从而爬取到网站的数据
- 反爬机制
anaconda
-
anaconda是一个基于数据分析+机器学习的集成环境。
-
jupyter:anaconda提供的一个基于浏览器可视化的编码工具。
-
安装了anaconda后,需要在终端录入jupyter notebook指令
- 注意:jupyter notebook指令对应的终端目录就是jupyter启动后的根目录
-
jupyter的基本操作
- .ipynb:jupyter中的一个源文件,代码编写就要基于该源文件。该源文件是由cell组成的
- cell的使用
- cell是分成了两种不同的模式:
- code:用来编写程序的
- markdown:用来编写笔记
- cell是分成了两种不同的模式:
- 快捷键:
- 添加cell:a,b
- 删除cell:x
- 执行cell:Shift+Enter
- 切换cell的模式:
- code -->markdown:m
- 反之:y
- 查看帮助文档:shift+tab