一、开发环境搭建介绍
- Anacanda开发环境
- Anacanda是一个基于数据分析和机器学习的集成环境(给我们集成好了数据分析和机器学习对应的各种环境和模块)
- jupyter就是Anacanda这个集成环境提供的一个基于浏览器可视化的编码工具。
- 注意事项:
- 在环境搭建好的时候只需要安装Anacanda。安装路径中必须是纯英文且不可以出现特殊符号。
- 测试安装好了没有:
-
- 打开终端:jupyter notebook按下回车。说明安装成功,且环境变量也配置成功。
-
- 在你所有的程序中(点击windows键),找寻有没有一个叫做anacanda的文件夹,点击该文件夹如果文件夹下方出下一个叫navegator的程序,也表示安装成功。只不过环境变量还没有配置好
- 如何启动jupyter
- 方式一:配置好了环境变量,直接在终端录入jupyter notebook按下回车即可。
- 方式二:没有配置环境变量,打开navegator,点击左上角选项,点击jupyter notebook图标下的lauch启动
- 推荐:点击左上角的environments
- 通过点击open terminal打开终端,在该终端中录入jupyter notebook按下回车即可。
二、jupyter的基本使用
- 在终端中录入jupyter notebook指令后,表示我们在本机启动一个服务。然后会自动打开你的默认浏览器。
- 注意:你在执行jupyter notebook指令的终端,可以进入到指定的目录中执行jupyter notebook指令后,则打开的浏览器显示的页面就是你当前终端对应目录的目录结构。
- 你终端对应的目录结构就是你浏览器打开jupyter页面中的根目录。
- new新建
- python3:新建一个jupyter的源文件(重点)
- 有cell组成:cell就是一行可编辑框。
- cell的作用:
- 用来根据不同的模式进行代码和笔记的编写。编写好的代码和笔记可以直接在当前文件中运行,查看到运行结果!
- cell模式:
- code:可以编写python代码
- code模式的cell可以写一行代码或多行代码。
- 特性:编写代码的顺序是无所谓的,但是执行代码的顺序一定是自上向下的。
- 只需要在一个cell中定义相干变量或者函数或者类(相关定义),当该cell执行后,则定义的内容就会被加载到当前源文件的缓存中,那么表示在其他任意的cell中都可以直接使用之前定义好的加载到缓存中的定义。
- markdown:编写笔记。可以使用markdown集成好的指令指定文字的样式,也可以直接使用html标签制定文字的样式。
- folder:新建一个文件夹
- text file:新建一个任意后缀的文本文件
- terminal:新建一个基于浏览器的终端。
- 快捷键的使用
- 插入cell:a(在目标cell的上面插入一个cell),b(在目标cell的下面插入一个cell)
- 删除cell:x,双击d
- 执行cell:shift+enter
- 切换cell的模式:m(将代码格式切换成笔记格式),y(将笔记格式切换成代码格式)
- cell执行后,在cell的左侧双击就可以回到cell的可编辑模式
- 执行结果的收回:在执行结果左侧双击即可
- 打开帮助文档:shift+tab
- 撤销:z
三、爬虫概述
- 什么是爬虫?
- 就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程
- 关键词抽取:
- 模拟:浏览器就是一个纯天然最原始的爬虫工具
- 抓取:
- 抓取一整张页面源码数据
- 抓取一整张页面中的局部数据
- 爬虫的分类
- 通用爬虫
- 聚焦爬虫
- 增量式爬虫
- 用来监测网站数据更新情况,以便爬取到网站最新更新出来的数据
- 分布式爬虫:
- 反爬机制
- 是作用到门户网站中,如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或措施阻止爬虫程序爬取其数据。
- 反反爬机制
- 是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据
- 课程第一个反爬机制:
- robots协议:防君子不妨小人
- 是一个纯文本的协议,协议中规定该网站中哪些数据可以被那些爬虫爬取,哪些不可以。
- 破解:
posted @
2021-06-04 11:31
今天捡到一百块钱
阅读(
136)
评论()
编辑
收藏
举报