爬虫简介
我们一般情况
都是通过浏览器正常访问服务端获取资源浏览器展示给用户看
爬虫
模拟浏览器发送请求 获取网页源数据 内部自动解析处理(目标数据) 存放于数据库中
不夸张的概括一下
互联网就像是蜘蛛网,而爬虫就像是网上的蜘蛛
理论情况下只要给我们一个落脚点,我们就可以顺着互联网将互联网上面的所有的数据全部爬取下来
爬虫的价值
可以用最小的代价换取最丰厚的资源
# 爬虫不要肆意的滥用,很有可能就去喝茶了
爬虫基本流程
发送请求----->获取响应----->解析数据----->保存数据
请求方式
"""
URL:统一资源定位符(网址)
"""
1.get请求
get请求就类似于朝别人要数据
eg:浏览器地址栏输入网址回车朝该地址要数据
get请求携带数据的方式非常的具有特点,只能跟在网址的后面
url?username=jason&password=123
get请求携带的参数只能是不敏感的数据,并且get请求携带的数据大小有限制
2.post请求
post请求就类似于你朝别人提交数据
eg:用户登录要将你的用户名和密码发送给后端去数据库校验
post请求携带数据的方式是比较隐蔽的,是放在请求体里面的
数据相对来说比较安全,并且数据量较大
HTTP协议
超文本传输协议
规定了浏览器与服务端之间数据交互的格式
1.请求数据的格式
请求首行(请求方式 协议版本(HTTP/1.1) URL)
请求头(一堆key:value键值对)
请求体(post请求携带的数据)
2.响应数据的格式
响应首行(协议版本 状态码 描述)
响应头(一堆key:value键值对)
响应体(展示给用户看的页面)
3.响应状态码
用简单的数字来描述一串中文意思
1XX:服务端已经接收到了你的数据正在处理,你可以继续提交数据
2XX:请求已经响应成功 已经返回了想要的数据(200 OK)
3XX:重定向(原本想访问A页面但是莫名的跳转到了B页面)
4XX:请求错误(404请求资源不存在,403请求不符合条件)
5XX:服务器内部错误(代码出现bug了,机房着火了,服务器断电了...500)
'''
响应状态码每个公司都可以自己再定制一套
'''
HTML超文本标记语言
是构造网页的骨架
HTML的注释
<!--注释-->
在书写前端代码的时候 由于前端代码非常的多和杂,所以都会借助注释来人为的划分区域
<!--导航条开始-->
<!--导航条结束-->
<!--左侧菜单栏开始-->
<!--左侧菜单栏结束-->
学习HTML的时候所见即所得
包含HTML标签代码的文件后缀名都是.html结尾
如果一个文件的后缀名是.html结尾,那么说明该文件需要用浏览器打开
前端三剑客
1.HTML
构造网页的骨架
2.CSS
给骨架添加样式
3.JS
给骨架添加动态效果
文档结构
<html>
<head></head>
<body></body>
</html>
head内填入的内容基本都不是给人看的而是给浏览器看的
body内填入的内容就是展示给用户看的内容
HTML标签分类
1.双标签
<head></head>
2.自闭和标签
<img/>
标签两个非常重要的参数
id
# 类似于身份证号 同一个html页面中id不能重复
class
# 类似于面向对象里面的类的继承 一个标签可以有多个类