爬虫简介

爬虫简介

我们一般情况
	都是通过浏览器正常访问服务端获取资源浏览器展示给用户看

爬虫
	模拟浏览器发送请求 获取网页源数据 内部自动解析处理(目标数据)  存放于数据库中
    
不夸张的概括一下
	互联网就像是蜘蛛网,而爬虫就像是网上的蜘蛛
    理论情况下只要给我们一个落脚点,我们就可以顺着互联网将互联网上面的所有的数据全部爬取下来
    
爬虫的价值
	可以用最小的代价换取最丰厚的资源
    
# 爬虫不要肆意的滥用,很有可能就去喝茶了

爬虫基本流程

发送请求----->获取响应----->解析数据----->保存数据

请求方式

"""
URL:统一资源定位符(网址)
"""

1.get请求
	get请求就类似于朝别人要数据
    	eg:浏览器地址栏输入网址回车朝该地址要数据
       
    get请求携带数据的方式非常的具有特点,只能跟在网址的后面
    	url?username=jason&password=123
        get请求携带的参数只能是不敏感的数据,并且get请求携带的数据大小有限制
            
2.post请求
	post请求就类似于你朝别人提交数据
    	eg:用户登录要将你的用户名和密码发送给后端去数据库校验
            
	post请求携带数据的方式是比较隐蔽的,是放在请求体里面的
    	数据相对来说比较安全,并且数据量较大

HTTP协议

超文本传输协议
	规定了浏览器与服务端之间数据交互的格式
   
1.请求数据的格式
	请求首行(请求方式 协议版本(HTTP/1.1) URL)
    请求头(一堆key:value键值对)
    
    请求体(post请求携带的数据)

2.响应数据的格式
	响应首行(协议版本 状态码 描述)
    响应头(一堆key:value键值对)
    
    响应体(展示给用户看的页面)
    
3.响应状态码
	用简单的数字来描述一串中文意思
    1XX:服务端已经接收到了你的数据正在处理,你可以继续提交数据
    2XX:请求已经响应成功 已经返回了想要的数据(200 OK)
    3XX:重定向(原本想访问A页面但是莫名的跳转到了B页面)
    4XX:请求错误(404请求资源不存在,403请求不符合条件)
    5XX:服务器内部错误(代码出现bug了,机房着火了,服务器断电了...500)
    '''
    响应状态码每个公司都可以自己再定制一套
    '''

HTML超文本标记语言

是构造网页的骨架

HTML的注释
<!--注释-->
在书写前端代码的时候 由于前端代码非常的多和杂,所以都会借助注释来人为的划分区域
<!--导航条开始-->
<!--导航条结束-->
<!--左侧菜单栏开始-->
<!--左侧菜单栏结束-->

学习HTML的时候所见即所得

包含HTML标签代码的文件后缀名都是.html结尾
如果一个文件的后缀名是.html结尾,那么说明该文件需要用浏览器打开

前端三剑客

1.HTML
	构造网页的骨架
2.CSS
	给骨架添加样式
3.JS
	给骨架添加动态效果

文档结构

<html>
    <head></head>
    <body></body>
</html>
head内填入的内容基本都不是给人看的而是给浏览器看的
body内填入的内容就是展示给用户看的内容


HTML标签分类
	1.双标签
		<head></head>
	2.自闭和标签
		<img/>

标签两个非常重要的参数

id
	# 类似于身份证号 同一个html页面中id不能重复
    
class
	# 类似于面向对象里面的类的继承 一个标签可以有多个类
posted @ 2020-09-19 01:43  最冷不过冬夜  阅读(146)  评论(0编辑  收藏  举报