随笔 - 134, 文章 - 0, 评论 - 0, 阅读 - 21227

我学的爬虫课有：

樵夫：樵夫
12800：12800
用到的正则的练习的网站：正则表达式练习

爬虫是什么？

网络爬虫（Web Spider）又称“网络蜘蛛”或“网络机器人”，它是一种按照一定规则从 Internet 中获取网页内容的程序。

原理：

爬虫程序之所以可以抓取数据，是因为爬虫能够对网页进行分析，并在网页中提取出想要的数据。在学习 Python 爬虫模块前，我们有必要先熟悉网页的基本结构，这是编写爬虫程序的必备知识。

HTML（超文本标记语言）、CSS（层叠样式表）和 JavaScript（简称“JS”动态脚本语言）

准备：

Python语言
Web前端
HTTP协议

第一个爬虫:

# 1.服务器渲染：在服务器那边直接把服务器的数据和hrml整合在一起。统一返回给浏览器
# 2.客户端渲染：第一次请求只要一个html骨架，第二次的请求拿到数据，进行数据展示
# 在源代码中，拿不到数据

# 熟练使用浏览器的抓包工具
# HTTP协议（TCP/IP SOAP SMTP 协议）《超文本传输协议》
# 当前的url遵循规则
# 1.请求：
#      请求行-》 请求方式 请求的url地址 协议
#      请求头 -》 放一些服务器需要使用的附加信息
#
#      请求体 -》一般放一些请求的参数
#  2.状态行-》 协议 状态码（302--重定向）
#      响应头-》放一些客户端使用一些的附加信息
#
#      相应体-》服务器返回的真正客户端要用的内容（HTML,json）
# 相对重要的
#    1.user-agent ：请求载体的身份标识
#    2.referer：防盗链（反爬用到）
#    3.cookie：本地的字符数据信息（用户登录信息 反爬的token）
#    响应头的一些。。。
#    1.cookie：本地的字符串数据信息（用户登录反爬的token）
#    2.各种神奇的字符串（一般都是token，一般放反爬 看经验）
#  请求方式 GET显示提交 POST (更新）隐示提交

from urllib.request import urlopen
url = "http://www.baidu.com"
resp = urlopen(url)
# print(resp.read().decode('utf-8'))
with open("baidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode('utf-8'))
    print("over")
    resp.close()