一.爬虫的小知识:
我学的爬虫课有:
爬虫是什么?
网络爬虫(Web Spider)又称“网络蜘蛛”或“网络机器人”,它是一种按照一定规则从 Internet 中获取网页内容的程序。
原理:
爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据。在学习 Python 爬虫模块前,我们有必要先熟悉网页的基本结构,这是编写爬虫程序的必备知识。
HTML(超文本标记语言)、CSS(层叠样式表)和 JavaScript(简称“JS”动态脚本语言)
准备:
Python语言
Web前端
HTTP协议
第一个爬虫:
# 1.服务器渲染:在服务器那边直接把服务器的数据和hrml整合在一起。统一返回给浏览器 # 2.客户端渲染:第一次请求只要一个html骨架,第二次的请求拿到数据,进行数据展示 # 在源代码中,拿不到数据 # 熟练使用浏览器的抓包工具 # HTTP协议(TCP/IP SOAP SMTP 协议)《超文本传输协议》 # 当前的url遵循规则 # 1.请求: # 请求行-》 请求方式 请求的url地址 协议 # 请求头 -》 放一些服务器需要使用的附加信息 # # 请求体 -》一般放一些请求的参数 # 2.状态行-》 协议 状态码(302--重定向) # 响应头-》放一些客户端使用一些的附加信息 # # 相应体-》服务器返回的真正客户端要用的内容(HTML,json) # 相对重要的 # 1.user-agent :请求载体的身份标识 # 2.referer:防盗链(反爬用到) # 3.cookie:本地的字符数据信息(用户登录信息 反爬的token) # 响应头的一些。。。 # 1.cookie:本地的字符串数据信息(用户登录反爬的token) # 2.各种神奇的字符串(一般都是token,一般放反爬 看经验) # 请求方式 GET显示提交 POST (更新)隐示提交
from urllib.request import urlopen url = "http://www.baidu.com" resp = urlopen(url) # print(resp.read().decode('utf-8')) with open("baidu.html", mode="w", encoding="utf-8") as f: f.write(resp.read().decode('utf-8')) print("over") resp.close()
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!