【网络爬虫】 预备知识
一. 正则表达式之常用表达式
正则表达式里有很多东西,学精不易,但做爬虫不需要学精,只要会其中部分就行,下面将介绍本人常用的表达式,基本够用了。
1. 去头去尾 --- (?<=...)...(?=...)
该表达式是本人用的最多的,如题意,去头去尾匹配中间,匹配单条数据时非常好用,正则好写,容易理解,且匹配出来的东西就是想要的
2. 分组 ---(?<组名>...)...
该表达式主要用在用一个正则匹配多条数据时使用
会了上面2个基本就没问题了
二. 抓包工具,做爬虫这是至关重要的,没有工具基本是做不出来的
这里推荐 ie11 自带的 F12。
目前还没发现抓不到的包,而且自带搜索功能也很给力
三. Http
1. 头信息 :
a. Accept -- 接收到数据的类型,常见的有 html,txt, js, css, jpg
b. Referer -- 上次请求的 url
c. User-Agent -- 浏览器类型
d. Host -- 抓取网站域名
e. Cookie -- 头信息里最重要的,上面几个参数基本都可以通过抓包工具获取,但 Cookie 有些会失效 ,所以需要自己解析并仿照
2. 发包方式 :
a. 发包方式有2中 : GET 和 POST 可以有抓包工具获取
b. GET 方式较 POST 要简单, GET 的参数是放在 Url 里的,仿照起来较简单
c. POST 方式,POST 参数一般都会经过加密处理,而且还有些参数是通过 js 计算得到的,要想仿照就比较难了,尤其是登录的时候,对密码的加密,而且一般还会涉及到 Cookie,还有些网站有防爬验证,所以能不能成功大多看网站的安全性。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?