【爬虫】Python爬虫的基本思路

Posted on 2023-05-21 09:05 Charlie_ODD 阅读(68) 评论(0) 编辑收藏举报

基础

一句话描述：利用http/https协议，通过python自带的requests相关包，模拟真实的Web浏览器请求，将原本在浏览器所见的内容以代码的形式结构化的保存下所需要的信息。
等价工具：
- curl
- 浏览器抓包/F12
抓取任意一个网站的内容：
- 浏览器访问网站，打开开发者工具，找到所需要信息的URL、headers、及response的结构
- 使用curl命令复现上一步
- 编码爬虫脚本，等价编程复现前两步
- 拿到结果后，通常会对字符编码格式统一处理，response结构解析（json/re正则表达式），最后将“我们感兴趣的信息”做结构化的展示和保存
常用到的包：

import requests
import re
import pandas as pd
import json

示例：大麦演唱会信息

访问官网

官网入口: https://www.damai.cn/
找到演唱会检索信息页面：https://search.damai.cn/search.htm?spm=a2oeg.home.category.ditem_0.591b23e1VeeW0U&ctl=演唱会&order=1&cty=北京

开发者工具

找到想要的信息的url

条件查询项目列表：
- 找到curl命令：

curl 'https://search.damai.cn/searchajax.html?keyword=&cty=%E5%8C%97%E4%BA%AC&ctl=%E6%BC%94%E5%94%B1%E4%BC%9A&sctl=&tsg=0&st=&et=&order=1&pageSize=30&currPage=2&tn=' \
  -H 'authority: search.damai.cn' \
  -H 'accept: application/json, text/plain, */*' \
  -H 'accept-language: zh-CN,zh;q=0.9' \
  -H 'bx-v: 2.5.0' \
  -H 'cookie: cna=oxcgGJ2s5zUCAd6ywe2CLo4A; xlly_s=1; XSRF-TOKEN=91bc667b-b388-4801-9af5-b6bb519781ae; isg=BP__g5cvp18oPKNCPa5V2QsYjtOJ5FOGR4JodJHN8a6ToB4imbfp1-x24nBe-Cv-; tfstk=cT5NBPAaZ5Fat_7Y2BAV45v7Pu9OaBRDw0TkIkfxpb9E4kpM4svmDejURL9t8mvG.; l=fBLrt9wgNFgHDrQWBO5Bhurza77TfIOb8sPzaNbMiIEGa6OdtaiODNC_fvp6SdtjgT5VqetzEHwxcdUWSz4U-tMot9HJfRskeX9w8eM3N7AN.' \
  -H 'referer: https://search.damai.cn/search.htm?spm=a2oeg.home.category.ditem_0.591b23e1KckJWg&ctl=%E6%BC%94%E5%94%B1%E4%BC%9A&order=1&cty=%E5%8C%97%E4%BA%AC' \
  -H 'sec-ch-ua: "Not?A_Brand";v="8", "Chromium";v="108", "Google Chrome";v="108"' \
  -H 'sec-ch-ua-mobile: ?0' \
  -H 'sec-ch-ua-platform: "Windows"' \
  -H 'sec-fetch-dest: empty' \
  -H 'sec-fetch-mode: cors' \
  -H 'sec-fetch-site: same-origin' \
  -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36' \
  -H 'x-xsrf-token: 91bc667b-b388-4801-9af5-b6bb519781ae' \
  --compressed

用代码模拟curl url+headers+payload

  todo

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Docker常用命令【MacOS版】

· 隐私计算&隐语算法概览

· Python爬虫基础 _曾佳豪

· python爬虫基础

· Python 爬虫基础

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

~ C blogs ~

搜索

常用链接

最新随笔

积分与排名

随笔分类 (126)

随笔档案 (134)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

【爬虫】Python爬虫的基本思路

基础

示例：大麦演唱会信息

访问官网

开发者工具