python爬虫爬小说网站涉及到(js加密,CSS加密)
我是对于xxxx小说网进行爬取只讲思路不展示代码
请见谅
一.涉及到的反爬
-
js加密
-
css加密
-
请求头中的
User-Agent
以及 cookie
二.思路
1.对于js加密
对于有js加密信息,我们一般就是找到他加密的js
使用execjs
模块来执行js代码即可
怎么找可以参考我之前对于知乎的爬取
2.对于css加密
常见的css加密就是加css样式中的before
或者after
来插入内容
所有呢我们一般使用
from request-html import html
然后利用字符串的拼接拼接成一个完整的html字符串
然后html = HTML(html=html字符串)
转换成一个html对象
最后呢bingo调用html对象的render
执行js代码
把藏属性里的字符串拿出来
3.对于cookie
利用session
这个对象进行自动存储cookie
三.pycharm打印机制的漏洞
这个爬小说时候会碰到
你print(response.text)
的时候为空
其实不一定是空,最好的方式再进行文件存储
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理