python奇葩反爬-你是故意的还是不小心的
问题
在挖掘数据时,数据存在于js文件内,所以主要思路就是,把数据提取出来,直接转json格式,通过字典的键索引获取数据。奈何在转json格式的时候一直报错。报错:Expecting value: line 1 column 2012 (char 1)
我总不能一个一个字符地数吧!!
问题分析
通过json在线解析定位到了错误位置,然后发现这有个反爬。这个反爬并不涉及参数加密、混淆等手法。纯属是针对爬虫开发语言规则做出的反爬。
部分页面源码如下:

这里的\u0022
指的就是双引号("),转换一下就是"introduction":"{"html":"我司是一家拥有多年羊毛衫生产经验的专业生产厂家"}"
不难发现,这里有一个错误,就是双引号套双引号"{"html":"..."}"
,我们只需要用replace
把双引号替换成单引号就可以了。
# reInfo是获取到的文本
reInfo = reInfo.replace("\"html\":\"", "\'html\':\'"))
麻了,真不知道这位前端大哥是故意的还是不小心的!!!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律